website crawler

roket adam · Ocak 3, 2016

selam, paralı bir hosted serviste olan blogumu statik olarak daha ucuz bir hostinge koyma planım var. dolayısıyla tüm siteyi .html olarak çekmem gerekiyor. bu noktada kullandığım tüm crawler'lar saçmaladı.

tüm siteyi totalden indirip, html olarak çekecek bildiğiniz crawler var mıdır?

di · Ocak 3, 2016

Wordpress falansa eklentiler var statik halini uretmek icin. Yoksa da crawler ile olacak is degil pek. Ha ne yapabilirsin; sitemap varsa ya da sitemap generate edersen sonrasini ufak bi script ile halledersin.

Hatta links.txt diye bir dosyanin oldugunu ve dosyadaki her bir satirin mevcut bir sayfa URL'ini icerdigini varsayarsak mac/linux icin terminalde



	cat links.txt | while read LINK

	do

	echo "Fetching $LINK..."

	wget $LINK

	done

deyip mevcut folder altina link'ler dosya olarak indirilebilir. Bu arada uzanti eklenmesi gerekiyorsa -O parametresi ile dosya adi ve uzanti belirtilebilir ama isi biraz uzatiyor bu kismi.

wget yoksa sistemde alternatif olarak curl kullanilabilir komut olarak.

Yapamazsan 3-5 link koy ornek olarak tam komutu yazivereyim sabah ofise varinca.

Editor · Ocak 4, 2016

kutunu boşalt bi önce :)

pulkas · Ocak 4, 2016

web crawler diye gelen olursa http://import.io .
alternatif : https://www.kimonolabs.com/

------

Senin problem icin, database e ulasabiliyosan oradan sorguyla icerigi cekip alabilirsin belki? daha mi kolay olur?

hosting icinde soyle bi oneri, ziyaretci durumuna gore suradan ucretsiz bi hesap acip https://www.openshift.com/ oraya jekyll gibi wordpress gibi ... neyse iste bi duzenle gecebilirsin.domainide baglamak ucretsiz buna.

1gb alan veriyo.https://www.google.com.tr/search?q=openshift+cartridges+github&ie=utf-8&oe=utf-8&gws_rd=cr&ei=XSSKVufdFqHQygP99J3wDw buradan da istedigin duzeni kurabilirsin.

roket adam · Ocak 4, 2016

Database'e ulaşamıyorum maalesef. Site bu kendi üzerinde dizayn platformu sunan Squarespace üzerinde tutuluyor, 3. parti hiç bir erişime izin vermiyor maalesef. Denemek isteyenler için link bu:

http://cnr0.org

Aiko · Ocak 4, 2016

-Crawler- said:

bence sahibi konuşsun

pulkas · Ocak 4, 2016

"roket adam" said:

Database'e ulaşamıyorum maalesef. Site bu kendi üzerinde dizayn platformu sunan Squarespace üzerinde tutuluyor, 3. parti hiç bir erişime izin vermiyor maalesef. Denemek isteyenler için link bu:

http://cnr0.org

https://support.squarespace.com/hc/en-us/articles/206566687-Exporting-your-site

soyle bi sey var ama belki denemissindir.burada veriyi diyelim localhostta wordpress e aldiktan sonra istedigin hale getirirsin.

mesela : https://wordpress.org/plugins/export-to-text/

Editor · Ocak 4, 2016

"roket adam" said:

Database'e ulaşamıyorum maalesef. Site bu kendi üzerinde dizayn platformu sunan Squarespace üzerinde tutuluyor, 3. parti hiç bir erişime izin vermiyor maalesef. Denemek isteyenler için link bu:

http://cnr0.org

pöf halen kutun boş değil al

denedim böyle çıktı

https://www.amazon.com/clouddrive/share/veR1wmlcl8qbSKCZCPSD37x31AQFy5zT58BtR7Ttu4I?ref_=cd_ph_share_link_copy

di · Ocak 4, 2016

Olm niye inat ediyonuz anlamiyorumki,

Bak yaziyorum adim adim calistiracaginiz komutlari.

Once sitemap'i download ediceniz.



	wget cnr0.org/sitemap.xml

Sonra sitemap icinden link'leri extract ediceniz. static1.squarespace.com imajlarin host edildigi yer, haliyle onlari istemiyoruz simdilik. O yuzden grep -v var.



	sed '/loc/!d;s/.*>([^<]*)<.*/1/' sitemap.xml | grep -v static1.squarespace.com > links.txt

Son olarak da link'leri loop edip download ediceniz. Burda iki kilit nokta var, ilki wget parametreleri, ikincisi de request'ler arasindaki timeout zira cok abanirsaniz too many request'den patliyosunuz.



	cat links.txt | while read LINE

	do 

	echo "Downlading $LINE..." 

	echo ""

	wget -E -H -k -p $LINE

	sleep 5

	done

Oldu da bitti masallah.

Ha bu arada imajlar, font'lar falan harici lokasyonlarda host edildigi icin son bi find/replace yapmak gerekebilir html'ler icinde ama onuda en dandik editor (bizim editor degil) bile yapiyor.

Sypro · Ocak 7, 2016

di said:

...
ama onuda en dandik editor (bizim editor degil) bile yapiyor.

http://galeri7.uludagsozluk.com/245/savas-mi-istiyorsun-kamon_467784.jpg

sifkal · Mart 4, 2016

böyle bişe işini görebilir sanki
wget --mirror --no-parent --wait=1 --limit-rate=245K -r -p -U Mozilla cnr0.org

reyou · Mart 7, 2016

^ wget ve httrack ikiside sufer.

wget daha bir basarili gibi yalniz.

roket adam · Ağustos 23, 2017

HTTrack yemiyor abi. Banlanan arkadaş yapmıştı ona teşekkür bile edememişim :)

Şimdi tekrar lazım. Var mı nasıl sağlıklı bir şekilde çekeriz bilen? Bir yemek ısmarlarım.

reyou · Ağustos 23, 2017

HTTrack yemiyor derken?

roket adam · Ağustos 23, 2017

HTtrack olması gereken sonucu veremiyor ya. Bir çok linki uzakta bırakıyor, ne kadar uğraştıysam olmadı maalesef, tam offline çalıştırmıyor.

reyou · Ağustos 23, 2017

ne sitesi bu? bide 1-2 ornek ver nasil olmadi.

Zaten crawler dedigin seyden cok fazla bisey bekleyemezsin ki, asiri custom ayarlar olmadigini varsayiyorum.

HTTrack'in yapamayip baskasinin istedigi bicimde yapmasi bana uzak ihtimal geldi, istedigin sey en basic sey, siteyi bodoslama indirmek yani.

roket adam · Ağustos 23, 2017

Abi yazıyor işte, https://cnr0.org site bu.
Amaç da ödediğim kol gibi saas faturasından kurtulup amazon s3 üzerinde statik http olarak siteyi yayına vermek tekrardan.

reyou · Ağustos 23, 2017

kendi saas supportuna sornasa, vardir adamlarin belki export tool u.

roket adam · Ağustos 23, 2017

Adamlar tasarımla birlikte çıkarmıyor asla (haklı olarak), sadece içerik olarak veriyor sana. Ben raw text istemiyorum, bildiğin ne varsa html'e döksün çıkarsın.

neutrino · Ağustos 24, 2017

Tasariminda bisey yok ki sitenin, al raw texti yeniden olusturursun yarim saatte.

roket adam · Eylül 17, 2017

Abi tamam ben beceremiyorum, madem yarım saatlik iş birisi yapsın 50 lira göndereceğim hesabına kontrolleri yaptıktan sonra.

İstediğim şey net, tüm siteyi alsın statik html'e çevirsin, ben de alakasız bi yerde host ettiğimde backendi ile uğraşmayayım.

Tony_Stark · Eylül 17, 2017

"roket adam" said:

HTtrack olması gereken sonucu veremiyor ya. Bir çok linki uzakta bırakıyor, ne kadar uğraştıysam olmadı maalesef, tam offline çalıştırmıyor.

ZERSETZUNG yazısı ilgimi çekmedi değil, devam etsene öyle okuruz

roket adam · Eylül 18, 2017

ben de yazmak istiyorum da gerçekten hiç vaktim yok artık. statiğe çevirecek bile vaktim yok. zaten çeviremezsem kapatıcam siteyi. ayda 40-50 lira yakmaya başladı.

reyou · Eylül 18, 2017

hergun 5 sayfa manual olarak aktarsan simdiye bittiydi.

Tim · Eylül 18, 2017

di said:
Olm niye inat ediyonuz anlamiyorumki,

Bak yaziyorum adim adim calistiracaginiz komutlari.

Once sitemap'i download ediceniz.
	wget cnr0.org/sitemap.xml

	
Sonra sitemap icinden link'leri extract ediceniz. static1.squarespace.com imajlarin host edildigi yer, haliyle onlari istemiyoruz simdilik. O yuzden grep -v var.
	sed '/loc/!d;s/.*>([^<]*)<.*/1/' sitemap.xml | grep -v static1.squarespace.com > links.txt

	
Son olarak da link'leri loop edip download ediceniz. Burda iki kilit nokta var, ilki wget parametreleri, ikincisi de request'ler arasindaki timeout zira cok abanirsaniz too many request'den patliyosunuz.
	cat links.txt | while read LINE

	do 

	echo "Downlading $LINE..." 

	echo ""

	wget -E -H -k -p $LINE

	sleep 5

	done

	
Oldu da bitti masallah.

Ha bu arada imajlar, font'lar falan harici lokasyonlarda host edildigi icin son bi find/replace yapmak gerekebilir html'ler icinde ama onuda en dandik editor (bizim editor degil) bile yapiyor.

Yapiverecektim hayrina ama 1,5 sene once anlatmisim zaten adim adim yapilacaklari. Buna ragmen OP aglayip durmus. Su durumda sitenin kapanmasi bildigin dogal seleksiyon.

Giriş

website crawler

Öne çıkan mesajlar

roket adam

di

Editor

pulkas

roket adam

Aiko

pulkas

Editor

di

Sypro

sifkal

reyou

roket adam

reyou

roket adam

reyou

roket adam

reyou

roket adam

neutrino

roket adam

Tony_Stark

roket adam

reyou

Tim