[ Paticik.com | Forum | Kullanici Sozlesmesi | Üye Ol ]
» Forum Gezgini ... Üye Ol / Giris Yap
FORUM.PATICIK.COM
[ FORUM ANASAYFA ]  

[ Yeni Konu ] [ Mesaj Yaz ]
bagli degilsiniz: | Giris Yap | Üye Ol |
|+ Paticik.com Forumları
|-- |+ Pati Tech / Programlama
|-- |-- |+ website crawler...
Yazar RSS Konu: website crawler {2260}
Syf: ««/ 2 »»   [ A ]
Üye
medal 1k medal 5k medal 10k
ID § 04 Jan 2016, 00:32    [ Alintila ] [ Özel Mesaj ] [ Albüm ]
selam, paralı bir hosted serviste olan blogumu statik olarak daha ucuz bir hostinge koyma planım var. dolayısıyla tüm siteyi .html olarak çekmem gerekiyor. bu noktada kullandığım tüm crawler'lar saçmaladı.

tüm siteyi totalden indirip, html olarak çekecek bildiğiniz crawler var mıdır?

Elli lira gönderin--
www.cnr0.org/abimbiliravarmibe
--
Yörünge Disi
ID § 04 Jan 2016, 01:03    [ Alintila ] [ Özel Mesaj ] [ Albüm ]
Wordpress falansa eklentiler var statik halini uretmek icin. Yoksa da crawler ile olacak is degil pek. Ha ne yapabilirsin; sitemap varsa ya da sitemap generate edersen sonrasini ufak bi script ile halledersin.

Hatta links.txt diye bir dosyanin oldugunu ve dosyadaki her bir satirin mevcut bir sayfa URL'ini icerdigini varsayarsak mac/linux icin terminalde

cat links.txt | while read LINK
do
echo "Fetching $LINK..."
wget $LINK
done

deyip mevcut folder altina link'ler dosya olarak indirilebilir. Bu arada uzanti eklenmesi gerekiyorsa -O parametresi ile dosya adi ve uzanti belirtilebilir ama isi biraz uzatiyor bu kismi.

wget yoksa sistemde alternatif olarak curl kullanilabilir komut olarak.

Yapamazsan 3-5 link koy ornek olarak tam komutu yazivereyim sabah ofise varinca.

Afyon'dan vekilime taze taze kaymak lazim.

1 defa güncellendi. Son güncelleme 04/01/2016 01:04 tarihinde di tarafindan yapilmistir.
Yörünge Disi
ID § 04 Jan 2016, 02:30    [ Alintila ] [ Özel Mesaj ] [ Albüm ]
kutunu boşalt bi önce smiling smiley
Üye
medal 1k
ID § 04 Jan 2016, 09:55    [ Alintila ] [ Özel Mesaj ] [ Albüm ]
web crawler diye gelen olursa [import.io] .
alternatif : [www.kimonolabs.com]

------


Senin problem icin, database e ulasabiliyosan oradan sorguyla icerigi cekip alabilirsin belki? daha mi kolay olur?


hosting icinde soyle bi oneri, ziyaretci durumuna gore suradan ucretsiz bi hesap acip [www.openshift.com] oraya jekyll gibi wordpress gibi ... neyse iste bi duzenle gecebilirsin.domainide baglamak ucretsiz buna.

1gb alan veriyo.[www.google.com.tr] buradan da istedigin duzeni kurabilirsin.
Üye
medal 1k medal 5k medal 10k
ID § 04 Jan 2016, 11:08    [ Alintila ] [ Özel Mesaj ] [ Albüm ]
Database'e ulaşamıyorum maalesef. Site bu kendi üzerinde dizayn platformu sunan Squarespace üzerinde tutuluyor, 3. parti hiç bir erişime izin vermiyor maalesef. Denemek isteyenler için link bu:

[cnr0.org]

Elli lira gönderin--
www.cnr0.org/abimbiliravarmibe
--
Üye
medal 1k medal 5k
ID § 04 Jan 2016, 11:12    [ Alintila ] [ Özel Mesaj ] [ Albüm ]
Alinti
-Crawler-

bence sahibi konuşsun

karaktersiz
Üye
medal 1k
ID § 04 Jan 2016, 11:33    [ Alintila ] [ Özel Mesaj ] [ Albüm ]
Alinti
roket adam
Database'e ulaşamıyorum maalesef. Site bu kendi üzerinde dizayn platformu sunan Squarespace üzerinde tutuluyor, 3. parti hiç bir erişime izin vermiyor maalesef. Denemek isteyenler için link bu:

[cnr0.org]

[support.squarespace.com]

soyle bi sey var ama belki denemissindir.burada veriyi diyelim localhostta wordpress e aldiktan sonra istedigin hale getirirsin.

mesela : [wordpress.org]
Yörünge Disi
ID § 04 Jan 2016, 12:34    [ Alintila ] [ Özel Mesaj ] [ Albüm ]
Alinti
roket adam
Database'e ulaşamıyorum maalesef. Site bu kendi üzerinde dizayn platformu sunan Squarespace üzerinde tutuluyor, 3. parti hiç bir erişime izin vermiyor maalesef. Denemek isteyenler için link bu:

[cnr0.org]


pöf halen kutun boş değil al

denedim böyle çıktı

[www.amazon.com]

1 defa güncellendi. Son güncelleme 04/01/2016 12:34 tarihinde Editor tarafindan yapilmistir.
Yörünge Disi
ID § 04 Jan 2016, 13:33    [ Alintila ] [ Özel Mesaj ] [ Albüm ]
Olm niye inat ediyonuz anlamiyorumki,

Bak yaziyorum adim adim calistiracaginiz komutlari.

Once sitemap'i download ediceniz.
wget cnr0.org/sitemap.xml

Sonra sitemap icinden link'leri extract ediceniz. static1.squarespace.com imajlarin host edildigi yer, haliyle onlari istemiyoruz simdilik. O yuzden grep -v var.
sed '/loc/!d;s/.*>\([^<]*\)<.*/\1/' sitemap.xml | grep -v static1.squarespace.com > links.txt

Son olarak da link'leri loop edip download ediceniz. Burda iki kilit nokta var, ilki wget parametreleri, ikincisi de request'ler arasindaki timeout zira cok abanirsaniz too many request'den patliyosunuz.
cat links.txt | while read LINE
do 
echo "Downlading $LINE..." 
echo ""
wget -E -H -k -p $LINE
sleep 5
done

Oldu da bitti masallah.

Ha bu arada imajlar, font'lar falan harici lokasyonlarda host edildigi icin son bi find/replace yapmak gerekebilir html'ler icinde ama onuda en dandik editor (bizim editor degil) bile yapiyor.

Afyon'dan vekilime taze taze kaymak lazim.
Üye
medal 1k
ID § 07 Jan 2016, 06:27    [ Alintila ] [ Özel Mesaj ] [ Albüm ]
Alinti
di
...
ama onuda en dandik editor (bizim editor degil) bile yapiyor.



In a world without walls and fences, who needs Windows and Gates?
Üye
ID § 05 Mar 2016, 00:56    [ Alintila ] [ Özel Mesaj ] [ Albüm ]
böyle bişe işini görebilir sanki
wget --mirror --no-parent --wait=1 --limit-rate=245K -r -p -U Mozilla cnr0.org

[/quote]

yada
https://www.httrack.com/

I AM NOT GEEK. I'M ONLY LEVEL 12 PALADIN
Üye
medal 1k medal 5k medal 10k
ID § 07 Mar 2016, 21:07    [ Alintila ] [ Özel Mesaj ] [ Albüm ]
^ wget ve httrack ikiside sufer.

wget daha bir basarili gibi yalniz.
Üye
medal 1k medal 5k medal 10k
ID § 23 Aug 2017, 23:03    [ Alintila ] [ Özel Mesaj ] [ Albüm ]
HTTrack yemiyor abi. Banlanan arkadaş yapmıştı ona teşekkür bile edememişim smiling smiley

Şimdi tekrar lazım. Var mı nasıl sağlıklı bir şekilde çekeriz bilen? Bir yemek ısmarlarım.

Elli lira gönderin--
www.cnr0.org/abimbiliravarmibe
--


1 defa güncellendi. Son güncelleme 23/08/2017 23:18 tarihinde roket adam tarafindan yapilmistir.
Üye
medal 1k medal 5k medal 10k
ID § 23 Aug 2017, 23:21    [ Alintila ] [ Özel Mesaj ] [ Albüm ]
HTTrack yemiyor derken?
Üye
medal 1k medal 5k medal 10k
ID § 23 Aug 2017, 23:22    [ Alintila ] [ Özel Mesaj ] [ Albüm ]
HTtrack olması gereken sonucu veremiyor ya. Bir çok linki uzakta bırakıyor, ne kadar uğraştıysam olmadı maalesef, tam offline çalıştırmıyor.

Elli lira gönderin--
www.cnr0.org/abimbiliravarmibe
--
Syf: ««/ 2 »»   [ Y ]
[ Forum ] / [ Konu ]
=o=
[ Yeni Konu ] [ Mesaj Yaz ]
*Bu sayfadaki içerik, yazanların kiŞisel görüŞlerini belirtmektedir. KiŞiler, üye anlaŞmasında var olan Şartların bilincinde olmak yükümlülüğündedir. Üye anlaŞmasına göre, gönderilen her türlü içerik, içeriği göndermiŞ olarak görünen üye rumuz ismi ve üyenin kendisine aittir. Paticik.com ve yetkilileri, üyelerimizin göndermiŞ olduğu iŞ bu sayfada yazılı olarak bulunan içerik hakkında hiçbir yasal sorumluluk kabul etmemektedir. Yükümlülük altında olmasa dahi, var olan site içeriğinin bütünü veya bir kısmının site kurallarına uygunsuzluğu durumunda, iletiŞim sayfamızdan bize eriŞebilir, gereken düzenlemeleri yapmamızı sağlayabilirsiniz.
[ Paticik.com | Forum | Kullanici Sozlesmesi | Üye Ol ]
Iletisim : info [at] paticik.com
Secereli Dobermann | Londra Rehberi Copyright 2001-2015 @ Paticik.com
This forum is powered by Phorum