[ Paticik.com | Forum | Kullanici Sozlesmesi | Üye Ol ]
» Forum Gezgini ... Üye Ol / Giris Yap
FORUM.PATICIK.COM
[ FORUM ANASAYFA ]  

[ Yeni Konu ] [ Mesaj Yaz ]
bagli degilsiniz: | Giris Yap | Üye Ol |
|+ Paticik.com Forumları
|-- |+ Pati Tech / Programlama
|-- |-- |+ website crawler...
Yazar RSS Konu: website crawler {1922}
Syf: ««/ 2 »»   [ A ]
Üye
medal 1k medal 5k medal 10k
ID § 23 Aug 2017, 23:25    [ Alintila ] [ Özel Mesaj ] [ Albüm ]
ne sitesi bu? bide 1-2 ornek ver nasil olmadi.

Zaten crawler dedigin seyden cok fazla bisey bekleyemezsin ki, asiri custom ayarlar olmadigini varsayiyorum.

HTTrack'in yapamayip baskasinin istedigi bicimde yapmasi bana uzak ihtimal geldi, istedigin sey en basic sey, siteyi bodoslama indirmek yani.
Üye
medal 1k medal 5k medal 10k
ID § 23 Aug 2017, 23:43    [ Alintila ] [ Özel Mesaj ] [ Albüm ]
Abi yazıyor işte, [cnr0.org] site bu.
Amaç da ödediğim kol gibi saas faturasından kurtulup amazon s3 üzerinde statik http olarak siteyi yayına vermek tekrardan.

Elli lira gönderin--
www.cnr0.org/abimbiliravarmibe
--
Üye
medal 1k medal 5k medal 10k
ID § 23 Aug 2017, 23:55    [ Alintila ] [ Özel Mesaj ] [ Albüm ]
kendi saas supportuna sornasa, vardir adamlarin belki export tool u.
Üye
medal 1k medal 5k medal 10k
ID § 23 Aug 2017, 23:58    [ Alintila ] [ Özel Mesaj ] [ Albüm ]
Adamlar tasarımla birlikte çıkarmıyor asla (haklı olarak), sadece içerik olarak veriyor sana. Ben raw text istemiyorum, bildiğin ne varsa html'e döksün çıkarsın.

Elli lira gönderin--
www.cnr0.org/abimbiliravarmibe
--
Üye
medal 1k medal 5k
ID § 24 Aug 2017, 05:00    [ Alintila ] [ Özel Mesaj ] [ Albüm ]
Tasariminda bisey yok ki sitenin, al raw texti yeniden olusturursun yarim saatte.

1.618
Üye
medal 1k medal 5k medal 10k
ID § 17 Sep 2017, 22:29    [ Alintila ] [ Özel Mesaj ] [ Albüm ]
Abi tamam ben beceremiyorum, madem yarım saatlik iş birisi yapsın 50 lira göndereceğim hesabına kontrolleri yaptıktan sonra.

İstediğim şey net, tüm siteyi alsın statik html'e çevirsin, ben de alakasız bi yerde host ettiğimde backendi ile uğraşmayayım.

Elli lira gönderin--
www.cnr0.org/abimbiliravarmibe
--


1 defa güncellendi. Son güncelleme 17/09/2017 22:29 tarihinde roket adam tarafindan yapilmistir.
Üye
ID § 18 Sep 2017, 00:16    [ Alintila ] [ Özel Mesaj ] [ Albüm ]
Alinti
roket adam
HTtrack olması gereken sonucu veremiyor ya. Bir çok linki uzakta bırakıyor, ne kadar uğraştıysam olmadı maalesef, tam offline çalıştırmıyor.

ZERSETZUNG yazısı ilgimi çekmedi değil, devam etsene öyle okuruz

In a world of locked rooms, the man with the key is king. And honey, you should see me in a crown.
Üye
medal 1k medal 5k medal 10k
ID § 18 Sep 2017, 20:23    [ Alintila ] [ Özel Mesaj ] [ Albüm ]
ben de yazmak istiyorum da gerçekten hiç vaktim yok artık. statiğe çevirecek bile vaktim yok. zaten çeviremezsem kapatıcam siteyi. ayda 40-50 lira yakmaya başladı.

Elli lira gönderin--
www.cnr0.org/abimbiliravarmibe
--
Üye
medal 1k medal 5k medal 10k
ID § 18 Sep 2017, 22:23    [ Alintila ] [ Özel Mesaj ] [ Albüm ]
hergun 5 sayfa manual olarak aktarsan simdiye bittiydi.
Genel Yönetici
medal 1k
ID § 19 Sep 2017, 00:20    [ Alintila ] [ Özel Mesaj ] [ Albüm ]
Alinti
di
Olm niye inat ediyonuz anlamiyorumki,

Bak yaziyorum adim adim calistiracaginiz komutlari.

Once sitemap'i download ediceniz.
wget cnr0.org/sitemap.xml

Sonra sitemap icinden link'leri extract ediceniz. static1.squarespace.com imajlarin host edildigi yer, haliyle onlari istemiyoruz simdilik. O yuzden grep -v var.
sed '/loc/!d;s/.*>\([^<]*\)<.*/\1/' sitemap.xml | grep -v static1.squarespace.com > links.txt

Son olarak da link'leri loop edip download ediceniz. Burda iki kilit nokta var, ilki wget parametreleri, ikincisi de request'ler arasindaki timeout zira cok abanirsaniz too many request'den patliyosunuz.
cat links.txt | while read LINE
do 
echo "Downlading $LINE..." 
echo ""
wget -E -H -k -p $LINE
sleep 5
done

Oldu da bitti masallah.

Ha bu arada imajlar, font'lar falan harici lokasyonlarda host edildigi icin son bi find/replace yapmak gerekebilir html'ler icinde ama onuda en dandik editor (bizim editor degil) bile yapiyor.

Yapiverecektim hayrina ama 1,5 sene once anlatmisim zaten adim adim yapilacaklari. Buna ragmen OP aglayip durmus. Su durumda sitenin kapanmasi bildigin dogal seleksiyon.
Yörünge Disi
ID § 19 Sep 2017, 00:23    [ Alintila ] [ Özel Mesaj ] [ Albüm ]
Crawler in my skin...

s.e.n.k.o Sucuk Ekmek Ne Kadar Oldu
Üye
medal 1k medal 5k medal 10k
ID § 20 Sep 2017, 18:21    [ Alintila ] [ Özel Mesaj ] [ Albüm ]
abi o kadar pratik bir şey değil işte diye düşünüyorum.

Elli lira gönderin--
www.cnr0.org/abimbiliravarmibe
--
Genel Yönetici
medal 1k
ID § 20 Sep 2017, 18:58    [ Alintila ] [ Özel Mesaj ] [ Albüm ]
Armut pisip agzima dusmesin, direkt cignenmis halde midemde var olsun diyorsun. Ilginc tabi.
Üye
medal 1k
ID § 20 Sep 2017, 19:26    [ Alintila ] [ Özel Mesaj ] [ Albüm ]
buarada httrackin ilk defa calismadigi site goruyorum, yillardir site indiririm kendisiyle..

sen ayar yapamamissindir dedim ama gecen bakmistim hakkaten olmadi

kesin dogru ayarla indiriliyordur tabii ki ama gene de ilginc nasil bir link structure'i varsa.
Syf: ««/ 2 »»   [ Y ]
[ Forum ] / [ Konu ]
=o=
[ Yeni Konu ] [ Mesaj Yaz ]
*Bu sayfadaki içerik, yazanların kiŞisel görüŞlerini belirtmektedir. KiŞiler, üye anlaŞmasında var olan Şartların bilincinde olmak yükümlülüğündedir. Üye anlaŞmasına göre, gönderilen her türlü içerik, içeriği göndermiŞ olarak görünen üye rumuz ismi ve üyenin kendisine aittir. Paticik.com ve yetkilileri, üyelerimizin göndermiŞ olduğu iŞ bu sayfada yazılı olarak bulunan içerik hakkında hiçbir yasal sorumluluk kabul etmemektedir. Yükümlülük altında olmasa dahi, var olan site içeriğinin bütünü veya bir kısmının site kurallarına uygunsuzluğu durumunda, iletiŞim sayfamızdan bize eriŞebilir, gereken düzenlemeleri yapmamızı sağlayabilirsiniz.
[ Paticik.com | Forum | Kullanici Sozlesmesi | Üye Ol ]
Iletisim : info [at] paticik.com
Secereli Dobermann | Londra Rehberi Copyright 2001-2015 @ Paticik.com
This forum is powered by Phorum