Jump to content
Forumu Destekleyenlere Katılın ×
Paticik Forumları
2000 lerden beri faal olan, çok şukela bir paylaşım platformuyuz. Hoşgeldiniz.

website crawler


roket adam

Öne çıkan mesajlar

selam, paralı bir hosted serviste olan blogumu statik olarak daha ucuz bir hostinge koyma planım var. dolayısıyla tüm siteyi .html olarak çekmem gerekiyor. bu noktada kullandığım tüm crawler'lar saçmaladı.

tüm siteyi totalden indirip, html olarak çekecek bildiğiniz crawler var mıdır?
Link to comment
Sosyal ağlarda paylaş

Wordpress falansa eklentiler var statik halini uretmek icin. Yoksa da crawler ile olacak is degil pek. Ha ne yapabilirsin; sitemap varsa ya da sitemap generate edersen sonrasini ufak bi script ile halledersin.

Hatta links.txt diye bir dosyanin oldugunu ve dosyadaki her bir satirin mevcut bir sayfa URL'ini icerdigini varsayarsak mac/linux icin terminalde


cat links.txt | while read LINK
do
echo "Fetching $LINK..."
wget $LINK
done


deyip mevcut folder altina link'ler dosya olarak indirilebilir. Bu arada uzanti eklenmesi gerekiyorsa -O parametresi ile dosya adi ve uzanti belirtilebilir ama isi biraz uzatiyor bu kismi.

wget yoksa sistemde alternatif olarak curl kullanilabilir komut olarak.

Yapamazsan 3-5 link koy ornek olarak tam komutu yazivereyim sabah ofise varinca.
Link to comment
Sosyal ağlarda paylaş

web crawler diye gelen olursa http://import.io .
alternatif : https://www.kimonolabs.com/

------


Senin problem icin, database e ulasabiliyosan oradan sorguyla icerigi cekip alabilirsin belki? daha mi kolay olur?


hosting icinde soyle bi oneri, ziyaretci durumuna gore suradan ucretsiz bi hesap acip https://www.openshift.com/ oraya jekyll gibi wordpress gibi ... neyse iste bi duzenle gecebilirsin.domainide baglamak ucretsiz buna.

1gb alan veriyo.https://www.google.com.tr/search?q=openshift+cartridges+github&ie=utf-8&oe=utf-8&gws_rd=cr&ei=XSSKVufdFqHQygP99J3wDw buradan da istedigin duzeni kurabilirsin.
Link to comment
Sosyal ağlarda paylaş

"roket adam" said:

Database'e ulaşamıyorum maalesef. Site bu kendi üzerinde dizayn platformu sunan Squarespace üzerinde tutuluyor, 3. parti hiç bir erişime izin vermiyor maalesef. Denemek isteyenler için link bu:

http://cnr0.org


https://support.squarespace.com/hc/en-us/articles/206566687-Exporting-your-site

soyle bi sey var ama belki denemissindir.burada veriyi diyelim localhostta wordpress e aldiktan sonra istedigin hale getirirsin.

mesela : https://wordpress.org/plugins/export-to-text/
Link to comment
Sosyal ağlarda paylaş

"roket adam" said:

Database'e ulaşamıyorum maalesef. Site bu kendi üzerinde dizayn platformu sunan Squarespace üzerinde tutuluyor, 3. parti hiç bir erişime izin vermiyor maalesef. Denemek isteyenler için link bu:

http://cnr0.org



pöf halen kutun boş değil al

denedim böyle çıktı

https://www.amazon.com/clouddrive/share/veR1wmlcl8qbSKCZCPSD37x31AQFy5zT58BtR7Ttu4I?ref_=cd_ph_share_link_copy
Link to comment
Sosyal ağlarda paylaş

Olm niye inat ediyonuz anlamiyorumki,

Bak yaziyorum adim adim calistiracaginiz komutlari.

Once sitemap'i download ediceniz.

wget cnr0.org/sitemap.xml


Sonra sitemap icinden link'leri extract ediceniz. static1.squarespace.com imajlarin host edildigi yer, haliyle onlari istemiyoruz simdilik. O yuzden grep -v var.

sed '/loc/!d;s/.*>([^<]*)<.*/1/' sitemap.xml | grep -v static1.squarespace.com > links.txt


Son olarak da link'leri loop edip download ediceniz. Burda iki kilit nokta var, ilki wget parametreleri, ikincisi de request'ler arasindaki timeout zira cok abanirsaniz too many request'den patliyosunuz.

cat links.txt | while read LINE
do
echo "Downlading $LINE..."
echo ""
wget -E -H -k -p $LINE
sleep 5
done


Oldu da bitti masallah.

Ha bu arada imajlar, font'lar falan harici lokasyonlarda host edildigi icin son bi find/replace yapmak gerekebilir html'ler icinde ama onuda en dandik editor (bizim editor degil) bile yapiyor.
Link to comment
Sosyal ağlarda paylaş

  • 1 ay sonra ...
  • 1 yıl sonra ...
  • 4 hafta sonra ...
di said:

Olm niye inat ediyonuz anlamiyorumki,

Bak yaziyorum adim adim calistiracaginiz komutlari.

Once sitemap'i download ediceniz.

wget cnr0.org/sitemap.xml


Sonra sitemap icinden link'leri extract ediceniz. static1.squarespace.com imajlarin host edildigi yer, haliyle onlari istemiyoruz simdilik. O yuzden grep -v var.

sed '/loc/!d;s/.*>([^<]*)<.*/1/' sitemap.xml | grep -v static1.squarespace.com > links.txt


Son olarak da link'leri loop edip download ediceniz. Burda iki kilit nokta var, ilki wget parametreleri, ikincisi de request'ler arasindaki timeout zira cok abanirsaniz too many request'den patliyosunuz.

cat links.txt | while read LINE
do
echo "Downlading $LINE..."
echo ""
wget -E -H -k -p $LINE
sleep 5
done


Oldu da bitti masallah.

Ha bu arada imajlar, font'lar falan harici lokasyonlarda host edildigi icin son bi find/replace yapmak gerekebilir html'ler icinde ama onuda en dandik editor (bizim editor degil) bile yapiyor.


Yapiverecektim hayrina ama 1,5 sene once anlatmisim zaten adim adim yapilacaklari. Buna ragmen OP aglayip durmus. Su durumda sitenin kapanmasi bildigin dogal seleksiyon.
Link to comment
Sosyal ağlarda paylaş

×
×
  • Yeni Oluştur...