User tabanlı bir siteyi grab lemek

kithnos_1 · Aralık 3, 2012

Merhaba ,

Şöyle bir soru(n)um var , hemen açıklayayım.

Tercihen PHP ile , kullanıcı girişi gerektiren bir siteye bağlanıp , searh box'unda birşey aratıp , gelen sayfayı html olarak kaydeden birşey yapabilir miyiz ? HTML'i sonradan bir şekilde parse ederiz heralde , o yapılabilir diye biliyorum.

Olay şu aslında benim üye olduğum bir sistem var , kendi sitemde birşey aratınca , ben arka planca üye olduğum yere bağlanıp aratıp, gelen sonuçları kendi kullanıcıma gösterebilmek istiyorum

Nedir çözümleriniz ?

Edit: Konu başlığı tam derdi anlatmayı galiba ama olsun :)

di · Aralık 3, 2012

bkz: curl

kithnos_1 · Aralık 3, 2012

di sen istediğim şeyi zaten tamamen biliyorsun konuşmuştuk .

Teknik olarak yapılabilir yani ? İşin keywordlerini arıyordum zaten ben de , Curl'e biraz bakayım neymiş , ne değilmiş

Zaten oturup kendimin geliştirebileceği bir iş değil , o kadar vaktim de yeterliliğim de yok açıkçası , iş ne derece yapılabilr onu ölçmeye çalışıyoru biliyorsun :)

riglous · Aralık 3, 2012

PHP ile yapabildiğinden emin değilim.
Ancak python ile çok rahat yaparsın. Doğrudan karşıya bağlanıp, POST olarak kullanıcı bilgilerini iletirsin; dönen sayfada yine POST'la arama yaparsın. Zaten sana geri dönen html olacaktır. Bunu kaydedip kullanıcıya doğrudan gösterebilirsin.
Python ile yapılıyorsa, C ile de yapılır.

Yapılır yani. Web crawler diye aratırsan çıkan sonuçlar çok yakın şeyler getirir. Mantığı aynı sonuçta.

di · Aralık 3, 2012

Yapiliyor ya bir sikintisi yok. En kotu cURL extension'i load edip onu kullaniyosun iste. Hic olmadi aciyosun bi stream, cakiyosun header'lari, mis gibi oluyor. Yontem cok yani.

Bir de jQuery gibi DOM'u evirip cevirebildigin class'lar var PHP icin, onlarla birlestirince sahane bir hal aliyor.

Ha ben kendim yapar miyim dersen, baya kastirir gibime geliyor zira senin istedigin olayda bir de oturup trafigi inceleyip ona gore paket gondermen falan gerekecektir diye tahmin ediyorum.

reyou · Aralık 3, 2012

cok kisa zamanda ban yersin host siteden,

senin dedigin sunun gibi olmus;

ben sitemde google sonuclarini dondurucem, ama google i gostermeden query atip sonuclari kendi sitemde gostericem.

ardi ardina atilacak requestler once accountunu sonrada ip ni blackliste alir.

ha host site kendininde web servisi falan kurar yaparsin oteki turlu search yapacagin sitenin bir API i falan yoksa hic deneme derim ben.

kithnos_1 · Aralık 3, 2012

Kendime ait bir server kiralamayı düşünüyorum bu tarz birşey yaparsam zaten .

Bu olay sonsuza kadar böyle giden bir sistem olmayacak ama , bir süre önemli tabi.

Bilgi istenen server duruma uyanabilir mi ? Sadece çok fazla aktivite olacağını fark eder sanırım değil mi ? Web crawling işini yapan ile benim sistemi host eden yeri ayrı mı tutmak gerek acaba ?

Neyse en önemli şey olayın teknik olarak kolay uygulanabilir olduğunu öğrenmekti , işin biznıs kısmana odaklanabilirim artık daha rahat :)

moriarty · Aralık 3, 2012

Php dersen en iyi open source crawlerlar bunlar.

Snoopy => http://sourceforge.net/projects/snoopy/
PHPCrawl => http://phpcrawl.cuab.de/

Python olarak:

Scrapy =>http://www.scrapy.org/
Mechanize => http://wwwsearch.sourceforge.net/mechanize/

Java:

Heitrix => https://webarchive.jira.com/wiki/display/Heritrix/Heritrix;jsessionid=71BEED7398D564F4AA973493DD0CB47A

cabot · Aralık 3, 2012

java için bunu yapabilceğin sanal browserlar war.
Htmlunit mesala
htmlunit

riglous · Aralık 4, 2012

Request tabanli olacagi icin crawler'dan farkli. Preprocessing imkanin yok.

Ban'lanmadan da halledersin.
Onemli olan bir kullanicinin 15 saniyeden once ikinci bir request yollamamasi.
10 (concurrent) kullanicin (musteri) varsa 20 tane account acarsin hedef sistemde. DB'de last_used timestamp'i tutarsin. 15 saniyeden eskiyse kullanirsin. Bir de ortalama duzgun olsun diye hangisiyle kac tane request yolladigini da saydirip buna gore siralama yaparsan her bir kullanici ortalama request atmis olur. Insandan farkin kalmaz. Is ki sisteme captcha midir nedir ondan koymasinlar.

-Bonesoul- · Aralık 6, 2012

sunuda yazalım arada; phpquery

Giriş

User tabanlı bir siteyi grab lemek

Öne çıkan mesajlar

kithnos_1

di

kithnos_1

riglous

di

reyou

kithnos_1

moriarty

cabot

riglous

-Bonesoul-