Jump to content
Forumu Destekleyenlere Katılın ×
Paticik Forumları
2000 lerden beri faal olan, çok şukela bir paylaşım platformuyuz. Hoşgeldiniz.

User tabanlı bir siteyi grab lemek


kithnos_1

Öne çıkan mesajlar

Merhaba ,

Şöyle bir soru(n)um var , hemen açıklayayım.

Tercihen PHP ile , kullanıcı girişi gerektiren bir siteye bağlanıp , searh box'unda birşey aratıp , gelen sayfayı html olarak kaydeden birşey yapabilir miyiz ? HTML'i sonradan bir şekilde parse ederiz heralde , o yapılabilir diye biliyorum.

Olay şu aslında benim üye olduğum bir sistem var , kendi sitemde birşey aratınca , ben arka planca üye olduğum yere bağlanıp aratıp, gelen sonuçları kendi kullanıcıma gösterebilmek istiyorum

Nedir çözümleriniz ?

Edit: Konu başlığı tam derdi anlatmayı galiba ama olsun :)
Link to comment
Sosyal ağlarda paylaş

di sen istediğim şeyi zaten tamamen biliyorsun konuşmuştuk .

Teknik olarak yapılabilir yani ? İşin keywordlerini arıyordum zaten ben de , Curl'e biraz bakayım neymiş , ne değilmiş

Zaten oturup kendimin geliştirebileceği bir iş değil , o kadar vaktim de yeterliliğim de yok açıkçası , iş ne derece yapılabilr onu ölçmeye çalışıyoru biliyorsun :)
Link to comment
Sosyal ağlarda paylaş

PHP ile yapabildiğinden emin değilim.
Ancak python ile çok rahat yaparsın. Doğrudan karşıya bağlanıp, POST olarak kullanıcı bilgilerini iletirsin; dönen sayfada yine POST'la arama yaparsın. Zaten sana geri dönen html olacaktır. Bunu kaydedip kullanıcıya doğrudan gösterebilirsin.
Python ile yapılıyorsa, C ile de yapılır.

Yapılır yani. Web crawler diye aratırsan çıkan sonuçlar çok yakın şeyler getirir. Mantığı aynı sonuçta.
Link to comment
Sosyal ağlarda paylaş

Yapiliyor ya bir sikintisi yok. En kotu cURL extension'i load edip onu kullaniyosun iste. Hic olmadi aciyosun bi stream, cakiyosun header'lari, mis gibi oluyor. Yontem cok yani.

Bir de jQuery gibi DOM'u evirip cevirebildigin class'lar var PHP icin, onlarla birlestirince sahane bir hal aliyor.

Ha ben kendim yapar miyim dersen, baya kastirir gibime geliyor zira senin istedigin olayda bir de oturup trafigi inceleyip ona gore paket gondermen falan gerekecektir diye tahmin ediyorum.
Link to comment
Sosyal ağlarda paylaş

cok kisa zamanda ban yersin host siteden,

senin dedigin sunun gibi olmus;

ben sitemde google sonuclarini dondurucem, ama google i gostermeden query atip sonuclari kendi sitemde gostericem.

ardi ardina atilacak requestler once accountunu sonrada ip ni blackliste alir.

ha host site kendininde web servisi falan kurar yaparsin oteki turlu search yapacagin sitenin bir API i falan yoksa hic deneme derim ben.
Link to comment
Sosyal ağlarda paylaş

Kendime ait bir server kiralamayı düşünüyorum bu tarz birşey yaparsam zaten .

Bu olay sonsuza kadar böyle giden bir sistem olmayacak ama , bir süre önemli tabi.


Bilgi istenen server duruma uyanabilir mi ? Sadece çok fazla aktivite olacağını fark eder sanırım değil mi ? Web crawling işini yapan ile benim sistemi host eden yeri ayrı mı tutmak gerek acaba ?

Neyse en önemli şey olayın teknik olarak kolay uygulanabilir olduğunu öğrenmekti , işin biznıs kısmana odaklanabilirim artık daha rahat :)
Link to comment
Sosyal ağlarda paylaş

Php dersen en iyi open source crawlerlar bunlar.

Snoopy => http://sourceforge.net/projects/snoopy/
PHPCrawl => http://phpcrawl.cuab.de/

Python olarak:

Scrapy =>http://www.scrapy.org/
Mechanize => http://wwwsearch.sourceforge.net/mechanize/

Java:

Heitrix => https://webarchive.jira.com/wiki/display/Heritrix/Heritrix;jsessionid=71BEED7398D564F4AA973493DD0CB47A
Link to comment
Sosyal ağlarda paylaş

Request tabanli olacagi icin crawler'dan farkli. Preprocessing imkanin yok.

Ban'lanmadan da halledersin.
Onemli olan bir kullanicinin 15 saniyeden once ikinci bir request yollamamasi.
10 (concurrent) kullanicin (musteri) varsa 20 tane account acarsin hedef sistemde. DB'de last_used timestamp'i tutarsin. 15 saniyeden eskiyse kullanirsin. Bir de ortalama duzgun olsun diye hangisiyle kac tane request yolladigini da saydirip buna gore siralama yaparsan her bir kullanici ortalama request atmis olur. Insandan farkin kalmaz. Is ki sisteme captcha midir nedir ondan koymasinlar.
Link to comment
Sosyal ağlarda paylaş

×
×
  • Yeni Oluştur...