kithnos_1 Mesaj tarihi: Aralık 3, 2012 Paylaş Mesaj tarihi: Aralık 3, 2012 Merhaba , Şöyle bir soru(n)um var , hemen açıklayayım. Tercihen PHP ile , kullanıcı girişi gerektiren bir siteye bağlanıp , searh box'unda birşey aratıp , gelen sayfayı html olarak kaydeden birşey yapabilir miyiz ? HTML'i sonradan bir şekilde parse ederiz heralde , o yapılabilir diye biliyorum. Olay şu aslında benim üye olduğum bir sistem var , kendi sitemde birşey aratınca , ben arka planca üye olduğum yere bağlanıp aratıp, gelen sonuçları kendi kullanıcıma gösterebilmek istiyorum Nedir çözümleriniz ? Edit: Konu başlığı tam derdi anlatmayı galiba ama olsun :) Link to comment Sosyal ağlarda paylaş Daha fazla paylaşım seçeneği…
di Mesaj tarihi: Aralık 3, 2012 Paylaş Mesaj tarihi: Aralık 3, 2012 bkz: curl Link to comment Sosyal ağlarda paylaş Daha fazla paylaşım seçeneği…
kithnos_1 Mesaj tarihi: Aralık 3, 2012 Konuyu açan Paylaş Mesaj tarihi: Aralık 3, 2012 di sen istediğim şeyi zaten tamamen biliyorsun konuşmuştuk . Teknik olarak yapılabilir yani ? İşin keywordlerini arıyordum zaten ben de , Curl'e biraz bakayım neymiş , ne değilmiş Zaten oturup kendimin geliştirebileceği bir iş değil , o kadar vaktim de yeterliliğim de yok açıkçası , iş ne derece yapılabilr onu ölçmeye çalışıyoru biliyorsun :) Link to comment Sosyal ağlarda paylaş Daha fazla paylaşım seçeneği…
riglous Mesaj tarihi: Aralık 3, 2012 Paylaş Mesaj tarihi: Aralık 3, 2012 PHP ile yapabildiğinden emin değilim. Ancak python ile çok rahat yaparsın. Doğrudan karşıya bağlanıp, POST olarak kullanıcı bilgilerini iletirsin; dönen sayfada yine POST'la arama yaparsın. Zaten sana geri dönen html olacaktır. Bunu kaydedip kullanıcıya doğrudan gösterebilirsin. Python ile yapılıyorsa, C ile de yapılır. Yapılır yani. Web crawler diye aratırsan çıkan sonuçlar çok yakın şeyler getirir. Mantığı aynı sonuçta. Link to comment Sosyal ağlarda paylaş Daha fazla paylaşım seçeneği…
di Mesaj tarihi: Aralık 3, 2012 Paylaş Mesaj tarihi: Aralık 3, 2012 Yapiliyor ya bir sikintisi yok. En kotu cURL extension'i load edip onu kullaniyosun iste. Hic olmadi aciyosun bi stream, cakiyosun header'lari, mis gibi oluyor. Yontem cok yani. Bir de jQuery gibi DOM'u evirip cevirebildigin class'lar var PHP icin, onlarla birlestirince sahane bir hal aliyor. Ha ben kendim yapar miyim dersen, baya kastirir gibime geliyor zira senin istedigin olayda bir de oturup trafigi inceleyip ona gore paket gondermen falan gerekecektir diye tahmin ediyorum. Link to comment Sosyal ağlarda paylaş Daha fazla paylaşım seçeneği…
reyou Mesaj tarihi: Aralık 3, 2012 Paylaş Mesaj tarihi: Aralık 3, 2012 cok kisa zamanda ban yersin host siteden, senin dedigin sunun gibi olmus; ben sitemde google sonuclarini dondurucem, ama google i gostermeden query atip sonuclari kendi sitemde gostericem. ardi ardina atilacak requestler once accountunu sonrada ip ni blackliste alir. ha host site kendininde web servisi falan kurar yaparsin oteki turlu search yapacagin sitenin bir API i falan yoksa hic deneme derim ben. Link to comment Sosyal ağlarda paylaş Daha fazla paylaşım seçeneği…
kithnos_1 Mesaj tarihi: Aralık 3, 2012 Konuyu açan Paylaş Mesaj tarihi: Aralık 3, 2012 Kendime ait bir server kiralamayı düşünüyorum bu tarz birşey yaparsam zaten . Bu olay sonsuza kadar böyle giden bir sistem olmayacak ama , bir süre önemli tabi. Bilgi istenen server duruma uyanabilir mi ? Sadece çok fazla aktivite olacağını fark eder sanırım değil mi ? Web crawling işini yapan ile benim sistemi host eden yeri ayrı mı tutmak gerek acaba ? Neyse en önemli şey olayın teknik olarak kolay uygulanabilir olduğunu öğrenmekti , işin biznıs kısmana odaklanabilirim artık daha rahat :) Link to comment Sosyal ağlarda paylaş Daha fazla paylaşım seçeneği…
moriarty Mesaj tarihi: Aralık 3, 2012 Paylaş Mesaj tarihi: Aralık 3, 2012 Php dersen en iyi open source crawlerlar bunlar. Snoopy => http://sourceforge.net/projects/snoopy/ PHPCrawl => http://phpcrawl.cuab.de/ Python olarak: Scrapy =>http://www.scrapy.org/ Mechanize => http://wwwsearch.sourceforge.net/mechanize/ Java: Heitrix => https://webarchive.jira.com/wiki/display/Heritrix/Heritrix;jsessionid=71BEED7398D564F4AA973493DD0CB47A Link to comment Sosyal ağlarda paylaş Daha fazla paylaşım seçeneği…
cabot Mesaj tarihi: Aralık 3, 2012 Paylaş Mesaj tarihi: Aralık 3, 2012 java için bunu yapabilceğin sanal browserlar war. Htmlunit mesala htmlunit Link to comment Sosyal ağlarda paylaş Daha fazla paylaşım seçeneği…
riglous Mesaj tarihi: Aralık 4, 2012 Paylaş Mesaj tarihi: Aralık 4, 2012 Request tabanli olacagi icin crawler'dan farkli. Preprocessing imkanin yok. Ban'lanmadan da halledersin. Onemli olan bir kullanicinin 15 saniyeden once ikinci bir request yollamamasi. 10 (concurrent) kullanicin (musteri) varsa 20 tane account acarsin hedef sistemde. DB'de last_used timestamp'i tutarsin. 15 saniyeden eskiyse kullanirsin. Bir de ortalama duzgun olsun diye hangisiyle kac tane request yolladigini da saydirip buna gore siralama yaparsan her bir kullanici ortalama request atmis olur. Insandan farkin kalmaz. Is ki sisteme captcha midir nedir ondan koymasinlar. Link to comment Sosyal ağlarda paylaş Daha fazla paylaşım seçeneği…
-Bonesoul- Mesaj tarihi: Aralık 6, 2012 Paylaş Mesaj tarihi: Aralık 6, 2012 sunuda yazalım arada; phpquery Link to comment Sosyal ağlarda paylaş Daha fazla paylaşım seçeneği…
Öne çıkan mesajlar