reyou Mesaj tarihi: Kasım 8, 2008 Paylaş Mesaj tarihi: Kasım 8, 2008 Arkadaslar program cok basit bir menteliteye dayali. hemen anlatiyim gorusleriniz alayim. Malum web siteleri icin uye lazim uyelere ulasmak icinde mail adresleri.. Anlicaniz spam olaylarina girmem lazim, internette cok arama yapmadim nasi elde edilir gibisinden ama benim projem su sekilde. iki tane tablomuz var : 1- toplanan emailler 2- toplanan link ler. simdi ben kok bir yani cikis noktasi bir site secicem, program bu adrese web request gonderip html kodunu alacak ve regular expression ile bu kaynak kodu icinde bulabildigim mailleri mail tablosuna, link leri link tablosuna yazicam, daha sonra toplanan linkler tablosundaki her adrese (diyelim 10 tane link topladik) tekrar request gondericem tekrar bulabildigim mailleri mail tablosuna, link leri link tablosuna yazicam, bu boyle surup gidecek, yani sonsuza dogru gidicez :D cunku hemen hemen her site dis bir siteye baglanti veriyo yada kendi icinde var zaten baglantili linkler. biz buna REYOU MAIL COLLECTOR diyoruz :D gorusleriniz? Link to comment Sosyal ağlarda paylaş Daha fazla paylaşım seçeneği…
raistlinthewiz Mesaj tarihi: Kasım 10, 2008 Paylaş Mesaj tarihi: Kasım 10, 2008 bravo spam olayına yenı bır bakıs acısı getırmıssın dunyayı degıstıreceksın.. ondandırkı insanlar websitelerine emaillarını yazmıyorlar yazsalar bile bir gif veya jpeg olarak yapıyorlar bu isi. insallah senın bu imba spam teknigin, bu gif&jpeg olayı ıcınde bırsey dusunmustur.. Link to comment Sosyal ağlarda paylaş Daha fazla paylaşım seçeneği…
BonePART Mesaj tarihi: Kasım 10, 2008 Paylaş Mesaj tarihi: Kasım 10, 2008 reyou said: gorusleriniz? Allah belani versin. Link to comment Sosyal ağlarda paylaş Daha fazla paylaşım seçeneği…
riglous Mesaj tarihi: Kasım 10, 2008 Paylaş Mesaj tarihi: Kasım 10, 2008 web crawler tek bir site icinde takilip kalirsa kotu patlarsin. Ozellikle dinamik sitelerde efficient calismaz. Soyle sooliyim, paticigin ana sayfasini verdin diyelim, sadece konu ID'leri degiserek binlerce konu var. Senin bu programinin tek tek her siteye baglanmasi cook uzun surer. Uzun surmesi bi yana, kilitlenip kalirsin. Bu nedenle napiyoruz? Sitemap ariyoruz. Ozellikle web2.0'la standart hale gelmis bir islem bu. Yalniz arkadaslarin da dedigi gibi, contact kisminda jpg/gif/flash kullaniliyor genelde. Ayrica ararken @, [at] vb. farkli kombinasyonlari araman lazim. Link to comment Sosyal ağlarda paylaş Daha fazla paylaşım seçeneği…
Crawler Mesaj tarihi: Kasım 10, 2008 Paylaş Mesaj tarihi: Kasım 10, 2008 BonePART said: reyou said: gorusleriniz? Allah belani versin. Link to comment Sosyal ağlarda paylaş Daha fazla paylaşım seçeneği…
Pluton Mesaj tarihi: Kasım 10, 2008 Paylaş Mesaj tarihi: Kasım 10, 2008 Bu yöntemi desteklediğimden değil ama bu işi yapabilecek makine kiralayabilecek misin ? Ayrıca çok profesyonel olman lazım ki bot takılı kalmasın. Mesela ben biçok sitemde kendi ürettiğim html tagını kullanırım. Dizi başlığı Gibi onları ne yapıcaksın ? Link to comment Sosyal ağlarda paylaş Daha fazla paylaşım seçeneği…
di Mesaj tarihi: Kasım 10, 2008 Paylaş Mesaj tarihi: Kasım 10, 2008 BonePART said: reyou said: gorusleriniz? Allah belani versin. =) Link to comment Sosyal ağlarda paylaş Daha fazla paylaşım seçeneği…
riglous Mesaj tarihi: Kasım 10, 2008 Paylaş Mesaj tarihi: Kasım 10, 2008 Pluton said: Bu yöntemi desteklediğimden değil ama bu işi yapabilecek makine kiralayabilecek misin ? Ayrıca çok profesyonel olman lazım ki bot takılı kalmasın. Mesela ben biçok sitemde kendi ürettiğim html tagını kullanırım. Dizi başlığı Gibi onları ne yapıcaksın ? Kendi urettigin HTML tag'i ne demek? Link to comment Sosyal ağlarda paylaş Daha fazla paylaşım seçeneği…
oper Mesaj tarihi: Kasım 10, 2008 Paylaş Mesaj tarihi: Kasım 10, 2008 -Crawler- said: BonePART said: reyou said: gorusleriniz? Allah belani versin. Link to comment Sosyal ağlarda paylaş Daha fazla paylaşım seçeneği…
CaNNi Mesaj tarihi: Kasım 10, 2008 Paylaş Mesaj tarihi: Kasım 10, 2008 ahah yazık la :D Link to comment Sosyal ağlarda paylaş Daha fazla paylaşım seçeneği…
Gazanfer Mesaj tarihi: Kasım 10, 2008 Paylaş Mesaj tarihi: Kasım 10, 2008 görüşlerimi emailine atıcam. mailini versene Link to comment Sosyal ağlarda paylaş Daha fazla paylaşım seçeneği…
reyou Mesaj tarihi: Kasım 10, 2008 Konuyu açan Paylaş Mesaj tarihi: Kasım 10, 2008 riglous said: web crawler tek bir site icinde takilip kalirsa kotu patlarsin. Ozellikle dinamik sitelerde efficient calismaz. Soyle sooliyim, paticigin ana sayfasini verdin diyelim, sadece konu ID'leri degiserek binlerce konu var. Senin bu programinin tek tek her siteye baglanmasi cook uzun surer. Uzun surmesi bi yana, kilitlenip kalirsin. Bu nedenle napiyoruz? Sitemap ariyoruz. Ozellikle web2.0'la standart hale gelmis bir islem bu. Yalniz arkadaslarin da dedigi gibi, contact kisminda jpg/gif/flash kullaniliyor genelde. Ayrica ararken @, [at] vb. farkli kombinasyonlari araman lazim. tek bir sitede takilip kalmasi mumkun degil paticikten baslasam, disariya acilan yuzlerce link var, ki onlardan diger sitelere ziplayanlari dusun. ayrica program bir bir arama yapicak yani bir sayfa bitmeden digerine atlamicak. takilmasi mumkun degil. bir ikincisi program ornegin www.paticik.com a bir request gonderdi bana gelecek olan direk html kaynak kodu olacak, yani senin browser da izleme surenden cok cok daha hizli olacak... bunun disinda mail adresini [email protected] formatinda yazan binlerce kisi var. bunlari toplicam zaten. onumuzdeki hafta sonu programi yazmayi dusunuyorum. dusuncesi ve onerisi olanlar (sunlarda olsun vs..) buraya yazabilirler. saygilar. Link to comment Sosyal ağlarda paylaş Daha fazla paylaşım seçeneği…
yezid Mesaj tarihi: Kasım 10, 2008 Paylaş Mesaj tarihi: Kasım 10, 2008 html kaynak kodunda mail adreslerinin ne isi var Link to comment Sosyal ağlarda paylaş Daha fazla paylaşım seçeneği…
reyou Mesaj tarihi: Kasım 10, 2008 Konuyu açan Paylaş Mesaj tarihi: Kasım 10, 2008 google dan site search yapip, paticik.com icerisinde @.com diye aratirsan html kodu icerisinde ne aradigini gorursun. Link to comment Sosyal ağlarda paylaş Daha fazla paylaşım seçeneği…
Pluton Mesaj tarihi: Kasım 10, 2008 Paylaş Mesaj tarihi: Kasım 10, 2008 riglous said: Pluton said: Bu yöntemi desteklediğimden değil ama bu işi yapabilecek makine kiralayabilecek misin ? Ayrıca çok profesyonel olman lazım ki bot takılı kalmasın. Mesela ben biçok sitemde kendi ürettiğim html tagını kullanırım. Dizi başlığı Gibi onları ne yapıcaksın ? Kendi urettigin HTML tag'i ne demek? Mesela bi sitemde şey yapmıştım. <style> makale { font-size: 16px; color: white; } </style> <body> <makale>Bilgisayar nedir?</makale> </body> Link to comment Sosyal ağlarda paylaş Daha fazla paylaşım seçeneği…
Fly Mesaj tarihi: Kasım 10, 2008 Paylaş Mesaj tarihi: Kasım 10, 2008 bazı browserlar desteklemiyor ama onu :p Link to comment Sosyal ağlarda paylaş Daha fazla paylaşım seçeneği…
Pluton Mesaj tarihi: Kasım 10, 2008 Paylaş Mesaj tarihi: Kasım 10, 2008 Fly said: bazı browserlar desteklemiyor ama onu :p Biliyorum IE desteklemiyor. Küçük bi js koduyla hallediliyodu yanlış hatırlamıyorsam. Link to comment Sosyal ağlarda paylaş Daha fazla paylaşım seçeneği…
riglous Mesaj tarihi: Kasım 10, 2008 Paylaş Mesaj tarihi: Kasım 10, 2008 @Pluton, istedigin tag'i koy, adamin bakacagi [a-Z]@[a-Z].[a-Z] gibi bir sey. Senin tag'larinla herhangi bir alakasi yok. @reyou, arkadasim, bu soyledigini biz cs intro dersinde yaptiriyoduk, ben sana tavsiyede bulunuyorum, simdiden uyariyorum. Bir listen var diyelim. Sonra buna sayfa basindan itibaren butun link'leri koydun diyelim, bunlarin kaci paticik link'i? 90%. Hepsi http://forum.paticik.com/posting.php?6 http://forum.paticik.com/posting.php?7 vs. gibi sadece rakamlarin degistigi sayfalar. Daha sonra ilk sayfaya girdi, bu sayfadaki butun linkleri alip listenin sonuna ekledi. Ama o ilk bastaki 90% paticik linklerine gideceksin yine, 10%luk degisim ikinci derinlikte devreye girecek ki, onun da acilimi .1*.1=.01 oluyor. Yani forum gibi bir yerde takilip kalman cok muhtemel. Zira oturup C ile bile yazsan bu kodu tahmin ettigin kadar hizli olmayacak simdiden uyarayim. Tabii ki baska sitelere de gecersin. Ancak soylemeye calistigim, biraz kafa yorman gerektigi. adres koklerine birer agirlik vererek ilerlemen gerekiyor. Derinligi en azindan oyle ayarla ki farkli site adresleri cikinca o tarafa kayma ihtimali artsin. Soyle ki, ilk sayfada alacagin linkler [pati.1, pati.2, pati.3, asd] oldu diyelim Eger normal siradan gidersen, normal derinlik kurali islemis olur. sen asd'ye geldigin noktada [pati.1, pati.2, pati.3, asd, pati.1, pati.2, pati.3, asd, pati.1, pati.2, pati.3, asd, pati.1, pati.2, pati.3, asd] oldu liste. Hadi asd'ye girdin ama su ana kadar ziyaret ettigin sitelerin sadece 1/4'u paticik disi. Kaldi ki bu dis linklerin arasinda bir de paticik'e geri donen link varsa, o zaman nicedir halin cunku oran gittikce dusecektir. Bu nedenle email display edilmeyen forumlar senin icin tuzak. Biz bu gibi durumlarda napiyoruz? Sitenin domain'ine gore priority belirliyoruz 100 uzerinden. Eger paticik'e girmisse senin crawler paticik'in priority'si ileriki aramalarda azalir. Ancak eger major bir kaynak olmussa, yani o domain'de buldugu email adresleri sayisi, domain'de ziyaret edilen sayfalara gore yuksekse o zaman priority'si artiyor. Bu sekilde email odakli arama gerceklesmis oluyor. Bunun disinda baska bir suru yontem var. Otur biraz arastir bence... Link to comment Sosyal ağlarda paylaş Daha fazla paylaşım seçeneği…
Ractamainus Mesaj tarihi: Kasım 10, 2008 Paylaş Mesaj tarihi: Kasım 10, 2008 öncelikle amacını hiç tasvip etmiyorum ben de. yaptığın basit bir crawler. reyou email collector 1.0 diye olmayan bir şeyi bize lanse etmen çok itici =) multithread çalışmazsan, çok yavaş olur. riglous'un dediği gibi priority şart. algoritman üzerinde bayağı kafa yorman lazım. sonra başını çok ağrıtır. sitelerden dağılımı, farklı thread'lere yayarak aynı anda farklı sitelerde ölçümler yapmalı gibi.. eğer daha hızlı olacağım diyorsan, crawler ayrı, query programı ayrı olsun.. birisi sadece indexlesin.. diğer program indexlenen içeriği tarasın misal.. vs. vs.. Link to comment Sosyal ağlarda paylaş Daha fazla paylaşım seçeneği…
fastreloader Mesaj tarihi: Kasım 10, 2008 Paylaş Mesaj tarihi: Kasım 10, 2008 oper said: -Crawler- said: BonePART said: reyou said: gorusleriniz? Allah belani versin. Link to comment Sosyal ağlarda paylaş Daha fazla paylaşım seçeneği…
Öne çıkan mesajlar