Jump to content
Forumu Destekleyenlere Katılın ×
Paticik Forumları
2000 lerden beri faal olan, çok şukela bir paylaşım platformuyuz. Hoşgeldiniz.

Reyou Email Collector vs 1.0


reyou

Öne çıkan mesajlar

Arkadaslar program cok basit bir menteliteye dayali.
hemen anlatiyim gorusleriniz alayim.
Malum web siteleri icin uye lazim uyelere ulasmak icinde mail adresleri..
Anlicaniz spam olaylarina girmem lazim, internette cok arama yapmadim nasi elde edilir gibisinden ama benim projem su sekilde.

iki tane tablomuz var :

1- toplanan emailler
2- toplanan link ler.

simdi ben kok bir yani cikis noktasi bir site secicem, program bu adrese web request gonderip html kodunu alacak ve regular expression ile bu kaynak kodu icinde bulabildigim mailleri mail tablosuna, link leri link tablosuna yazicam, daha sonra toplanan linkler tablosundaki her adrese (diyelim 10 tane link topladik) tekrar request gondericem tekrar bulabildigim mailleri mail tablosuna, link leri link tablosuna yazicam, bu boyle surup gidecek, yani sonsuza dogru gidicez :D
cunku hemen hemen her site dis bir siteye baglanti veriyo yada kendi icinde var zaten baglantili linkler.

biz buna REYOU MAIL COLLECTOR diyoruz :D


gorusleriniz?
Link to comment
Sosyal ağlarda paylaş

web crawler tek bir site icinde takilip kalirsa kotu patlarsin. Ozellikle dinamik sitelerde efficient calismaz. Soyle sooliyim, paticigin ana sayfasini verdin diyelim, sadece konu ID'leri degiserek binlerce konu var. Senin bu programinin tek tek her siteye baglanmasi cook uzun surer. Uzun surmesi bi yana, kilitlenip kalirsin.

Bu nedenle napiyoruz? Sitemap ariyoruz. Ozellikle web2.0'la standart hale gelmis bir islem bu. Yalniz arkadaslarin da dedigi gibi, contact kisminda jpg/gif/flash kullaniliyor genelde. Ayrica ararken @, [at] vb. farkli kombinasyonlari araman lazim.
Link to comment
Sosyal ağlarda paylaş

Pluton said:
Bu yöntemi desteklediğimden değil ama bu işi yapabilecek makine kiralayabilecek misin ? Ayrıca çok profesyonel olman lazım ki bot takılı kalmasın.

Mesela ben biçok sitemde kendi ürettiğim html tagını kullanırım.

Dizi başlığı

Gibi onları ne yapıcaksın ?

Kendi urettigin HTML tag'i ne demek?
Link to comment
Sosyal ağlarda paylaş

riglous said:
web crawler tek bir site icinde takilip kalirsa kotu patlarsin. Ozellikle dinamik sitelerde efficient calismaz. Soyle sooliyim, paticigin ana sayfasini verdin diyelim, sadece konu ID'leri degiserek binlerce konu var. Senin bu programinin tek tek her siteye baglanmasi cook uzun surer. Uzun surmesi bi yana, kilitlenip kalirsin.

Bu nedenle napiyoruz? Sitemap ariyoruz. Ozellikle web2.0'la standart hale gelmis bir islem bu. Yalniz arkadaslarin da dedigi gibi, contact kisminda jpg/gif/flash kullaniliyor genelde. Ayrica ararken @, [at] vb. farkli kombinasyonlari araman lazim.


tek bir sitede takilip kalmasi mumkun degil paticikten baslasam,
disariya acilan yuzlerce link var, ki onlardan diger sitelere ziplayanlari dusun.
ayrica program bir bir arama yapicak yani bir sayfa bitmeden digerine atlamicak. takilmasi mumkun degil.
bir ikincisi program ornegin www.paticik.com a bir request gonderdi bana gelecek olan direk html kaynak kodu olacak, yani senin browser da izleme surenden cok cok daha hizli olacak...
bunun disinda mail adresini [email protected] formatinda yazan binlerce kisi var. bunlari toplicam zaten.
onumuzdeki hafta sonu programi yazmayi dusunuyorum.
dusuncesi ve onerisi olanlar (sunlarda olsun vs..)
buraya yazabilirler.
saygilar.
Link to comment
Sosyal ağlarda paylaş

riglous said:
Pluton said:
Bu yöntemi desteklediğimden değil ama bu işi yapabilecek makine kiralayabilecek misin ? Ayrıca çok profesyonel olman lazım ki bot takılı kalmasın.

Mesela ben biçok sitemde kendi ürettiğim html tagını kullanırım.

Dizi başlığı

Gibi onları ne yapıcaksın ?

Kendi urettigin HTML tag'i ne demek?


Mesela bi sitemde şey yapmıştım.


<style>
makale { font-size: 16px; color: white; }
</style>
<body>
<makale>Bilgisayar nedir?</makale>
</body>
Link to comment
Sosyal ağlarda paylaş

@Pluton, istedigin tag'i koy, adamin bakacagi [a-Z]@[a-Z].[a-Z] gibi bir sey. Senin tag'larinla herhangi bir alakasi yok.

@reyou, arkadasim, bu soyledigini biz cs intro dersinde yaptiriyoduk, ben sana tavsiyede bulunuyorum, simdiden uyariyorum.
Bir listen var diyelim. Sonra buna sayfa basindan itibaren butun link'leri koydun diyelim, bunlarin kaci paticik link'i? 90%. Hepsi
http://forum.paticik.com/posting.php?6
http://forum.paticik.com/posting.php?7 vs. gibi sadece rakamlarin degistigi sayfalar.
Daha sonra ilk sayfaya girdi, bu sayfadaki butun linkleri alip listenin sonuna ekledi. Ama o ilk bastaki 90% paticik linklerine gideceksin yine, 10%luk degisim ikinci derinlikte devreye girecek ki, onun da acilimi .1*.1=.01 oluyor. Yani forum gibi bir yerde takilip kalman cok muhtemel. Zira oturup C ile bile yazsan bu kodu tahmin ettigin kadar hizli olmayacak simdiden uyarayim. Tabii ki baska sitelere de gecersin. Ancak soylemeye calistigim, biraz kafa yorman gerektigi. adres koklerine birer agirlik vererek ilerlemen gerekiyor. Derinligi en azindan oyle ayarla ki farkli site adresleri cikinca o tarafa kayma ihtimali artsin.
Soyle ki, ilk sayfada alacagin linkler
[pati.1, pati.2, pati.3, asd] oldu diyelim
Eger normal siradan gidersen, normal derinlik kurali islemis olur. sen asd'ye geldigin noktada
[pati.1, pati.2, pati.3, asd, pati.1, pati.2, pati.3, asd, pati.1, pati.2, pati.3, asd, pati.1, pati.2, pati.3, asd] oldu liste.
Hadi asd'ye girdin ama su ana kadar ziyaret ettigin sitelerin sadece 1/4'u paticik disi. Kaldi ki bu dis linklerin arasinda bir de paticik'e geri donen link varsa, o zaman nicedir halin cunku oran gittikce dusecektir. Bu nedenle email display edilmeyen forumlar senin icin tuzak.

Biz bu gibi durumlarda napiyoruz?
Sitenin domain'ine gore priority belirliyoruz 100 uzerinden. Eger paticik'e girmisse senin crawler paticik'in priority'si ileriki aramalarda azalir. Ancak eger major bir kaynak olmussa, yani o domain'de buldugu email adresleri sayisi, domain'de ziyaret edilen sayfalara gore yuksekse o zaman priority'si artiyor. Bu sekilde email odakli arama gerceklesmis oluyor.

Bunun disinda baska bir suru yontem var. Otur biraz arastir bence...
Link to comment
Sosyal ağlarda paylaş

öncelikle amacını hiç tasvip etmiyorum ben de.

yaptığın basit bir crawler. reyou email collector 1.0 diye olmayan bir şeyi bize lanse etmen çok itici =)

multithread çalışmazsan, çok yavaş olur.

riglous'un dediği gibi priority şart. algoritman üzerinde bayağı kafa yorman lazım. sonra başını çok ağrıtır. sitelerden dağılımı, farklı thread'lere yayarak aynı anda farklı sitelerde ölçümler yapmalı gibi..

eğer daha hızlı olacağım diyorsan, crawler ayrı, query programı ayrı olsun.. birisi sadece indexlesin.. diğer program indexlenen içeriği tarasın misal..

vs. vs..
Link to comment
Sosyal ağlarda paylaş

×
×
  • Yeni Oluştur...