Mithr Mesaj tarihi: Ağustos 28, 2014 Paylaş Mesaj tarihi: Ağustos 28, 2014 Merhaba, aslında sorum c# için de geçerli olabilir. Elimde bir stream var. Stream aslında utf8 html içeren bir stream. Bu html içerisinde ihtiyacım olan bazı alanlar var ki head tagı falan bunun içerisinde değil. Sadece body içerisindeki textleri istiyorum ve içindeki script, style ve map taglarını ignore etmek istiyorum. Bunun dışında n, r ve t leri de ignore edecegim. Olay şu, stream->string->substring kullanmak istemiyorum. System cost'u cok fazla oluyor, ben de cok minik bir sistemde calisacak bir kod yaziyorum. Dolayisiyla bir char buffer im var, o char buffer'ina gelen charlari atip body var mi vs. seklinde kontrol yapip, ignore ediyorum ya da string builder'a append ediyorum. Char bufferim da 5 adet char var ve previous 2 adet char'i iceren baska bir bufferim daha var. Neyse body geyiginde ve new line geyiginde guzelce calismakta olan bu kod, isin icine script ve style girdiginde asiri kompleks olmaya basladi. Boyle bir approach, kutuphane bilen var mi? Bunu basarmaya calisan tek insan degilimdir heralde ama google search yapsam bile ne arayacagimi, terminolojisini bilmiyorum. Tesekkurler. Link to comment Sosyal ağlarda paylaş Daha fazla paylaşım seçeneği…
Seele Mesaj tarihi: Ağustos 28, 2014 Paylaş Mesaj tarihi: Ağustos 28, 2014 amac ne? Link to comment Sosyal ağlarda paylaş Daha fazla paylaşım seçeneği…
reyou Mesaj tarihi: Ağustos 28, 2014 Paylaş Mesaj tarihi: Ağustos 28, 2014 https://www.nuget.org/packages/HtmlAgilityPack said: PM> Install-Package HtmlAgilityPack Link to comment Sosyal ağlarda paylaş Daha fazla paylaşım seçeneği…
Lectre Mesaj tarihi: Ağustos 28, 2014 Paylaş Mesaj tarihi: Ağustos 28, 2014 ben post kasıyordum kendimi burada buldum bu ne be. Link to comment Sosyal ağlarda paylaş Daha fazla paylaşım seçeneği…
Mithr Mesaj tarihi: Ağustos 28, 2014 Konuyu açan Paylaş Mesaj tarihi: Ağustos 28, 2014 Agility Pack kullanmam mümkün değil, parse ediyor o html sayfasını ve kesinlikle indexOf substring zımbırtılarından daha çok kaynak tüketiyor. Benim amacım text streami okurken buffer a göre bi kısmını yazmamak output a hehe. Bizim bir crawlerimiz var, bir web sitesini sömürüyoruz. PC servis crawlerimiz var fakat çalışanların evine koymalık Raspberry pi crawleri yazdım. Maliyeti 57 dolar falan wifi sı içinde, mis. Şu an kaynak kullanımı idare eder gibi fakat arada çok yükleniyor, daha verimli yapmaya çalışıyorum. Link to comment Sosyal ağlarda paylaş Daha fazla paylaşım seçeneği…
Mithr Mesaj tarihi: Ağustos 28, 2014 Konuyu açan Paylaş Mesaj tarihi: Ağustos 28, 2014 Lectre said: ben post kasıyordum kendimi burada buldum bu ne be. sdfgsdfgs Link to comment Sosyal ağlarda paylaş Daha fazla paylaşım seçeneği…
Lectre Mesaj tarihi: Ağustos 28, 2014 Paylaş Mesaj tarihi: Ağustos 28, 2014 isim yekta mı mithr? bir arkadaşa benzettim Link to comment Sosyal ağlarda paylaş Daha fazla paylaşım seçeneği…
reyou Mesaj tarihi: Ağustos 28, 2014 Paylaş Mesaj tarihi: Ağustos 28, 2014 Mithr said: Agility Pack kullanmam mümkün değil, parse ediyor o html sayfasını ve kesinlikle indexOf substring zımbırtılarından daha çok kaynak tüketiyor. Benim amacım text streami okurken buffer a göre bi kısmını yazmamak output a hehe. Bizim bir crawlerimiz var, bir web sitesini sömürüyoruz. PC servis crawlerimiz var fakat çalışanların evine koymalık Raspberry pi crawleri yazdım. Maliyeti 57 dolar falan wifi sı içinde, mis. Şu an kaynak kullanımı idare eder gibi fakat arada çok yükleniyor, daha verimli yapmaya çalışıyorum. kodunu koyarsan daha yardimci olur. ayrica bide benchmarklarini koyarsan neyin nekadar sistem kaynagi tukettigi ile ilgili, daha iyi karsilastirma sansimiz olur. Link to comment Sosyal ağlarda paylaş Daha fazla paylaşım seçeneği…
Mithr Mesaj tarihi: Ağustos 28, 2014 Konuyu açan Paylaş Mesaj tarihi: Ağustos 28, 2014 Adım Alper. Çok aşırı bi benchmark yapmadım ama sürekli request gerçekleştiği için (alınan html gzip ile sıkıştırılıp servisimize gönderiliyor) ram kullanımı 60 mb'a çıkıyor anında. Sunucuya da zibilyon adet request gidiyor sürekli o bakımdan sıkıştırıp atmamız diğer noktalarda performansı artıracak. Su an çalışan kodu atamıyorum o sıkıştırmadır, web servis bağlantısıdır, fakat bu body ayıklama için yazmış oldugum zımbırtı şu: https://www.dropbox.com/s/ds6nhoa5q64tqxi/le%20kod.txt?dl=0 Tam çalışan hali değil, var olan örneğini öldürdüm sinirlenip. Script ignore kısmını ignore edebilirsiniz sdf Link to comment Sosyal ağlarda paylaş Daha fazla paylaşım seçeneği…
reyou Mesaj tarihi: Ağustos 28, 2014 Paylaş Mesaj tarihi: Ağustos 28, 2014 CsQuery yede bir goz atabilirsin sistem kaynaklari bakimindan, bide ornek input output verebilirmisin, ne gibi birsey ne gibi cikmasi gerekiyor? son olarak processor un cok cekirdekliyse ve bulunan textlerin sirasi onemli degilse C# parallel foreach veya ConcurrentCollections lara goz atabilirsin performans acisindan. http://msdn.microsoft.com/en-us/library/system.collections.concurrent(v=vs.110).aspx Link to comment Sosyal ağlarda paylaş Daha fazla paylaşım seçeneği…
Mithr Mesaj tarihi: Ağustos 29, 2014 Konuyu açan Paylaş Mesaj tarihi: Ağustos 29, 2014 hmpps tesekkur ettim. aslinda java yazmam lazim bunu da c# olayini, eger bir algoritma varsa ceviririm diye soyledimdi. normalde .net uzerine calisiyorum. csquery guzelmis kullanirim onu da diger projelerde ama bunda byte, char bazinda, dokumani parse edip bir objeye dondurmeden takilacak bir sey lazim gibi. elimdeki urun bu: http://www.robotistan.com/Raspberry-Pi-Type-B-512-MB,PR-1412.html (baska tech spec. link bulamadim sdf) Link to comment Sosyal ağlarda paylaş Daha fazla paylaşım seçeneği…
Mithr Mesaj tarihi: Ağustos 29, 2014 Konuyu açan Paylaş Mesaj tarihi: Ağustos 29, 2014 dakikada 12 dokuman parse edip sunucuya gonderebiliyorumsu an, arada captcha falan da cozuyor cikarsa eger. Link to comment Sosyal ağlarda paylaş Daha fazla paylaşım seçeneği…
Öne çıkan mesajlar