Jump to content
Forumu Destekleyenlere Katılın ×
Paticik Forumları
2000 lerden beri faal olan, çok şukela bir paylaşım platformuyuz. Hoşgeldiniz.

Java substringimsi


Mithr

Öne çıkan mesajlar

Merhaba, aslında sorum c# için de geçerli olabilir.

Elimde bir stream var. Stream aslında utf8 html içeren bir stream.

Bu html içerisinde ihtiyacım olan bazı alanlar var ki head tagı falan bunun içerisinde değil.

Sadece body içerisindeki textleri istiyorum ve içindeki script, style ve map taglarını ignore etmek istiyorum.
Bunun dışında n, r ve t leri de ignore edecegim.

Olay şu, stream->string->substring kullanmak istemiyorum. System cost'u cok fazla oluyor, ben de cok minik bir sistemde calisacak bir kod yaziyorum.

Dolayisiyla bir char buffer im var, o char buffer'ina gelen charlari atip body var mi vs. seklinde kontrol yapip, ignore ediyorum ya da string builder'a append ediyorum.

Char bufferim da 5 adet char var ve previous 2 adet char'i iceren baska bir bufferim daha var.

Neyse body geyiginde ve new line geyiginde guzelce calismakta olan bu kod, isin icine script ve style girdiginde asiri kompleks olmaya basladi.

Boyle bir approach, kutuphane bilen var mi? Bunu basarmaya calisan tek insan degilimdir heralde ama google search yapsam bile ne arayacagimi, terminolojisini bilmiyorum.

Tesekkurler.
Link to comment
Sosyal ağlarda paylaş

Agility Pack kullanmam mümkün değil, parse ediyor o html sayfasını ve kesinlikle indexOf substring zımbırtılarından daha çok kaynak tüketiyor. Benim amacım text streami okurken buffer a göre bi kısmını yazmamak output a hehe.

Bizim bir crawlerimiz var, bir web sitesini sömürüyoruz. PC servis crawlerimiz var fakat çalışanların evine koymalık Raspberry pi crawleri yazdım. Maliyeti 57 dolar falan wifi sı içinde, mis.

Şu an kaynak kullanımı idare eder gibi fakat arada çok yükleniyor, daha verimli yapmaya çalışıyorum.
Link to comment
Sosyal ağlarda paylaş

Mithr said:

Agility Pack kullanmam mümkün değil, parse ediyor o html sayfasını ve kesinlikle indexOf substring zımbırtılarından daha çok kaynak tüketiyor. Benim amacım text streami okurken buffer a göre bi kısmını yazmamak output a hehe.

Bizim bir crawlerimiz var, bir web sitesini sömürüyoruz. PC servis crawlerimiz var fakat çalışanların evine koymalık Raspberry pi crawleri yazdım. Maliyeti 57 dolar falan wifi sı içinde, mis.

Şu an kaynak kullanımı idare eder gibi fakat arada çok yükleniyor, daha verimli yapmaya çalışıyorum.


kodunu koyarsan daha yardimci olur.

ayrica bide benchmarklarini koyarsan neyin nekadar sistem kaynagi tukettigi ile ilgili, daha iyi karsilastirma sansimiz olur.
Link to comment
Sosyal ağlarda paylaş

Adım Alper.
Çok aşırı bi benchmark yapmadım ama sürekli request gerçekleştiği için (alınan html gzip ile sıkıştırılıp servisimize gönderiliyor) ram kullanımı 60 mb'a çıkıyor anında. Sunucuya da zibilyon adet request gidiyor sürekli o bakımdan sıkıştırıp atmamız diğer noktalarda performansı artıracak.

Su an çalışan kodu atamıyorum o sıkıştırmadır, web servis bağlantısıdır, fakat bu body ayıklama için yazmış oldugum zımbırtı şu:

https://www.dropbox.com/s/ds6nhoa5q64tqxi/le%20kod.txt?dl=0

Tam çalışan hali değil, var olan örneğini öldürdüm sinirlenip. Script ignore kısmını ignore edebilirsiniz sdf
Link to comment
Sosyal ağlarda paylaş

CsQuery yede bir goz atabilirsin sistem kaynaklari bakimindan, bide ornek input output verebilirmisin, ne gibi birsey ne gibi cikmasi gerekiyor?

son olarak processor un cok cekirdekliyse ve bulunan textlerin sirasi onemli degilse C# parallel foreach veya ConcurrentCollections lara goz atabilirsin performans acisindan.

http://msdn.microsoft.com/en-us/library/system.collections.concurrent(v=vs.110).aspx
Link to comment
Sosyal ağlarda paylaş

hmpps tesekkur ettim.

aslinda java yazmam lazim bunu da c# olayini, eger bir algoritma varsa ceviririm diye soyledimdi. normalde .net uzerine calisiyorum.

csquery guzelmis kullanirim onu da diger projelerde ama bunda byte, char bazinda, dokumani parse edip bir objeye dondurmeden takilacak bir sey lazim gibi.

elimdeki urun bu:
http://www.robotistan.com/Raspberry-Pi-Type-B-512-MB,PR-1412.html

(baska tech spec. link bulamadim sdf)
Link to comment
Sosyal ağlarda paylaş

×
×
  • Yeni Oluştur...