Veritabanı Performansı Üzerine

asinanyavuz · Ağustos 5, 2011

Merhaba,

Elimde identifierları ve sequence bilgisi olan toplamı yaklaşık 3-4GB civarında iki dosya var. Bir web applicationunda bu sequence bilgilerine ihtiyacım olacak, o yüzden insanları bekletmemek adına çok hızlı bir şekilde identifier sorgulayıp sequence çekmem ya da sequence verip identifier çekmem gerekiyor.

Geleneksel veritabanı çözümleri (mySQL, PostgreSQL, SQLite, vs.) bu konuda yeterli performans sergiler mi, yoksa tavsiyeniz ne olur? Nelere bakabilirim bu konuyla ilgili?

Şimdiden çok teşekkürler!

Seele · Ağustos 5, 2011

mysql isini görür normalde. tabi veri nasil bilmiyorum. mysql'e atip indexlersen 3-4 gb birsey degil. cok hizli olsun diyorsan oracle öneririm ama oda baya tuzlu.

fizban · Ağustos 5, 2011

3-4 gb çok etkilemez, sorun edecek birşey değil.

sadece 2 kolon mu var datanda ?

bu ne datası bu arada ya, genom falan mı ?

asinanyavuz · Ağustos 5, 2011

Evet sadece 2 kolon benim için yeterli olacak. Ama sequence kolonu baya büyük olabilir, ihtimal dahilinde :)

Protein dizilimi datası olacak data. Şöyle şeyler:

şöyle



	>Q14526

	MTFPEADILLKSGECAGQTMLDTMEAPGHSRQLLLQLNNQRTKGFLCDVIIVVQNALFRA

	HKNVLAASSAYLKSLVVHDNLLNLDHDMVSPAVFRLVLDFIYTGRLADGAEAAAAAAVAP

	GAEPSLGAVLAAASYLQIPDLVALCKKRLKRHGKYCHLRGGGGGGGGYAPYGRPGRGLRA

	ATPVIQACYPSPVGPPPPPAAEPPSGPEAAVNTHCAELYASGPGPAAALCASERRCSPLC

	GLDLSKKSPPGSAAPERPLAERELPPRPDSPPSAGPAAYKEPPLALPSLPPLPFQKLEEA

	APPSDPFRGGSGSPGPEPPGRPDGPSLLYRWMKHEPGLGSYGDELGRERGSPSERCEERG

	GDAAVSPGGPPLGLAPPPRYPGSLDGPGAGGDGDDYKSSSEETGSSEDPSPPGGHLEGYP

	CPHLAYGEPESFGDNLYVCIPCGKGFPSSEQLNAHVEAHVEEEEALYGRAEAAEVAAGAA

	GLGPPFGGGGDKVAGAPGGLGELLRPYRCASCDKSYKDPATLRQHEKTHWLTRPYPCTIC

	GKKFTQRGTMTRHMRSHLGLKPFACDACGMRFTRQYRLTEHMRIHSGEKPYECQVCGGKF

	AQQRNLISHMKMHAVGGAAGAAGALAGLGGLPGVPGPDGKGKLDFPEGVFAVARLTAEQL

	SLKQQDKAAAAELLAQTTHFLHDPKVALESLYPLAKFTAELGLSPDKAAEVLSQGAHLAA

	GPDGRTIDRFSPT

	>Q2QGD7

	MDLPALLPAPTARGGQHGGGPGPLRRAPAPLGASPARRRLLLVRGPEDGGPGARPGEASG

	PSPPPAEDDSDGDSFLVLLEVPHGGAAAEAAGSQEAEPGSRVNLASRPEQGPSGPAAPPG

	PGVAPAGAVTISSQDLLVRLDRGVLALSAPPGPATAGAAAPRRAPQASGPSTPGYRCPEP

	QCALAFAKKHQLKVHLLTHGGGQGRRPFKCPLEGCGWAFTTSYKLKRHLQSHDKLRPFGC

	PVGGCGKKFTTVYNLKAHMKGHEQESLFKCEVCAERFPTHAKLSSHQRSHFEPERPYKCD

	FPGCEKTFITVSALFSHNRAHFREQELFSCSFPGCSKQYDKACRLKIHLRSHTGERPFIC

	DSDSCGWTFTSMSKLLRHRRKHDDDRRFTCPVEGCGKSFTRAEHLKGHSITHLGTKPFEC

	PVEGCCARFSARSSLYIHSKKHVQDVGAPKSRCPVSTCNRLFTSKHSMKAHMVRQHSRRQ

	DLLPQLEAPSSLTPSSELSSPGQSELTNMDLAALFSDTPANASGSAGGSDEALNSGILTI

	DVTSVSSSLGGNLPANNSSLGPMEPLVLVAHSDIPPSLDSPLVLGTAATVLQQGSFSVDD

	VQTVSAGALGCLVALPMKNLSDDPLALTSNSNLAAHITTPTSSSTPRENASVPELLAPIK

	VEPDSPSRPGAVGQQEGSHGLPQSTLPSPAEQHGAQDTELSAGTGNFYLESGGSARTDYR

	AIQLAKEKKQRGAGSNAGASQSTQRKIKEGKMSPPHFHASQNSWLCGSLVVPSGGRPGPA

	PAAGVQCGAQGVQVQLVQDDPSGEGVLPSARGPATFLPFLTVDLPVYVLQEVLPSSGGPA

	GPEATQFPGSTINLQDLQ

	>Q92797

	MASGSGDSVTRRSVASQFFTQEEGPGIDGMTTSERVVDLLNQAALITNDSKITVLKQVQE

	LIINKDPTLLDNFLDEIIAFQADKSIEVRKFVIGFIEEACKRDIELLLKLIANLNMLLRD

	ENVNVVKKAILTMTQLYKVALQWMVKSRVISELQEACWDMVSAMAGDIILLLDSDNDGIR

	THAIKFVEGLIVTLSPRMADSEIPRRQEHDISLDRIPRDHPYIQYNVLWEEGKAALEQLL

	KFMVHPAISSINLTTALGSLANIARQRPMFMSEVIQAYETLHANLPPTLAKSQVSSVRKN

	LKLHLLSVLKHPASLEFQAQITTLLVDLGTPQAEIARNMPSSKDTRKRPRDDSDSTLKKM

	KLEPNLGEDDEDKDLEPGPSGTSKASAQISGQSDTDITAEFLQPLLTPDNVANLVLISMV

	YLPEAMPASFQAIYTPVESAGTEAQIKHLARLMATQMTAAGLGPGVEQTKQCKEEPKEEK

	VVKTESVLIKRRLSAQGQAISVVGSLSSMSPLEEEAPQAKRRPEPIIPVTQPRLAGAGGR

	KKIFRLSDVLKPLTDAQVEAMKLGAVKRILRAEKAVACSGAAQVRIKILASLVTQFNSGL

	KAEVLSFILEDVRARLDLAFAWLYQEYNAYLAAGASGSLDKYEDCLIRLLSGLQEKPDQK

	DGIFTKVVLEAPLITESALEVVRKYCEDESRTYLGMSTLRDLIFKRPSRQFQYLHVLLDL

	SSHEKDKVRSQALLFIKRMYEKEQLREYVEKFALNYLQLLVHPNPPSVLFGADKDTEVAA

	PWTEETVKQCLYLYLALLPQNHKLIHELAAVYTEAIADIKRTVLRVIEQPIRGMGMNSPE

	LLLLVENCPKGAETLVTRCLHSLTDKVPPSPELVKRVRDLYHKRLPDVRFLIPVLNGLEK

	KEVIQALPKLIKLNPIVVKEVFNRLLGTQHGEGNSALSPLNPGELLIALHNIDSVKCDMK

	SIIKATNLCFAERNVYTSEVLAVVMQQLMEQSPLPMLLMRTVIQSLTMYPRLGGFVMNIL

	SRLIMKQVWKYPKVWEGFIKCCQRTKPQSFQVILQLPPQQLGAVFDKCPELREPLLAHVR

	SFTPHQQAHIPNSIMTILEASGKQEPEAKEAPAGPLEEDDLEPLTLAPAPAPRPPQDLIG

	LRLAQEKALKRQLEEEQKLKPGGVGAPSSSSPSPSPSARPGPPPSEEAMDFREEGPECET

	PGIFISMDDDSGLTEAALLDSSLEGPLPKETAAGGLTLKEERSPQTLAPVGEDAMKTPSP

	AAEDAREPEAKGNS

	>Q92993

	MAEVGEIIEGCRLPVLRRNQDNEDEWPLAEILSVKDISGRKLFYVHYIDFNKRLDEWVTH

	ERLDLKKIQFPKKEAKTPTKNGLPGSRPGSPEREVPASAQASGKTLPIPVQITLRFNLPK

	EREAIPGGEPDQPLSSSSCLQPNHRSTKRKVEVVSPATPVPSETAPASVFPQNGAARRAV

	AAQPGRKRKSNCLGTDEDSQDSSDGIPSAPRMTGSLVSDRSHDDIVTRMKNIECIELGRH

	RLKPWYFSPYPQELTTLPVLYLCEFCLKYGRSLKCLQRHLTKCDLRHPPGNEIYRKGTIS

	FFEIDGRKNKSYSQNLCLLAKCFLDHKTLYYDTDPFLFYVMTEYDCKGFHIVGYFSKEKE

	STEDYNVACILTLPPYQRRGYGKLLIEFSYELSKVEGKTGTPEKPLSDLGLLSYRSYWSQ

	TILEILMGLKSESGERPQITINEISEITSIKKEDVISTLQYLNLINYYKGQYILTLSEDI

	VDGHERAMLKRLLRIDSKCLHFTPKDWSKRGKW

	>Q96EB6

	MADEAALALQPGGSPSAAGADREAASSPAGEPLRKRPRRDGPGLERSPGEPGGAAPEREV

	PAAARGCPGAAAAALWREAEAEAAAAGGEQEAQATAAAGEGDNGPGLQGPSREPPLADNL

	YDEDDDDEGEEEEEAAAAAIGYRDNLLFGDEIITNGFHSCESDEEDRASHASSSDWTPRP

	RIGPYTFVQQHLMIGTDPRTILKDLLPETIPPPELDDMTLWQIVINILSEPPKRKKRKDI

	NTIEDAVKLLQECKKIIVLTGAGVSVSCGIPDFRSRDGIYARLAVDFPDLPDPQAMFDIE

	YFRKDPRPFFKFAKEIYPGQFQPSLCHKFIALSDKEGKLLRNYTQNIDTLEQVAGIQRII

	QCHGSFATASCLICKYKVDCEAVRGDIFNQVVPRCPRCPADEPLAIMKPEIVFFGENLPE

	QFHRAMKYDKDEVDLLIVIGSSLKVRPVALIPSSIPHEVPQILINREPLPHLHFDVELLG

	DCDVIINELCHRLGGEYAKLCCNPVKLSEITEKPPRTQKELAYLSELPPTPLHVSEDSSS

	PERTSPPDSSVIVTLLDQAAKSNDDLDVSESKGCMEEKPQEVQTSRNVESIAEQMENPDL

	KNVGSSTGEKNERTSVAGTVRKCWPNRVAKEQISRRLDGNQYLFLPPNRYIFHGAEVYSD

	SEDDVLSSSSCGSNSDSGTCQSPSLEEPMEDESEIEEFYNGLEDEPDVPERAGGAGFGTD

	GDDQEAINEAISVKQEVTDMNYPSNKS

	>Q9NP62

	MEPDDFDSEDKEILSWDINDVKLPQNVKKTDWFQEWPDSYAKHIYSSEDKNAQRHLSSWA

	MRNTNNHNSRILKKSCLGVVVCGRDCLAEEGRKIYLRPAICDKARQKQQRKRCPNCDGPL

	KLIPCRGHGGFPVTNFWRHDGRFIFFQSKGEHDHPKPETKLEAEARRAMKKVNTAPSSVS

	LSLKGSTETRSLPGETQSQGSLPLTWSFQEGVQLPGSYSGHLIANTPQQNSLNDCFSFSK

	SYGLGGITDLTDQTSTVDPMKLYEKRKLSSSRTYSSGDLLPPSASGVYSDHGDLQAWSKN

	AALGRNHLADNCYSNYPFPLTSWPCSFSPSQNSSEPFYQQLPLEPPAAKTGCPPLWPNPA

	GNLYEEKVHVDFNSYVQSPAYHSPQEDPFLFTYASHPHQQYSLPSKSSKWDFEEEMTYLG

	LDHCNNDMLLNLCPLR

	>Q9UHF7

	MVRKKNPPLRNVASEGEGQILEPIGTESKVSGKNKEFSADQMSENTDQSDAAELNHKEEH

	SLHVQDPSSSSKKDLKSAVLSEKAGFNYESPSKGGNFPSFPHDEVTDRNMLAFSSPAAGG

	VCEPLKSPQRAEADDPQDMACTPSGDSLETKEDQKMSPKATEETGQAQSGQANCQGLSPV

	SVASKNPQVPSDGGVRLNKSKTDLLVNDNPDPAPLSPELQDFKCNICGYGYYGNDPTDLI

	KHFRKYHLGLHNRTRQDAELDSKILALHNMVQFSHSKDFQKVNRSVFSGVLQDINSSRPV

	LLNGTYDVQVTSGGTFIGIGRKTPDCQGNTKYFRCKFCNFTYMGNSSTELEQHFLQTHPN

	KIKASLPSSEVAKPSEKNSNKSIPALQSSDSGDLGKWQDKITVKAGDDTPVGYSVPIKPL

	DSSRQNGTEATSYYWCKFCSFSCESSSSLKLLEHYGKQHGAVQSGGLNPELNDKLSRGSV

	INQNDLAKSSEGETMTKTDKSSSGAKKKDFSSKGAEDNMVTSYNCQFCDFRYSKSHGPDV

	IVVGPLLRHYQQLHNIHKCTIKHCPFCPRGLCSPEKHLGEITYPFACRKSNCSHCALLLL

	HLSPGAAGSSRVKHQCHQCSFTTPDVDVLLFHYESVHESQASDVKQEANHLQGSDGQQSV

	KESKEHSCTKCDFITQVEEEISRHYRRAHSCYKCRQCSFTAADTQSLLEHFNTVHCQEQD

	ITTANGEEDGHAISTIKEEPKIDFRVYNLLTPDSKMGEPVSESVVKREKLEEKDGLKEKV

	WTESSSDDLRNVTWRGADILRGSPSYTQASLGLLTPVSGTQEQTKTLRDSPNVEAAHLAR

	PIYGLAVETKGFLQGAPAGGEKSGALPQQYPASGENKSKDESQSLLRRRRGSGVFCANCL

	TTKTSLWRKNANGGYVCNACGLYQKLHSTPRPLNIIKQNNGEQIIRRRTRKRLNPEALQA

	EQLNKQQRGSNEEQVNGSPLERRSEDHLTESHQREIPLPSLSKYEAQGSLTKSHSAQQPV

	LVSQTLDIHKRMQPLHIQIKSPQESTGDPGNSSSVSEGKGSSERGSPIEKYMRPAKHPNY

	SPPGSPIEKYQYPLFGLPFVHNDFQSEADWLRFWSKYKLSVPGNPHYLSHVPGLPNPCQN

	YVPYPTFNLPPHFSAVGSDNDIPLDLAIKHSRPGPTANGASKEKTKAPPNVKNEGPLNVV

	KTEKVDRSTQDELSTKCVHCGIVFLDEVMYALHMSCHGDSGPFQCSICQHLCTDKYDFTT

	HIQRGLHRNNAQVEKNGKPKE

	>Q9UKF6

	MSAIPAEESDQLLIRPLGAGQEVGRSCIILEFKGRKIMLDCGIHPGLEGMDALPYIDLID

	PAEIDLLLISHFHLDHCGALPWFLQKTSFKGRTFMTHATKAIYRWLLSDYVKVSNISADD

	MLYTETDLEESMDKIETINFHEVKEVAGIKFWCYHAGHVLGAAMFMIEIAGVKLLYTGDF

	SRQEDRHLMAAEIPNIKPDILIIESTYGTHIHEKREEREARFCNTVHDIVNRGGRGLIPV

	FALGRAQELLLILDEYWQNHPELHDIPIYYASSLAKKCMAVYQTYVNAMNDKIRKQININ

	NPFVFKHISNLKSMDHFDDIGPSVVMASPGMMQSGLSRELFESWCTDKRNGVIIAGYCVE

	GTLAKHIMSEPEEITTMSGQKLPLKMSVDYISFSAHTDYQQTSEFIRALKPPHVILVHGE

	QNEMARLKAALIREYEDNDEVHIEVHNPRNTEAVTLNFRGEKLAKVMGFLADKKPEQGQR

	VSGILVKRNFNYHILSPCDLSNYTDLAMSTVKQTQAIPYTGPFNLLCYQLQKLTGDVEEL

	EIQEKPALKVFKNITVIQEPGMVVLEWLANPSNDMYADTVTTVILEVQSNPKIRKGAVQK

	VSKKLEMHVYSKRLEIMLQDIFGEDCVSVKDDSILSVTVDGKTANLNLETRTVECEEGSE

	DDESLREMVELAAQRLYEALTPVH

	>Q9UQR1

	MNIDDKLEGLFLKCGGIDEMQSSRTMVVMGGVSGQSTVSGELQDSVLQDRSMPHQEILAA

	DEVLQESEMRQQDMISHDELMVHEETVKNDEEQMETHERLPQGLQYALNVPISVKQEITF

	TDVSEQLMRDKKQIREPVDLQKKKKRKQRSPAKILTINEDGSLGLKTPKSHVCEHCNAAF

	RTNYHLQRHVFIHTGEKPFQCSQCDMRFIQKYLLQRHEKIHTGEKPFRCDECGMRFIQKY

	HMERHKRTHSGEKPYQCEYCLQYFSRTDRVLKHKRMCHENHDKKLNRCAIKGGLLTSEED

	SGFSTSPKDNSLPKKKRQKTEKKSSGMDKESALDKSDLKKDKNDYLPLYSSSTKVKDEYM

	VAEYAVEMPHSSVGGSHLEDASGEIHPPKLVLKKINSKRSLKQPLEQNQTISPLSTYEES

	KVSKYAFELVDKQALLDSEGNADIDQVDNLQEGPSKPVHSSTNYDDAMQFLKKKRYLQAA

	SNNSREYALNVGTIASQPSVTQAAVASVIDESTTASILESQALNVEIKSNHDKNVIPDEV

	LQTLLDHYSHKANGQHEISFSVADTEVTSSISINSSEVPEVTPSENVGSSSQASSSDKAN

	MLQEYSKFLQQALDRTSQNDAYLNSPSLNFVTDNQTLPNQPAFSSIDKQVYATMPINSFR

	SGMNSPLRTTPDKSHFGLIVGDSQHSFPFSGDETNHASATSTQDFLDQVTSQKKAEAQPV

	HQAYQMSSFEQPFRAPYHGSRAGIATQFSTANGQVNLRGPGTSAEFSEFPLVNVNDNRAG

	MTSSPDATTGQTFG

	...

	...

	...

fizban · Ağustos 5, 2011

valla bu konuda yapılmadık ne yapmak icin db lazım bilmiyorum ama, genelde ayrı olarak saklıyorlar fastaları. erişim kolaylığı için bu gerçi.

ayrıca sequence verip id aratmak çok garip geldi, hiç bir yerde tanık olmadım buna.

asinanyavuz · Ağustos 5, 2011

hahah o benim manyaklığım ya, şöyle bi mesele var. app'de secondary structure bilgisine ihtiyacım var, ve secondary structure prediction'u çok vakit alıyor. yapılmış olanları bir database de store edebilirsem identifierlarıyla birlikte, request geldiğinde yeniden prediction servera yönlendirmek yerine oradan çeker işleyebilirim gibime geldi.

sekanstan identifier çekmeyi düşünmem sebebi de o, insanlar identifiersız ya da UniProt identifierı değilde farklı identifierlarla fasta submit edebilirler, onları da direk prediction servera yönlendirmek yerine, elimde varsa yine elimdekini kullanıp daha hızlı olayım diyorum.

prediction serverı lokal çalıştırmaya uğraştığım için de elimde non-redundant bir protein veriseti var zaten. onu db ye çevirip identifier bulmak için de kullanabilir miyim diye düşündüm.

ama uniprot'un falan normal querylerinde nedense normal bir DB engine kullandığını düşünesim gelmiyor. nasıl yapıyorlar acaba, bakmak lazım.

fizban · Ağustos 5, 2011

muhtemelen hash tablelar yapmıslardır sequencelar icin, o sekilde saklıyorlardır. en pratiği o olur gibime geliyor.

yalnız secondary structurelar için insanların neden senin sunucundan yapacağını anlamadım tam. daha doğrusu şunu anlamadım; secondary structure sonuçta sequence'ın tümüne bağlı değil ki ? niye o ikisini ilişkilendiriyorsun vt'de ?

asinanyavuz · Ağustos 5, 2011

şöyle izah edeyim, bana residue-wise secondary structure bilgisi lazım. yani atıyorum 23. residue'nun ne olduğunu öğrenmem gerekiyor, proteinin genel secondary structure bilgisindense. o yüzden tüm sekansın predictionuna ihtiyacım oluyor.

neden benim lokal prediction serverı çalıştırmam gerektiğine gelince, benim metodum (çok çok fazla detay veremiyorum burada public olarak da, PI dan korkmak lazım :)), bir kaç şeyin yanısıra dediğim residuewise secondary structure bilgisine de ihtiyaç duyuyor. metodu uygulayıp sonuç gösterebilmem için de bu bilgiyi bir şekilde elde etmem gerekiyor.

mutlaka çok daha akıllıca çözümler vardır da, aklıma ilk gelen çözüm bu oldu benim. çok mu kötü? :)

di · Ağustos 5, 2011

Abi olay hiz ise bkz : MongoDB, CouchDB, etc.

Illa MySQL gibi bir yapi kullanman gerekirse bu sefer bkz : Solr, Sphinx, etc.

Mongo ve turevlerini oneririm bu arada. Dehset seyler.

asinanyavuz · Ağustos 5, 2011

MongoDB çok sevimli bişeye benziyor, benchmark sonuçları da genelde MySQL den iyi gorunuyor. Kurcalayayım biraz ^^ Teşekkürler.

Mum_Chamber · Ağustos 5, 2011

eger server musaitse 2-3 gblik mysql cahce ile cocuklar gibi senersin

Giriş

Veritabanı Performansı Üzerine

Öne çıkan mesajlar

asinanyavuz

Seele

fizban

asinanyavuz

fizban

asinanyavuz

fizban

asinanyavuz

di

asinanyavuz

Mum_Chamber