Jump to content
Forumu Destekleyenlere Katılın ×
Paticik Forumları
2000 lerden beri faal olan, çok şukela bir paylaşım platformuyuz. Hoşgeldiniz.

Veritabanı Performansı Üzerine


Öne çıkan mesajlar

Mesaj tarihi:
Merhaba,

Elimde identifierları ve sequence bilgisi olan toplamı yaklaşık 3-4GB civarında iki dosya var. Bir web applicationunda bu sequence bilgilerine ihtiyacım olacak, o yüzden insanları bekletmemek adına çok hızlı bir şekilde identifier sorgulayıp sequence çekmem ya da sequence verip identifier çekmem gerekiyor.

Geleneksel veritabanı çözümleri (mySQL, PostgreSQL, SQLite, vs.) bu konuda yeterli performans sergiler mi, yoksa tavsiyeniz ne olur? Nelere bakabilirim bu konuyla ilgili?

Şimdiden çok teşekkürler!
Mesaj tarihi:
mysql isini görür normalde. tabi veri nasil bilmiyorum. mysql'e atip indexlersen 3-4 gb birsey degil. cok hizli olsun diyorsan oracle öneririm ama oda baya tuzlu.
Mesaj tarihi:
Evet sadece 2 kolon benim için yeterli olacak. Ama sequence kolonu baya büyük olabilir, ihtimal dahilinde :)

Protein dizilimi datası olacak data. Şöyle şeyler:

şöyle


>Q14526
MTFPEADILLKSGECAGQTMLDTMEAPGHSRQLLLQLNNQRTKGFLCDVIIVVQNALFRA
HKNVLAASSAYLKSLVVHDNLLNLDHDMVSPAVFRLVLDFIYTGRLADGAEAAAAAAVAP
GAEPSLGAVLAAASYLQIPDLVALCKKRLKRHGKYCHLRGGGGGGGGYAPYGRPGRGLRA
ATPVIQACYPSPVGPPPPPAAEPPSGPEAAVNTHCAELYASGPGPAAALCASERRCSPLC
GLDLSKKSPPGSAAPERPLAERELPPRPDSPPSAGPAAYKEPPLALPSLPPLPFQKLEEA
APPSDPFRGGSGSPGPEPPGRPDGPSLLYRWMKHEPGLGSYGDELGRERGSPSERCEERG
GDAAVSPGGPPLGLAPPPRYPGSLDGPGAGGDGDDYKSSSEETGSSEDPSPPGGHLEGYP
CPHLAYGEPESFGDNLYVCIPCGKGFPSSEQLNAHVEAHVEEEEALYGRAEAAEVAAGAA
GLGPPFGGGGDKVAGAPGGLGELLRPYRCASCDKSYKDPATLRQHEKTHWLTRPYPCTIC
GKKFTQRGTMTRHMRSHLGLKPFACDACGMRFTRQYRLTEHMRIHSGEKPYECQVCGGKF
AQQRNLISHMKMHAVGGAAGAAGALAGLGGLPGVPGPDGKGKLDFPEGVFAVARLTAEQL
SLKQQDKAAAAELLAQTTHFLHDPKVALESLYPLAKFTAELGLSPDKAAEVLSQGAHLAA
GPDGRTIDRFSPT
>Q2QGD7
MDLPALLPAPTARGGQHGGGPGPLRRAPAPLGASPARRRLLLVRGPEDGGPGARPGEASG
PSPPPAEDDSDGDSFLVLLEVPHGGAAAEAAGSQEAEPGSRVNLASRPEQGPSGPAAPPG
PGVAPAGAVTISSQDLLVRLDRGVLALSAPPGPATAGAAAPRRAPQASGPSTPGYRCPEP
QCALAFAKKHQLKVHLLTHGGGQGRRPFKCPLEGCGWAFTTSYKLKRHLQSHDKLRPFGC
PVGGCGKKFTTVYNLKAHMKGHEQESLFKCEVCAERFPTHAKLSSHQRSHFEPERPYKCD
FPGCEKTFITVSALFSHNRAHFREQELFSCSFPGCSKQYDKACRLKIHLRSHTGERPFIC
DSDSCGWTFTSMSKLLRHRRKHDDDRRFTCPVEGCGKSFTRAEHLKGHSITHLGTKPFEC
PVEGCCARFSARSSLYIHSKKHVQDVGAPKSRCPVSTCNRLFTSKHSMKAHMVRQHSRRQ
DLLPQLEAPSSLTPSSELSSPGQSELTNMDLAALFSDTPANASGSAGGSDEALNSGILTI
DVTSVSSSLGGNLPANNSSLGPMEPLVLVAHSDIPPSLDSPLVLGTAATVLQQGSFSVDD
VQTVSAGALGCLVALPMKNLSDDPLALTSNSNLAAHITTPTSSSTPRENASVPELLAPIK
VEPDSPSRPGAVGQQEGSHGLPQSTLPSPAEQHGAQDTELSAGTGNFYLESGGSARTDYR
AIQLAKEKKQRGAGSNAGASQSTQRKIKEGKMSPPHFHASQNSWLCGSLVVPSGGRPGPA
PAAGVQCGAQGVQVQLVQDDPSGEGVLPSARGPATFLPFLTVDLPVYVLQEVLPSSGGPA
GPEATQFPGSTINLQDLQ
>Q92797
MASGSGDSVTRRSVASQFFTQEEGPGIDGMTTSERVVDLLNQAALITNDSKITVLKQVQE
LIINKDPTLLDNFLDEIIAFQADKSIEVRKFVIGFIEEACKRDIELLLKLIANLNMLLRD
ENVNVVKKAILTMTQLYKVALQWMVKSRVISELQEACWDMVSAMAGDIILLLDSDNDGIR
THAIKFVEGLIVTLSPRMADSEIPRRQEHDISLDRIPRDHPYIQYNVLWEEGKAALEQLL
KFMVHPAISSINLTTALGSLANIARQRPMFMSEVIQAYETLHANLPPTLAKSQVSSVRKN
LKLHLLSVLKHPASLEFQAQITTLLVDLGTPQAEIARNMPSSKDTRKRPRDDSDSTLKKM
KLEPNLGEDDEDKDLEPGPSGTSKASAQISGQSDTDITAEFLQPLLTPDNVANLVLISMV
YLPEAMPASFQAIYTPVESAGTEAQIKHLARLMATQMTAAGLGPGVEQTKQCKEEPKEEK
VVKTESVLIKRRLSAQGQAISVVGSLSSMSPLEEEAPQAKRRPEPIIPVTQPRLAGAGGR
KKIFRLSDVLKPLTDAQVEAMKLGAVKRILRAEKAVACSGAAQVRIKILASLVTQFNSGL
KAEVLSFILEDVRARLDLAFAWLYQEYNAYLAAGASGSLDKYEDCLIRLLSGLQEKPDQK
DGIFTKVVLEAPLITESALEVVRKYCEDESRTYLGMSTLRDLIFKRPSRQFQYLHVLLDL
SSHEKDKVRSQALLFIKRMYEKEQLREYVEKFALNYLQLLVHPNPPSVLFGADKDTEVAA
PWTEETVKQCLYLYLALLPQNHKLIHELAAVYTEAIADIKRTVLRVIEQPIRGMGMNSPE
LLLLVENCPKGAETLVTRCLHSLTDKVPPSPELVKRVRDLYHKRLPDVRFLIPVLNGLEK
KEVIQALPKLIKLNPIVVKEVFNRLLGTQHGEGNSALSPLNPGELLIALHNIDSVKCDMK
SIIKATNLCFAERNVYTSEVLAVVMQQLMEQSPLPMLLMRTVIQSLTMYPRLGGFVMNIL
SRLIMKQVWKYPKVWEGFIKCCQRTKPQSFQVILQLPPQQLGAVFDKCPELREPLLAHVR
SFTPHQQAHIPNSIMTILEASGKQEPEAKEAPAGPLEEDDLEPLTLAPAPAPRPPQDLIG
LRLAQEKALKRQLEEEQKLKPGGVGAPSSSSPSPSPSARPGPPPSEEAMDFREEGPECET
PGIFISMDDDSGLTEAALLDSSLEGPLPKETAAGGLTLKEERSPQTLAPVGEDAMKTPSP
AAEDAREPEAKGNS
>Q92993
MAEVGEIIEGCRLPVLRRNQDNEDEWPLAEILSVKDISGRKLFYVHYIDFNKRLDEWVTH
ERLDLKKIQFPKKEAKTPTKNGLPGSRPGSPEREVPASAQASGKTLPIPVQITLRFNLPK
EREAIPGGEPDQPLSSSSCLQPNHRSTKRKVEVVSPATPVPSETAPASVFPQNGAARRAV
AAQPGRKRKSNCLGTDEDSQDSSDGIPSAPRMTGSLVSDRSHDDIVTRMKNIECIELGRH
RLKPWYFSPYPQELTTLPVLYLCEFCLKYGRSLKCLQRHLTKCDLRHPPGNEIYRKGTIS
FFEIDGRKNKSYSQNLCLLAKCFLDHKTLYYDTDPFLFYVMTEYDCKGFHIVGYFSKEKE
STEDYNVACILTLPPYQRRGYGKLLIEFSYELSKVEGKTGTPEKPLSDLGLLSYRSYWSQ
TILEILMGLKSESGERPQITINEISEITSIKKEDVISTLQYLNLINYYKGQYILTLSEDI
VDGHERAMLKRLLRIDSKCLHFTPKDWSKRGKW
>Q96EB6
MADEAALALQPGGSPSAAGADREAASSPAGEPLRKRPRRDGPGLERSPGEPGGAAPEREV
PAAARGCPGAAAAALWREAEAEAAAAGGEQEAQATAAAGEGDNGPGLQGPSREPPLADNL
YDEDDDDEGEEEEEAAAAAIGYRDNLLFGDEIITNGFHSCESDEEDRASHASSSDWTPRP
RIGPYTFVQQHLMIGTDPRTILKDLLPETIPPPELDDMTLWQIVINILSEPPKRKKRKDI
NTIEDAVKLLQECKKIIVLTGAGVSVSCGIPDFRSRDGIYARLAVDFPDLPDPQAMFDIE
YFRKDPRPFFKFAKEIYPGQFQPSLCHKFIALSDKEGKLLRNYTQNIDTLEQVAGIQRII
QCHGSFATASCLICKYKVDCEAVRGDIFNQVVPRCPRCPADEPLAIMKPEIVFFGENLPE
QFHRAMKYDKDEVDLLIVIGSSLKVRPVALIPSSIPHEVPQILINREPLPHLHFDVELLG
DCDVIINELCHRLGGEYAKLCCNPVKLSEITEKPPRTQKELAYLSELPPTPLHVSEDSSS
PERTSPPDSSVIVTLLDQAAKSNDDLDVSESKGCMEEKPQEVQTSRNVESIAEQMENPDL
KNVGSSTGEKNERTSVAGTVRKCWPNRVAKEQISRRLDGNQYLFLPPNRYIFHGAEVYSD
SEDDVLSSSSCGSNSDSGTCQSPSLEEPMEDESEIEEFYNGLEDEPDVPERAGGAGFGTD
GDDQEAINEAISVKQEVTDMNYPSNKS
>Q9NP62
MEPDDFDSEDKEILSWDINDVKLPQNVKKTDWFQEWPDSYAKHIYSSEDKNAQRHLSSWA
MRNTNNHNSRILKKSCLGVVVCGRDCLAEEGRKIYLRPAICDKARQKQQRKRCPNCDGPL
KLIPCRGHGGFPVTNFWRHDGRFIFFQSKGEHDHPKPETKLEAEARRAMKKVNTAPSSVS
LSLKGSTETRSLPGETQSQGSLPLTWSFQEGVQLPGSYSGHLIANTPQQNSLNDCFSFSK
SYGLGGITDLTDQTSTVDPMKLYEKRKLSSSRTYSSGDLLPPSASGVYSDHGDLQAWSKN
AALGRNHLADNCYSNYPFPLTSWPCSFSPSQNSSEPFYQQLPLEPPAAKTGCPPLWPNPA
GNLYEEKVHVDFNSYVQSPAYHSPQEDPFLFTYASHPHQQYSLPSKSSKWDFEEEMTYLG
LDHCNNDMLLNLCPLR
>Q9UHF7
MVRKKNPPLRNVASEGEGQILEPIGTESKVSGKNKEFSADQMSENTDQSDAAELNHKEEH
SLHVQDPSSSSKKDLKSAVLSEKAGFNYESPSKGGNFPSFPHDEVTDRNMLAFSSPAAGG
VCEPLKSPQRAEADDPQDMACTPSGDSLETKEDQKMSPKATEETGQAQSGQANCQGLSPV
SVASKNPQVPSDGGVRLNKSKTDLLVNDNPDPAPLSPELQDFKCNICGYGYYGNDPTDLI
KHFRKYHLGLHNRTRQDAELDSKILALHNMVQFSHSKDFQKVNRSVFSGVLQDINSSRPV
LLNGTYDVQVTSGGTFIGIGRKTPDCQGNTKYFRCKFCNFTYMGNSSTELEQHFLQTHPN
KIKASLPSSEVAKPSEKNSNKSIPALQSSDSGDLGKWQDKITVKAGDDTPVGYSVPIKPL
DSSRQNGTEATSYYWCKFCSFSCESSSSLKLLEHYGKQHGAVQSGGLNPELNDKLSRGSV
INQNDLAKSSEGETMTKTDKSSSGAKKKDFSSKGAEDNMVTSYNCQFCDFRYSKSHGPDV
IVVGPLLRHYQQLHNIHKCTIKHCPFCPRGLCSPEKHLGEITYPFACRKSNCSHCALLLL
HLSPGAAGSSRVKHQCHQCSFTTPDVDVLLFHYESVHESQASDVKQEANHLQGSDGQQSV
KESKEHSCTKCDFITQVEEEISRHYRRAHSCYKCRQCSFTAADTQSLLEHFNTVHCQEQD
ITTANGEEDGHAISTIKEEPKIDFRVYNLLTPDSKMGEPVSESVVKREKLEEKDGLKEKV
WTESSSDDLRNVTWRGADILRGSPSYTQASLGLLTPVSGTQEQTKTLRDSPNVEAAHLAR
PIYGLAVETKGFLQGAPAGGEKSGALPQQYPASGENKSKDESQSLLRRRRGSGVFCANCL
TTKTSLWRKNANGGYVCNACGLYQKLHSTPRPLNIIKQNNGEQIIRRRTRKRLNPEALQA
EQLNKQQRGSNEEQVNGSPLERRSEDHLTESHQREIPLPSLSKYEAQGSLTKSHSAQQPV
LVSQTLDIHKRMQPLHIQIKSPQESTGDPGNSSSVSEGKGSSERGSPIEKYMRPAKHPNY
SPPGSPIEKYQYPLFGLPFVHNDFQSEADWLRFWSKYKLSVPGNPHYLSHVPGLPNPCQN
YVPYPTFNLPPHFSAVGSDNDIPLDLAIKHSRPGPTANGASKEKTKAPPNVKNEGPLNVV
KTEKVDRSTQDELSTKCVHCGIVFLDEVMYALHMSCHGDSGPFQCSICQHLCTDKYDFTT
HIQRGLHRNNAQVEKNGKPKE
>Q9UKF6
MSAIPAEESDQLLIRPLGAGQEVGRSCIILEFKGRKIMLDCGIHPGLEGMDALPYIDLID
PAEIDLLLISHFHLDHCGALPWFLQKTSFKGRTFMTHATKAIYRWLLSDYVKVSNISADD
MLYTETDLEESMDKIETINFHEVKEVAGIKFWCYHAGHVLGAAMFMIEIAGVKLLYTGDF
SRQEDRHLMAAEIPNIKPDILIIESTYGTHIHEKREEREARFCNTVHDIVNRGGRGLIPV
FALGRAQELLLILDEYWQNHPELHDIPIYYASSLAKKCMAVYQTYVNAMNDKIRKQININ
NPFVFKHISNLKSMDHFDDIGPSVVMASPGMMQSGLSRELFESWCTDKRNGVIIAGYCVE
GTLAKHIMSEPEEITTMSGQKLPLKMSVDYISFSAHTDYQQTSEFIRALKPPHVILVHGE
QNEMARLKAALIREYEDNDEVHIEVHNPRNTEAVTLNFRGEKLAKVMGFLADKKPEQGQR
VSGILVKRNFNYHILSPCDLSNYTDLAMSTVKQTQAIPYTGPFNLLCYQLQKLTGDVEEL
EIQEKPALKVFKNITVIQEPGMVVLEWLANPSNDMYADTVTTVILEVQSNPKIRKGAVQK
VSKKLEMHVYSKRLEIMLQDIFGEDCVSVKDDSILSVTVDGKTANLNLETRTVECEEGSE
DDESLREMVELAAQRLYEALTPVH
>Q9UQR1
MNIDDKLEGLFLKCGGIDEMQSSRTMVVMGGVSGQSTVSGELQDSVLQDRSMPHQEILAA
DEVLQESEMRQQDMISHDELMVHEETVKNDEEQMETHERLPQGLQYALNVPISVKQEITF
TDVSEQLMRDKKQIREPVDLQKKKKRKQRSPAKILTINEDGSLGLKTPKSHVCEHCNAAF
RTNYHLQRHVFIHTGEKPFQCSQCDMRFIQKYLLQRHEKIHTGEKPFRCDECGMRFIQKY
HMERHKRTHSGEKPYQCEYCLQYFSRTDRVLKHKRMCHENHDKKLNRCAIKGGLLTSEED
SGFSTSPKDNSLPKKKRQKTEKKSSGMDKESALDKSDLKKDKNDYLPLYSSSTKVKDEYM
VAEYAVEMPHSSVGGSHLEDASGEIHPPKLVLKKINSKRSLKQPLEQNQTISPLSTYEES
KVSKYAFELVDKQALLDSEGNADIDQVDNLQEGPSKPVHSSTNYDDAMQFLKKKRYLQAA
SNNSREYALNVGTIASQPSVTQAAVASVIDESTTASILESQALNVEIKSNHDKNVIPDEV
LQTLLDHYSHKANGQHEISFSVADTEVTSSISINSSEVPEVTPSENVGSSSQASSSDKAN
MLQEYSKFLQQALDRTSQNDAYLNSPSLNFVTDNQTLPNQPAFSSIDKQVYATMPINSFR
SGMNSPLRTTPDKSHFGLIVGDSQHSFPFSGDETNHASATSTQDFLDQVTSQKKAEAQPV
HQAYQMSSFEQPFRAPYHGSRAGIATQFSTANGQVNLRGPGTSAEFSEFPLVNVNDNRAG
MTSSPDATTGQTFG
...
...
...


Mesaj tarihi:
valla bu konuda yapılmadık ne yapmak icin db lazım bilmiyorum ama, genelde ayrı olarak saklıyorlar fastaları. erişim kolaylığı için bu gerçi.

ayrıca sequence verip id aratmak çok garip geldi, hiç bir yerde tanık olmadım buna.
Mesaj tarihi:
hahah o benim manyaklığım ya, şöyle bi mesele var. app'de secondary structure bilgisine ihtiyacım var, ve secondary structure prediction'u çok vakit alıyor. yapılmış olanları bir database de store edebilirsem identifierlarıyla birlikte, request geldiğinde yeniden prediction servera yönlendirmek yerine oradan çeker işleyebilirim gibime geldi.

sekanstan identifier çekmeyi düşünmem sebebi de o, insanlar identifiersız ya da UniProt identifierı değilde farklı identifierlarla fasta submit edebilirler, onları da direk prediction servera yönlendirmek yerine, elimde varsa yine elimdekini kullanıp daha hızlı olayım diyorum.

prediction serverı lokal çalıştırmaya uğraştığım için de elimde non-redundant bir protein veriseti var zaten. onu db ye çevirip identifier bulmak için de kullanabilir miyim diye düşündüm.

ama uniprot'un falan normal querylerinde nedense normal bir DB engine kullandığını düşünesim gelmiyor. nasıl yapıyorlar acaba, bakmak lazım.
Mesaj tarihi:
muhtemelen hash tablelar yapmıslardır sequencelar icin, o sekilde saklıyorlardır. en pratiği o olur gibime geliyor.

yalnız secondary structurelar için insanların neden senin sunucundan yapacağını anlamadım tam. daha doğrusu şunu anlamadım; secondary structure sonuçta sequence'ın tümüne bağlı değil ki ? niye o ikisini ilişkilendiriyorsun vt'de ?
Mesaj tarihi:
şöyle izah edeyim, bana residue-wise secondary structure bilgisi lazım. yani atıyorum 23. residue'nun ne olduğunu öğrenmem gerekiyor, proteinin genel secondary structure bilgisindense. o yüzden tüm sekansın predictionuna ihtiyacım oluyor.

neden benim lokal prediction serverı çalıştırmam gerektiğine gelince, benim metodum (çok çok fazla detay veremiyorum burada public olarak da, PI dan korkmak lazım :)), bir kaç şeyin yanısıra dediğim residuewise secondary structure bilgisine de ihtiyaç duyuyor. metodu uygulayıp sonuç gösterebilmem için de bu bilgiyi bir şekilde elde etmem gerekiyor.

mutlaka çok daha akıllıca çözümler vardır da, aklıma ilk gelen çözüm bu oldu benim. çok mu kötü? :)
Mesaj tarihi:
Abi olay hiz ise bkz : MongoDB, CouchDB, etc.

Illa MySQL gibi bir yapi kullanman gerekirse bu sefer bkz : Solr, Sphinx, etc.

Mongo ve turevlerini oneririm bu arada. Dehset seyler.
×
×
  • Yeni Oluştur...