asinanyavuz Mesaj tarihi: Ağustos 5, 2011 Mesaj tarihi: Ağustos 5, 2011 Merhaba, Elimde identifierları ve sequence bilgisi olan toplamı yaklaşık 3-4GB civarında iki dosya var. Bir web applicationunda bu sequence bilgilerine ihtiyacım olacak, o yüzden insanları bekletmemek adına çok hızlı bir şekilde identifier sorgulayıp sequence çekmem ya da sequence verip identifier çekmem gerekiyor. Geleneksel veritabanı çözümleri (mySQL, PostgreSQL, SQLite, vs.) bu konuda yeterli performans sergiler mi, yoksa tavsiyeniz ne olur? Nelere bakabilirim bu konuyla ilgili? Şimdiden çok teşekkürler!
Seele Mesaj tarihi: Ağustos 5, 2011 Mesaj tarihi: Ağustos 5, 2011 mysql isini görür normalde. tabi veri nasil bilmiyorum. mysql'e atip indexlersen 3-4 gb birsey degil. cok hizli olsun diyorsan oracle öneririm ama oda baya tuzlu.
fizban Mesaj tarihi: Ağustos 5, 2011 Mesaj tarihi: Ağustos 5, 2011 3-4 gb çok etkilemez, sorun edecek birşey değil. sadece 2 kolon mu var datanda ? bu ne datası bu arada ya, genom falan mı ?
asinanyavuz Mesaj tarihi: Ağustos 5, 2011 Konuyu açan Mesaj tarihi: Ağustos 5, 2011 Evet sadece 2 kolon benim için yeterli olacak. Ama sequence kolonu baya büyük olabilir, ihtimal dahilinde :) Protein dizilimi datası olacak data. Şöyle şeyler: şöyle >Q14526 MTFPEADILLKSGECAGQTMLDTMEAPGHSRQLLLQLNNQRTKGFLCDVIIVVQNALFRA HKNVLAASSAYLKSLVVHDNLLNLDHDMVSPAVFRLVLDFIYTGRLADGAEAAAAAAVAP GAEPSLGAVLAAASYLQIPDLVALCKKRLKRHGKYCHLRGGGGGGGGYAPYGRPGRGLRA ATPVIQACYPSPVGPPPPPAAEPPSGPEAAVNTHCAELYASGPGPAAALCASERRCSPLC GLDLSKKSPPGSAAPERPLAERELPPRPDSPPSAGPAAYKEPPLALPSLPPLPFQKLEEA APPSDPFRGGSGSPGPEPPGRPDGPSLLYRWMKHEPGLGSYGDELGRERGSPSERCEERG GDAAVSPGGPPLGLAPPPRYPGSLDGPGAGGDGDDYKSSSEETGSSEDPSPPGGHLEGYP CPHLAYGEPESFGDNLYVCIPCGKGFPSSEQLNAHVEAHVEEEEALYGRAEAAEVAAGAA GLGPPFGGGGDKVAGAPGGLGELLRPYRCASCDKSYKDPATLRQHEKTHWLTRPYPCTIC GKKFTQRGTMTRHMRSHLGLKPFACDACGMRFTRQYRLTEHMRIHSGEKPYECQVCGGKF AQQRNLISHMKMHAVGGAAGAAGALAGLGGLPGVPGPDGKGKLDFPEGVFAVARLTAEQL SLKQQDKAAAAELLAQTTHFLHDPKVALESLYPLAKFTAELGLSPDKAAEVLSQGAHLAA GPDGRTIDRFSPT >Q2QGD7 MDLPALLPAPTARGGQHGGGPGPLRRAPAPLGASPARRRLLLVRGPEDGGPGARPGEASG PSPPPAEDDSDGDSFLVLLEVPHGGAAAEAAGSQEAEPGSRVNLASRPEQGPSGPAAPPG PGVAPAGAVTISSQDLLVRLDRGVLALSAPPGPATAGAAAPRRAPQASGPSTPGYRCPEP QCALAFAKKHQLKVHLLTHGGGQGRRPFKCPLEGCGWAFTTSYKLKRHLQSHDKLRPFGC PVGGCGKKFTTVYNLKAHMKGHEQESLFKCEVCAERFPTHAKLSSHQRSHFEPERPYKCD FPGCEKTFITVSALFSHNRAHFREQELFSCSFPGCSKQYDKACRLKIHLRSHTGERPFIC DSDSCGWTFTSMSKLLRHRRKHDDDRRFTCPVEGCGKSFTRAEHLKGHSITHLGTKPFEC PVEGCCARFSARSSLYIHSKKHVQDVGAPKSRCPVSTCNRLFTSKHSMKAHMVRQHSRRQ DLLPQLEAPSSLTPSSELSSPGQSELTNMDLAALFSDTPANASGSAGGSDEALNSGILTI DVTSVSSSLGGNLPANNSSLGPMEPLVLVAHSDIPPSLDSPLVLGTAATVLQQGSFSVDD VQTVSAGALGCLVALPMKNLSDDPLALTSNSNLAAHITTPTSSSTPRENASVPELLAPIK VEPDSPSRPGAVGQQEGSHGLPQSTLPSPAEQHGAQDTELSAGTGNFYLESGGSARTDYR AIQLAKEKKQRGAGSNAGASQSTQRKIKEGKMSPPHFHASQNSWLCGSLVVPSGGRPGPA PAAGVQCGAQGVQVQLVQDDPSGEGVLPSARGPATFLPFLTVDLPVYVLQEVLPSSGGPA GPEATQFPGSTINLQDLQ >Q92797 MASGSGDSVTRRSVASQFFTQEEGPGIDGMTTSERVVDLLNQAALITNDSKITVLKQVQE LIINKDPTLLDNFLDEIIAFQADKSIEVRKFVIGFIEEACKRDIELLLKLIANLNMLLRD ENVNVVKKAILTMTQLYKVALQWMVKSRVISELQEACWDMVSAMAGDIILLLDSDNDGIR THAIKFVEGLIVTLSPRMADSEIPRRQEHDISLDRIPRDHPYIQYNVLWEEGKAALEQLL KFMVHPAISSINLTTALGSLANIARQRPMFMSEVIQAYETLHANLPPTLAKSQVSSVRKN LKLHLLSVLKHPASLEFQAQITTLLVDLGTPQAEIARNMPSSKDTRKRPRDDSDSTLKKM KLEPNLGEDDEDKDLEPGPSGTSKASAQISGQSDTDITAEFLQPLLTPDNVANLVLISMV YLPEAMPASFQAIYTPVESAGTEAQIKHLARLMATQMTAAGLGPGVEQTKQCKEEPKEEK VVKTESVLIKRRLSAQGQAISVVGSLSSMSPLEEEAPQAKRRPEPIIPVTQPRLAGAGGR KKIFRLSDVLKPLTDAQVEAMKLGAVKRILRAEKAVACSGAAQVRIKILASLVTQFNSGL KAEVLSFILEDVRARLDLAFAWLYQEYNAYLAAGASGSLDKYEDCLIRLLSGLQEKPDQK DGIFTKVVLEAPLITESALEVVRKYCEDESRTYLGMSTLRDLIFKRPSRQFQYLHVLLDL SSHEKDKVRSQALLFIKRMYEKEQLREYVEKFALNYLQLLVHPNPPSVLFGADKDTEVAA PWTEETVKQCLYLYLALLPQNHKLIHELAAVYTEAIADIKRTVLRVIEQPIRGMGMNSPE LLLLVENCPKGAETLVTRCLHSLTDKVPPSPELVKRVRDLYHKRLPDVRFLIPVLNGLEK KEVIQALPKLIKLNPIVVKEVFNRLLGTQHGEGNSALSPLNPGELLIALHNIDSVKCDMK SIIKATNLCFAERNVYTSEVLAVVMQQLMEQSPLPMLLMRTVIQSLTMYPRLGGFVMNIL SRLIMKQVWKYPKVWEGFIKCCQRTKPQSFQVILQLPPQQLGAVFDKCPELREPLLAHVR SFTPHQQAHIPNSIMTILEASGKQEPEAKEAPAGPLEEDDLEPLTLAPAPAPRPPQDLIG LRLAQEKALKRQLEEEQKLKPGGVGAPSSSSPSPSPSARPGPPPSEEAMDFREEGPECET PGIFISMDDDSGLTEAALLDSSLEGPLPKETAAGGLTLKEERSPQTLAPVGEDAMKTPSP AAEDAREPEAKGNS >Q92993 MAEVGEIIEGCRLPVLRRNQDNEDEWPLAEILSVKDISGRKLFYVHYIDFNKRLDEWVTH ERLDLKKIQFPKKEAKTPTKNGLPGSRPGSPEREVPASAQASGKTLPIPVQITLRFNLPK EREAIPGGEPDQPLSSSSCLQPNHRSTKRKVEVVSPATPVPSETAPASVFPQNGAARRAV AAQPGRKRKSNCLGTDEDSQDSSDGIPSAPRMTGSLVSDRSHDDIVTRMKNIECIELGRH RLKPWYFSPYPQELTTLPVLYLCEFCLKYGRSLKCLQRHLTKCDLRHPPGNEIYRKGTIS FFEIDGRKNKSYSQNLCLLAKCFLDHKTLYYDTDPFLFYVMTEYDCKGFHIVGYFSKEKE STEDYNVACILTLPPYQRRGYGKLLIEFSYELSKVEGKTGTPEKPLSDLGLLSYRSYWSQ TILEILMGLKSESGERPQITINEISEITSIKKEDVISTLQYLNLINYYKGQYILTLSEDI VDGHERAMLKRLLRIDSKCLHFTPKDWSKRGKW >Q96EB6 MADEAALALQPGGSPSAAGADREAASSPAGEPLRKRPRRDGPGLERSPGEPGGAAPEREV PAAARGCPGAAAAALWREAEAEAAAAGGEQEAQATAAAGEGDNGPGLQGPSREPPLADNL YDEDDDDEGEEEEEAAAAAIGYRDNLLFGDEIITNGFHSCESDEEDRASHASSSDWTPRP RIGPYTFVQQHLMIGTDPRTILKDLLPETIPPPELDDMTLWQIVINILSEPPKRKKRKDI NTIEDAVKLLQECKKIIVLTGAGVSVSCGIPDFRSRDGIYARLAVDFPDLPDPQAMFDIE YFRKDPRPFFKFAKEIYPGQFQPSLCHKFIALSDKEGKLLRNYTQNIDTLEQVAGIQRII QCHGSFATASCLICKYKVDCEAVRGDIFNQVVPRCPRCPADEPLAIMKPEIVFFGENLPE QFHRAMKYDKDEVDLLIVIGSSLKVRPVALIPSSIPHEVPQILINREPLPHLHFDVELLG DCDVIINELCHRLGGEYAKLCCNPVKLSEITEKPPRTQKELAYLSELPPTPLHVSEDSSS PERTSPPDSSVIVTLLDQAAKSNDDLDVSESKGCMEEKPQEVQTSRNVESIAEQMENPDL KNVGSSTGEKNERTSVAGTVRKCWPNRVAKEQISRRLDGNQYLFLPPNRYIFHGAEVYSD SEDDVLSSSSCGSNSDSGTCQSPSLEEPMEDESEIEEFYNGLEDEPDVPERAGGAGFGTD GDDQEAINEAISVKQEVTDMNYPSNKS >Q9NP62 MEPDDFDSEDKEILSWDINDVKLPQNVKKTDWFQEWPDSYAKHIYSSEDKNAQRHLSSWA MRNTNNHNSRILKKSCLGVVVCGRDCLAEEGRKIYLRPAICDKARQKQQRKRCPNCDGPL KLIPCRGHGGFPVTNFWRHDGRFIFFQSKGEHDHPKPETKLEAEARRAMKKVNTAPSSVS LSLKGSTETRSLPGETQSQGSLPLTWSFQEGVQLPGSYSGHLIANTPQQNSLNDCFSFSK SYGLGGITDLTDQTSTVDPMKLYEKRKLSSSRTYSSGDLLPPSASGVYSDHGDLQAWSKN AALGRNHLADNCYSNYPFPLTSWPCSFSPSQNSSEPFYQQLPLEPPAAKTGCPPLWPNPA GNLYEEKVHVDFNSYVQSPAYHSPQEDPFLFTYASHPHQQYSLPSKSSKWDFEEEMTYLG LDHCNNDMLLNLCPLR >Q9UHF7 MVRKKNPPLRNVASEGEGQILEPIGTESKVSGKNKEFSADQMSENTDQSDAAELNHKEEH SLHVQDPSSSSKKDLKSAVLSEKAGFNYESPSKGGNFPSFPHDEVTDRNMLAFSSPAAGG VCEPLKSPQRAEADDPQDMACTPSGDSLETKEDQKMSPKATEETGQAQSGQANCQGLSPV SVASKNPQVPSDGGVRLNKSKTDLLVNDNPDPAPLSPELQDFKCNICGYGYYGNDPTDLI KHFRKYHLGLHNRTRQDAELDSKILALHNMVQFSHSKDFQKVNRSVFSGVLQDINSSRPV LLNGTYDVQVTSGGTFIGIGRKTPDCQGNTKYFRCKFCNFTYMGNSSTELEQHFLQTHPN KIKASLPSSEVAKPSEKNSNKSIPALQSSDSGDLGKWQDKITVKAGDDTPVGYSVPIKPL DSSRQNGTEATSYYWCKFCSFSCESSSSLKLLEHYGKQHGAVQSGGLNPELNDKLSRGSV INQNDLAKSSEGETMTKTDKSSSGAKKKDFSSKGAEDNMVTSYNCQFCDFRYSKSHGPDV IVVGPLLRHYQQLHNIHKCTIKHCPFCPRGLCSPEKHLGEITYPFACRKSNCSHCALLLL HLSPGAAGSSRVKHQCHQCSFTTPDVDVLLFHYESVHESQASDVKQEANHLQGSDGQQSV KESKEHSCTKCDFITQVEEEISRHYRRAHSCYKCRQCSFTAADTQSLLEHFNTVHCQEQD ITTANGEEDGHAISTIKEEPKIDFRVYNLLTPDSKMGEPVSESVVKREKLEEKDGLKEKV WTESSSDDLRNVTWRGADILRGSPSYTQASLGLLTPVSGTQEQTKTLRDSPNVEAAHLAR PIYGLAVETKGFLQGAPAGGEKSGALPQQYPASGENKSKDESQSLLRRRRGSGVFCANCL TTKTSLWRKNANGGYVCNACGLYQKLHSTPRPLNIIKQNNGEQIIRRRTRKRLNPEALQA EQLNKQQRGSNEEQVNGSPLERRSEDHLTESHQREIPLPSLSKYEAQGSLTKSHSAQQPV LVSQTLDIHKRMQPLHIQIKSPQESTGDPGNSSSVSEGKGSSERGSPIEKYMRPAKHPNY SPPGSPIEKYQYPLFGLPFVHNDFQSEADWLRFWSKYKLSVPGNPHYLSHVPGLPNPCQN YVPYPTFNLPPHFSAVGSDNDIPLDLAIKHSRPGPTANGASKEKTKAPPNVKNEGPLNVV KTEKVDRSTQDELSTKCVHCGIVFLDEVMYALHMSCHGDSGPFQCSICQHLCTDKYDFTT HIQRGLHRNNAQVEKNGKPKE >Q9UKF6 MSAIPAEESDQLLIRPLGAGQEVGRSCIILEFKGRKIMLDCGIHPGLEGMDALPYIDLID PAEIDLLLISHFHLDHCGALPWFLQKTSFKGRTFMTHATKAIYRWLLSDYVKVSNISADD MLYTETDLEESMDKIETINFHEVKEVAGIKFWCYHAGHVLGAAMFMIEIAGVKLLYTGDF SRQEDRHLMAAEIPNIKPDILIIESTYGTHIHEKREEREARFCNTVHDIVNRGGRGLIPV FALGRAQELLLILDEYWQNHPELHDIPIYYASSLAKKCMAVYQTYVNAMNDKIRKQININ NPFVFKHISNLKSMDHFDDIGPSVVMASPGMMQSGLSRELFESWCTDKRNGVIIAGYCVE GTLAKHIMSEPEEITTMSGQKLPLKMSVDYISFSAHTDYQQTSEFIRALKPPHVILVHGE QNEMARLKAALIREYEDNDEVHIEVHNPRNTEAVTLNFRGEKLAKVMGFLADKKPEQGQR VSGILVKRNFNYHILSPCDLSNYTDLAMSTVKQTQAIPYTGPFNLLCYQLQKLTGDVEEL EIQEKPALKVFKNITVIQEPGMVVLEWLANPSNDMYADTVTTVILEVQSNPKIRKGAVQK VSKKLEMHVYSKRLEIMLQDIFGEDCVSVKDDSILSVTVDGKTANLNLETRTVECEEGSE DDESLREMVELAAQRLYEALTPVH >Q9UQR1 MNIDDKLEGLFLKCGGIDEMQSSRTMVVMGGVSGQSTVSGELQDSVLQDRSMPHQEILAA DEVLQESEMRQQDMISHDELMVHEETVKNDEEQMETHERLPQGLQYALNVPISVKQEITF TDVSEQLMRDKKQIREPVDLQKKKKRKQRSPAKILTINEDGSLGLKTPKSHVCEHCNAAF RTNYHLQRHVFIHTGEKPFQCSQCDMRFIQKYLLQRHEKIHTGEKPFRCDECGMRFIQKY HMERHKRTHSGEKPYQCEYCLQYFSRTDRVLKHKRMCHENHDKKLNRCAIKGGLLTSEED SGFSTSPKDNSLPKKKRQKTEKKSSGMDKESALDKSDLKKDKNDYLPLYSSSTKVKDEYM VAEYAVEMPHSSVGGSHLEDASGEIHPPKLVLKKINSKRSLKQPLEQNQTISPLSTYEES KVSKYAFELVDKQALLDSEGNADIDQVDNLQEGPSKPVHSSTNYDDAMQFLKKKRYLQAA SNNSREYALNVGTIASQPSVTQAAVASVIDESTTASILESQALNVEIKSNHDKNVIPDEV LQTLLDHYSHKANGQHEISFSVADTEVTSSISINSSEVPEVTPSENVGSSSQASSSDKAN MLQEYSKFLQQALDRTSQNDAYLNSPSLNFVTDNQTLPNQPAFSSIDKQVYATMPINSFR SGMNSPLRTTPDKSHFGLIVGDSQHSFPFSGDETNHASATSTQDFLDQVTSQKKAEAQPV HQAYQMSSFEQPFRAPYHGSRAGIATQFSTANGQVNLRGPGTSAEFSEFPLVNVNDNRAG MTSSPDATTGQTFG ... ... ...
fizban Mesaj tarihi: Ağustos 5, 2011 Mesaj tarihi: Ağustos 5, 2011 valla bu konuda yapılmadık ne yapmak icin db lazım bilmiyorum ama, genelde ayrı olarak saklıyorlar fastaları. erişim kolaylığı için bu gerçi. ayrıca sequence verip id aratmak çok garip geldi, hiç bir yerde tanık olmadım buna.
asinanyavuz Mesaj tarihi: Ağustos 5, 2011 Konuyu açan Mesaj tarihi: Ağustos 5, 2011 hahah o benim manyaklığım ya, şöyle bi mesele var. app'de secondary structure bilgisine ihtiyacım var, ve secondary structure prediction'u çok vakit alıyor. yapılmış olanları bir database de store edebilirsem identifierlarıyla birlikte, request geldiğinde yeniden prediction servera yönlendirmek yerine oradan çeker işleyebilirim gibime geldi. sekanstan identifier çekmeyi düşünmem sebebi de o, insanlar identifiersız ya da UniProt identifierı değilde farklı identifierlarla fasta submit edebilirler, onları da direk prediction servera yönlendirmek yerine, elimde varsa yine elimdekini kullanıp daha hızlı olayım diyorum. prediction serverı lokal çalıştırmaya uğraştığım için de elimde non-redundant bir protein veriseti var zaten. onu db ye çevirip identifier bulmak için de kullanabilir miyim diye düşündüm. ama uniprot'un falan normal querylerinde nedense normal bir DB engine kullandığını düşünesim gelmiyor. nasıl yapıyorlar acaba, bakmak lazım.
fizban Mesaj tarihi: Ağustos 5, 2011 Mesaj tarihi: Ağustos 5, 2011 muhtemelen hash tablelar yapmıslardır sequencelar icin, o sekilde saklıyorlardır. en pratiği o olur gibime geliyor. yalnız secondary structurelar için insanların neden senin sunucundan yapacağını anlamadım tam. daha doğrusu şunu anlamadım; secondary structure sonuçta sequence'ın tümüne bağlı değil ki ? niye o ikisini ilişkilendiriyorsun vt'de ?
asinanyavuz Mesaj tarihi: Ağustos 5, 2011 Konuyu açan Mesaj tarihi: Ağustos 5, 2011 şöyle izah edeyim, bana residue-wise secondary structure bilgisi lazım. yani atıyorum 23. residue'nun ne olduğunu öğrenmem gerekiyor, proteinin genel secondary structure bilgisindense. o yüzden tüm sekansın predictionuna ihtiyacım oluyor. neden benim lokal prediction serverı çalıştırmam gerektiğine gelince, benim metodum (çok çok fazla detay veremiyorum burada public olarak da, PI dan korkmak lazım :)), bir kaç şeyin yanısıra dediğim residuewise secondary structure bilgisine de ihtiyaç duyuyor. metodu uygulayıp sonuç gösterebilmem için de bu bilgiyi bir şekilde elde etmem gerekiyor. mutlaka çok daha akıllıca çözümler vardır da, aklıma ilk gelen çözüm bu oldu benim. çok mu kötü? :)
di Mesaj tarihi: Ağustos 5, 2011 Mesaj tarihi: Ağustos 5, 2011 Abi olay hiz ise bkz : MongoDB, CouchDB, etc. Illa MySQL gibi bir yapi kullanman gerekirse bu sefer bkz : Solr, Sphinx, etc. Mongo ve turevlerini oneririm bu arada. Dehset seyler.
asinanyavuz Mesaj tarihi: Ağustos 5, 2011 Konuyu açan Mesaj tarihi: Ağustos 5, 2011 MongoDB çok sevimli bişeye benziyor, benchmark sonuçları da genelde MySQL den iyi gorunuyor. Kurcalayayım biraz ^^ Teşekkürler.
Mum_Chamber Mesaj tarihi: Ağustos 5, 2011 Mesaj tarihi: Ağustos 5, 2011 eger server musaitse 2-3 gblik mysql cahce ile cocuklar gibi senersin
Öne çıkan mesajlar