放牧9日目:まだまだ使ってみる...

今日は、Rocheの454 Life Sciencesが開発しているシーケンサで解析した結果を扱う論文からDBIDを抽出する作業をした.
http://454.com/publications-and-resources/all-publications.asp
から、PudMedのアクセッション番号を探し,PudMedCentalを引いて他DBのアクセッション番号を取ってくる。


これだけなら前回までと全く同じなので何の苦労もなく、さっさとデータを揃えられたはずが...途中で動かなくなってしまったり...


454のシーケンサを使いましたよと↑に公開されているPudMedのアクセッション番号は707件分あった。加えてこの行程ではPudMedCentralへもアクセスする。(707件中、いくつかはアクセッション番号ではない、ただの数字列を取ってきてしまっているとしても、707回アクセスすることには変わりない。そして、EFetchのお世話になる回数は、PMCIDが毎件必ず見つかるわけではないので単純に707x2回ではないとしても......)
EFetchの注意書きには、
100件以上のリクエストは空いてそうな時にやってくれ、
1秒間に3リクエスト以上しないでくれ、
とあり、これにひっかかってしまったのか、大体150件目くらいで途中でプログラムが停止してしまう。
(今思えば...本当にそうなんだろうか...?もしやPCの問題...?)
ので、100件ごとに5秒sleepすると無事動いた。


わーいできたハイおしまい、では芸がないなと思い...
家に帰ってちょっと作業&調べてみたこと。
707件分からは、187個のDBIDが抽出できた。
707件のうち、何らかのDBIDを記載したものは82件だった。
そのDBIDのうち、頭文字の分布は以下の通りになった。
(PMIDとDBIDの頭文字のuniqをとった。番号を連番で記載している場合もあり、187個の各DBIDの頭文字をとった単純な合計数よりも、純粋に、ある論文が取得して記載したDBIDの頭文字の種類を調べるほうが比較するには妥当なのではと考えたため(本当は頭文字でなくてDBの種類が良かったが..))
まぁ...気休め程度に...Rって便利ですね。

ERA ERR SRR SRS SRX GPL SRP GSM SRA GSE
1 1 2 2 5 6 6 9 25 45 102
DBIDの種類ってなんだっけ...と調べると近いところに発見。
http://motdb.dbcls.jp/?AJACS12%2Ftheclaを参考にしつつ...
・ERA..EBI。次世代シーケンサのデータのIDの頭
・SRA..NCBI。次世代シーケンサのデータのIDの頭
GPL,GSM,GSEはGEOデータベースのIDで、データを何区切りで見るかでIDが別らしい(プラットフォームごと、サンプルごと、など)
ERR,SRR,SRS,SRX,SRPは...調べ中。
GPL,GSM,GSEは、同じデータでもそれぞれ発行されて...いたりするのか...?これも随時調べよう...?と、まぁ、...よくわかっていない。(以前習った気がするので資料を見つけてまとめます。)
現段階での感覚としては、
宣伝のページに載っている論文の1割にしか使われたデータに行き着く方法(ID)がないということになるのだがそれは...ありなのか...?
が一番大きい。
論文とDBの公開時期については色々考えや作戦やしがらみがあるらしく、論文を登録するときにDBの番号が取得出来ているわけではない、といえど、論文を見てどのデータを使ったんだろう?と思ったときに、データを辿る術がないということではないのか?
それとも、知らない方法があるのか?
それとも、多くは使われてるデータなんてどうでもいいのか?
分からないが...そういうものなのだろうか?
(上のテーブルは...何か思えるほど知識があるわけではなかった...GPL,GSM,GSEは同じデータにそれぞれ発行されているような予感がするので一概に多いからどうだとも言えそうにない)
まぁもう一つの結論としては、芸がないものはなかったなということか...orz


事のついでに、DBIDの周辺文字も出力するようにしてみた。
眺めてみると、割と本文に
 [SRRxxxxxx] to [SRRxxxxxx]
といった番号が連番であるのを省略した表記がされているようだった。
今は、この前と後のSRRxxxxxxをピンポイントで取っているだけなのでこのさき変更していくことに...なるはず...


しかし、他DBのアクセッション番号を取るだけ(この作業)では、本筋には合わないはずで、次は他DBからPudMedのアブストに行き着けるかを調べることができるようにするんだろうなと思っている...が、それは次回...?


そしてアクセッション番号だのIDだの表記がまちまちでごめんなさい...

追記
・ERA..EMBL
・SRA..NCBI
GPL,GSM,GSE..GEO
・SRP,SRX,SRS,SRR...DDBJ