放牧10-11日目:データ集め

随分、間が空いてしまった...
ここへ書きこむテンションをまだ模索中です...。

現段階?はデータ集めのフェーズで、
作業内容は、文献の本文データからGEOやSRAなどのデータベースへのアクセッション番号(とPubMed,PubMedCentralのID)を抽出してくるというもの。
これまでは、illumina社とRoche 454で紹介されている文献リストを見てきた。

そして、10日目(5/26)、11日目(6/2)は、
Applied Biosystems社の文献リスト
http://www.appliedbiosystems.com/absite/us/en/home/applications-technologies/solid-next-generation-sequencing/publications-literature.html
の文献から、DBIDを見つける作業をした。
この文献リストは、リンク先がアブスト又は本文で統一はされておらず、リンク先もillumina社とRoche 454のようにPubMed一色ではなく、多くが各論文誌サイトの該当ページへのリンクだったので、まずはベタにリンク先を眺めていった。

▼そして眺めて得た、(わりとどうでもいい)情報
アブストのURLと本文のURLの違い #順番は適当です。

論文誌,DB名アブスト→本文
The NEW ENGRAND JOURNAL of MEDICINEabstractをfullに
Nature Protocolsabsをfullに
nature methodsabsをfullに
Science最後に.fullをつける
nature geneticsabsをfullに
Nucleic Acids Research OXFORD JOURNALSabstructをfullに
Journal of Experimental Botany OXFORD JOURNALSabstructをfullに
そもそも文献数が少なかったので、これを使うことなく、
本文ページのURLだけを見ることにして、DBIDを探した。


次に、PudMedのXMLタグには

xxxx # DB名
xxxx #アクセッション番号


がある。
これまでは(アブストの文章、本文込みでこのタグ内も見ていたが)SRAとGEOの番号しか取っていなかった。
そこで、このタグで表記されているDB名とアクセッション番号を全て抽出してみるということになった。
illumina社、Roche 454、Applied Biosystems社の文献リストに対し行った。(Applied Biosystems社の文献リストは、上記のようにPudMedのものではないが多くがPudMedへのリンク先も表記していたため&検索して、さらった。)

▼結果は、全部合わせて、170文献中、DBが4種、アクセッション番号は22410個見つかった。
DB4種は、GDBGENBANK、GEO、RefSeq。
DBごとのアクセッション番号の内訳は

GDBGENBANKGEORefSeq
14222927826
(単位は個数.文献、アクセッション番号に重複はない)
のようだった。