放牧10-11日目:データ集め
随分、間が空いてしまった...
ここへ書きこむテンションをまだ模索中です...。
現段階?はデータ集めのフェーズで、
作業内容は、文献の本文データからGEOやSRAなどのデータベースへのアクセッション番号(とPubMed,PubMedCentralのID)を抽出してくるというもの。
これまでは、illumina社とRoche 454で紹介されている文献リストを見てきた。
そして、10日目(5/26)、11日目(6/2)は、
Applied Biosystems社の文献リスト
http://www.appliedbiosystems.com/absite/us/en/home/applications-technologies/solid-next-generation-sequencing/publications-literature.html
の文献から、DBIDを見つける作業をした。
この文献リストは、リンク先がアブスト又は本文で統一はされておらず、リンク先もillumina社とRoche 454のようにPubMed一色ではなく、多くが各論文誌サイトの該当ページへのリンクだったので、まずはベタにリンク先を眺めていった。
▼そして眺めて得た、(わりとどうでもいい)情報
アブストのURLと本文のURLの違い #順番は適当です。
論文誌,DB名 | アブスト→本文 |
The NEW ENGRAND JOURNAL of MEDICINE | abstractをfullに |
Nature Protocols | absをfullに |
nature methods | absをfullに |
Science | 最後に.fullをつける |
nature genetics | absをfullに |
Nucleic Acids Research OXFORD JOURNALS | abstructをfullに |
Journal of Experimental Botany OXFORD JOURNALS | abstructをfullに |
本文ページのURLだけを見ることにして、DBIDを探した。
次に、PudMedのXMLタグには
がある。
これまでは(アブストの文章、本文込みでこのタグ内も見ていたが)SRAとGEOの番号しか取っていなかった。
そこで、このタグで表記されているDB名とアクセッション番号を全て抽出してみるということになった。
illumina社、Roche 454、Applied Biosystems社の文献リストに対し行った。(Applied Biosystems社の文献リストは、上記のようにPudMedのものではないが多くがPudMedへのリンク先も表記していたため&検索して、さらった。)
▼結果は、全部合わせて、170文献中、DBが4種、アクセッション番号は22410個見つかった。
DB4種は、GDB、GENBANK、GEO、RefSeq。
DBごとのアクセッション番号の内訳は
GDB | GENBANK | GEO | RefSeq |
14 | 22292 | 78 | 26 |
のようだった。