文献データから,SRAやGEOのアクセッションデータを抽出する.

今年最後の勤務ということでまとめ

 PubMed*1PubMed Central*2などの文献データベースから,SRA*3やGEO*4などの実験データなどを保存した別のデータベースとの関連情報を抽出することを中心に活動しました.#細々と枝分かれな作業はやっていましたが...大枠をまとめます.

少しふわふわしている動機

  • SRAは次世代シーケンサデータを対象としたデータベースです.次世代シーケンサデータが公開され始めた当初は,GEOにとりあえず登録されていっていました.後にSRAが作られて,GEOに登録されていた次世代シーケンサデータは徐々にSRAに移されていっています.SRAへ移されたGEOのデータを見ると,移動先のアクセッション番号が確認出来ますが,論文投稿時にGEOのアクセッション番号が割り当てられてそれを登録し,後にSRAへ移動されると,...ややこしいです.
  • 論文投稿時に,解析データのデータベースでの公開が間に合わなかったなどで,文献データベースから文献を見るだけでは,解析データへのアクセス方法が分からないことがあります(検索すれば良いですが..).
  • 加えて,データを初めに解析した論文でない論文(そのデータを使用して解析した,など)は,文献を読まないとその事実が分かりません.
  • PubMedには,解析データのデータベースのアクセッションデータを記録するタグがありますが,PubMed Centralにはありません.

 このように,文献データと解析データとの引用が十分でないことがあります.

作業の流れ

上記の点をふまえ,以下の方法で,SRAに関する文献データからSRAデータへのアノテーション情報を作成してみました.

1. Web上で公開されている文献リスト(html形式)を取得
 今回は,illumina社の文献リスト*5,Rocheの454 Life Sciencesのシーケンサの文献リスト*6 ,Applied Biosystems社の文献リスト*7の3社の文献リストをSRAに関する文献データとして使用しました.
2. PudMedのURLのみ抜き出す
3. URLから,PudMedに登録されているアクセッション番号を抜き出す
4. IDを使って,EFetch経由でアブスト(XML形式)データ取得
 PubMedや,PubMed Centralのデータを機械的に取得するのは,Entrez Programming Utilities*8で用意されている,EFetchやESearchを使うのが便利です.
5. アブストからPudMed Centralのアクセッション番号を(あれば)抜き出す
6. IDを使って,EFetch経由で本文(XML形式)データ取得
7. 本文から,他DBのアクセッション番号(SRA)を抜き出す
 ここまでで,PudMedIDとPudMed CentralIDとSRAのアクセッション番号が得られました.
 しかし,途中で,xml形式の本文データが取得できなかった文献がある(しかも多い...)ことが分かりました.(#アブストや著者情報などのxmlデータは取得出来ます.本文データは取得出来ません.ブラウザ経由で見る分には本文が読むことができます)多くは,ジャーナルに掲載されているor掲載予定のため,xml形式で本文を取得出来ないようにしているようです.
8. xmlで本文が取得できなかった文献が、どの雑誌が多いのかを見てみた.
 取得できたxmlデータに雑誌名や掲載号,ページがあったので,これを使うことにしました.
 下記は,roche 454の文献データのうち,xmlで本文が取得出来なかった文献の雑誌名とその件数です.

雑誌名
Proceedings of the National Academy of Sciences of the United States of America 47
Genome Research 39
Applied and Environmental Microbiology 18
Journal of Bacteriology 13
Journal of Virology 11
Nature 9

 多いので以下略.

9. 雑誌名や掲載号,ページから直接URLを叩いて本文データを取得する&他DBのアクセッション番号(SRA)を抜き出す
 PNASとGenome Researchが多そうだったので,本文データのページのURLを見て,xmlデータのデータを組み合わせて叩きました.
 ここまでで,PudMedIDとPudMed CentralIDとSRAのアクセッション番号が得られました.

以上の作業の結果は...

theclaさん*9がまとめていらっしゃる、SRAs:Survey of Read Archives*10という次世代シーケンサデータを対象としたデータベースの、ホームの一番下にある『Search by publications - 文献から探す』から参照できます.