文献データから,SRAやGEOのアクセッションデータを抽出する.
今年最後の勤務ということでまとめ
PubMed*1やPubMed Central*2などの文献データベースから,SRA*3やGEO*4などの実験データなどを保存した別のデータベースとの関連情報を抽出することを中心に活動しました.#細々と枝分かれな作業はやっていましたが...大枠をまとめます.
少しふわふわしている動機
- SRAは次世代シーケンサデータを対象としたデータベースです.次世代シーケンサデータが公開され始めた当初は,GEOにとりあえず登録されていっていました.後にSRAが作られて,GEOに登録されていた次世代シーケンサデータは徐々にSRAに移されていっています.SRAへ移されたGEOのデータを見ると,移動先のアクセッション番号が確認出来ますが,論文投稿時にGEOのアクセッション番号が割り当てられてそれを登録し,後にSRAへ移動されると,...ややこしいです.
- 論文投稿時に,解析データのデータベースでの公開が間に合わなかったなどで,文献データベースから文献を見るだけでは,解析データへのアクセス方法が分からないことがあります(検索すれば良いですが..).
- 加えて,データを初めに解析した論文でない論文(そのデータを使用して解析した,など)は,文献を読まないとその事実が分かりません.
- PubMedには,解析データのデータベースのアクセッションデータを記録するタグがありますが,PubMed Centralにはありません.
このように,文献データと解析データとの引用が十分でないことがあります.
作業の流れ
上記の点をふまえ,以下の方法で,SRAに関する文献データからSRAデータへのアノテーション情報を作成してみました.
1. Web上で公開されている文献リスト(html形式)を取得
今回は,illumina社の文献リスト*5,Rocheの454 Life Sciencesのシーケンサの文献リスト*6 ,Applied Biosystems社の文献リスト*7の3社の文献リストをSRAに関する文献データとして使用しました.
2. PudMedのURLのみ抜き出す
3. URLから,PudMedに登録されているアクセッション番号を抜き出す
4. IDを使って,EFetch経由でアブスト(XML形式)データ取得
PubMedや,PubMed Centralのデータを機械的に取得するのは,Entrez Programming Utilities*8で用意されている,EFetchやESearchを使うのが便利です.
5. アブストからPudMed Centralのアクセッション番号を(あれば)抜き出す
6. IDを使って,EFetch経由で本文(XML形式)データ取得
7. 本文から,他DBのアクセッション番号(SRA)を抜き出す
ここまでで,PudMedIDとPudMed CentralIDとSRAのアクセッション番号が得られました.
しかし,途中で,xml形式の本文データが取得できなかった文献がある(しかも多い...)ことが分かりました.(#アブストや著者情報などのxmlデータは取得出来ます.本文データは取得出来ません.ブラウザ経由で見る分には本文が読むことができます)多くは,ジャーナルに掲載されているor掲載予定のため,xml形式で本文を取得出来ないようにしているようです.
8. xmlで本文が取得できなかった文献が、どの雑誌が多いのかを見てみた.
取得できたxmlデータに雑誌名や掲載号,ページがあったので,これを使うことにしました.
下記は,roche 454の文献データのうち,xmlで本文が取得出来なかった文献の雑誌名とその件数です.
雑誌名 | 数 |
Proceedings of the National Academy of Sciences of the United States of America | 47 |
Genome Research | 39 |
Applied and Environmental Microbiology | 18 |
Journal of Bacteriology | 13 |
Journal of Virology | 11 |
Nature | 9 |
多いので以下略.
9. 雑誌名や掲載号,ページから直接URLを叩いて本文データを取得する&他DBのアクセッション番号(SRA)を抜き出す
PNASとGenome Researchが多そうだったので,本文データのページのURLを見て,xmlデータのデータを組み合わせて叩きました.
ここまでで,PudMedIDとPudMed CentralIDとSRAのアクセッション番号が得られました.
以上の作業の結果は...
theclaさん*9がまとめていらっしゃる、SRAs:Survey of Read Archives*10という次世代シーケンサデータを対象としたデータベースの、ホームの一番下にある『Search by publications - 文献から探す』から参照できます.
*1:http://www.ncbi.nlm.nih.gov/pubmed
*2:http://www.ncbi.nlm.nih.gov/pmc/
*3:http://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?
*4:http://www.ncbi.nlm.nih.gov/geo/
*5:http://www.illuminakk.co.jp/support/literature_GA1.shtml
*6:http://454.com/publications-and-resources/all-publications.asp
*7:http://www.appliedbiosystems.com/absite/us/en/home/applications-technologies/solid-next-generation-sequencing/publications-literature.html
*8:http://eutils.ncbi.nlm.nih.gov/