データを定期的に更新する
長らく間が空いてしまいました...。活動報告をば。
現在(前からですが)次世代シーケンサデータの目次サイトSRAs のコンテンツにある、文献から探す -Publications referring to NGS dataに関わっています。
次世代シーケンサデータ関連の文献(論文)と、それに関連のあるSRAのIDを対応付けたリストです。
このデータはどう集めてきたかというと、下記から、
- ベンダーの文献リスト...illumina, 454 Life Sciences, Applied Biosystems
- DRA(DDBJ)の記述
- PubMedのMeSHタグ
PubMedに登録されている論文を見つけ、SRAのIDを正規表現で拾ってきました。
さて最近は何をやっていたかというと、
ある程度データを収集する方法が固まったので、これを定期的に動かせるよう調整をしていました。
現在は週に一回、
- DRA(DDBJ)のデータから
- PubMedのMeSHタグ(今のところは、”High-Throughput Nucleotide Sequencing[MeSH]”のみ)
この二種類の方法で探索しています。
新しく更新されたデータは、ページ右上(2011/9/26現在)のlast update横のリンクから確認できます。
"from MeSH (pubmed)" 以下は、MeSHタグを定点観測した結果、”from DDBJ DB” 以下は、DRAのデータを探索した結果で、新しく増えたPMIDとSRAIDのペアを出力しています。
毎週バシバシ増えるようなものでもないので、少しずつ増えていくと思われます。