データを定期的に更新する

長らく間が空いてしまいました...。活動報告をば。


現在(前からですが)次世代シーケンサデータの目次サイトSRAs のコンテンツにある、文献から探す -Publications referring to NGS dataに関わっています。


次世代シーケンサデータ関連の文献(論文)と、それに関連のあるSRAのIDを対応付けたリストです。
このデータはどう集めてきたかというと、下記から、

  • ベンダーの文献リスト...illumina, 454 Life Sciences, Applied Biosystems
  • DRA(DDBJ)の記述
  • PubMedのMeSHタグ

PubMedに登録されている論文を見つけ、SRAのIDを正規表現で拾ってきました。


さて最近は何をやっていたかというと、
ある程度データを収集する方法が固まったので、これを定期的に動かせるよう調整をしていました。
現在は週に一回、

  • DRA(DDBJ)のデータから
  • PubMedのMeSHタグ(今のところは、”High-Throughput Nucleotide Sequencing[MeSH]”のみ)

この二種類の方法で探索しています。


新しく更新されたデータは、ページ右上(2011/9/26現在)のlast update横のリンクから確認できます。
"from MeSH (pubmed)" 以下は、MeSHタグを定点観測した結果、”from DDBJ DB” 以下は、DRAのデータを探索した結果で、新しく増えたPMIDとSRAIDのペアを出力しています。
毎週バシバシ増えるようなものでもないので、少しずつ増えていくと思われます。