放牧:7,8日目 使ってみる

ズルズル書かなくなっちゃいそうなので、とりあえずやったことだけは...

7日目:これまで作ったものを使ってみる
(これまで作ったもの↓
pubmedのID(以降PMID)があれば、
EFetch経由で論文のアブストデータをとってくる.
アブストデータからPubMedCentralのID(以降PMCID)があれば抽出する.
アブストデータから他のDBのID (実験のデータを保存しているDBなど)(以降DBID)をPubMedCentralのIDがあれば、EFetch経由で論文の本文データをとる.
本文内でDBIDらしきものがあれば抽出する.)
PMID\tPMCID\tDBID
のフォーマットで出力.

上記の処理を、用意されたPMIDリストを用いて、答え合わせかつ動作確認.

8日目:これまで作ったものを使ってみる
今度は、実験データのDBの本文データ?からPMIDを抽出したものを
用意してくださっていたので、(詳細は把握していない)
前回と同じように、PMIDからPMCID,DBIDを得る作業を行った.

これまでは、
[ 文献DB ]→[ 実験DBID ]
でPMID,PMCID,DBIDのセットを得ていたのに対し、 今回は
[ 実験DB ]→[ PMID ]
の流れで、PMID,(PMCID),DBIDセットを用意している.
最終的にどちらもPMID,(PMCID),DBIDのセットが得られているが、
実験DBに実験データを登録するときに、文献DBのIDを知っているとは限らないし、文献DBに文献データを登録するときに、実験DBのIDを知っているとは限らないから、どちらのセットも同じであるとは限らない。

事実、[ 実験DB ]→[ PMID ]で得られた267個のデータに対し、
(実験データはDRA/ERA/SRAの..次世代シーケンサの結果..?のみ
249種類、文献データは202種類)
そのPMID、202件分を用いて[ 文献DB ]→[ 実験DBID ]で得られるデータは41個で、
(*アクセッション番号がDRA/ERA/SRAで始まるもののみ出力している)
[ 実験DB ]→[ PMID ]で得られた267個のデータとマージしてPMIDとDBIDが同じになるものは26個だった.
(メモ:idは全てSt)
([ 文献DB ]→[ 実験DBID ]で得られるデータ41個が若干怪しい気がする...)
ここまでミスや勘違いがないとすると、
つまり、PMID,(PMCID),DBID,267セットのうち、文献で使われているデータのDBIDをひくことができ、かつ、実験DBのデータだけを見たとき、そのデータについての文献データをひくことができる関係を持つのは、26セットだったということになる.

ただ、文献データの中でのDBIDの記述方法に連番のDBIDに対して
DRAxxxx1-xxxx20と書いているケースがあったりして、
そういうのは取れていないので、対応予定...?

...なんだかどこかが間違ってそう(特に最後)なので、
確認して追記します。