放牧5日目:XMLを扱うライブラリと、PMCのデータからDBのIDを抽出する

(先週の続き)
JAVAXMLを扱うライブラリを使って,
目的のタグのデータを取ってくるための準備をした.
ライブラリを探したところ,
・DOM
・SAX
XPath
を使う方法が見つかった.
DOMとSAXはAPIXPathは構文らしいので,
こうして並べて挙げるのは間違っている気がするが,
考え方というニュアンスで...。(?なんか違うな...)
他にもあるのかもしれないが,とりあえず3例.

DOMで実装した.
しかし,後になってXPathを扱うライブラリの方が
コードは簡潔になったようだと知る.orz

これまでの作業の流れ
NCBIのESearch,EFetchを使って,PubMedに集積されている文献データを取得
↓文献データ(XML形式)から,目的のタグのデータを抽出
(PudMedCentralのIDも抽出している)
↓pmcidを使い,PubMedCentralに集積されている,文献データを取得.
↓次に,この文献データから,文献で扱われた塩基配列などの
実験結果を保存,登録している他のDBのIDを抽出した.
(今のところ,ここまで)