2010-04-01から1ヶ月間の記事一覧

放牧6日目:今まで作ったものを組み合わせる

1.Web上で公開されている文献リスト(html形式)を取得 2.PudMedのURLのみ抜き出す 3.URLから,PudMedに登録されている文献のアブストのIDを抜き出す 4.IDを使って,EFetch経由でアブスト(XML形式)取得 5.アブストからPudMedCentralのIDを(あれば)抜き出す 6…

放牧5日目:XMLを扱うライブラリと、PMCのデータからDBのIDを抽出する

(先週の続き) JAVAでXMLを扱うライブラリを使って, 目的のタグのデータを取ってくるための準備をした. ライブラリを探したところ, ・DOM ・SAX ・XPath を使う方法が見つかった. DOMとSAXはAPI,XPathは構文らしいので, こうして並べて挙げるのは間違…

放牧4日目:XMLから欲しいデータを抜き出す

今日は,前回EFetchから取ってきたXMLデータから 特定のデータを抽出した. ・EFetchから落としたXMLデータのタグの種類,意味の把握. ・ファイルを読み込み,タグを拾い,データ抽出.今回の実装では,文字列をべたっと読んで,目的のタグか, 調べるとい…