pdf文書をjavaで扱う． - meguu08の日記になれない覚え書き

今やっていることの詳細は..
http://d.hatena.ne.jp/i_87/20101003/1286327328
にまとめて書いてくださっていますのでご覧下さい..．

前回は、EFetch経由でpubmed centralの本文情報を取ろうとして取れない...という問題に悩んで（？）いました．
ここを掘り下げていく戦略は若干微妙ですが..やれるならやってみようということで、xmlのなかに、本文のpdf名(パスではない)があるのを利用して，xmlで公開されていない本文はpdf頼みに...そのpdf文書の本文をjavaで扱ってみたいと思います。

xml中のタグ
ファイル名であってパスではないので、使えるかもうちょっと考えてみないと駄目だと思いますが..大量にアクセスすることにならないようにしないといけないとか..

PDF

pdfをjavaで扱うのに、
http://itextpdf.com/
iTextというライブラリが良さそうです．
日本語を扱うには、”日本語フォント”が必要だそうです。
（http://allabout.co.jp/gm/gc/80691/）
http://itextpdf.sourceforge.net/
上記でダウンロードできるようです。
今回は、英語で書かれた論文を対象にしているので、これはダウンロードなし．

追記：
色々見ていると，生成に特化したライブラリ...なのかな..という印象．
読み込みが出来なくはなさそうですが、ちょっと茨の道っぽいので違う方法を探します．

以下ちょっと見たメモ..MeSHについて

http://www.nlm.nih.gov/mesh/meshhome.html
Obtaining MeSH -> Download
http://www.nlm.nih.gov/mesh/filelist.html
2011 MeSH in XML format
他には、ASCII format，木構造のformat