pdf文書をjavaで扱う.

今やっていることの詳細は..
http://d.hatena.ne.jp/i_87/20101003/1286327328
にまとめて書いてくださっていますのでご覧下さい...

前回は、EFetch経由でpubmed centralの本文情報を取ろうとして取れない...という問題に悩んで(?)いました.
ここを掘り下げていく戦略は若干微妙ですが..やれるならやってみようということで、xmlのなかに、本文のpdf名(パスではない)があるのを利用して,xmlで公開されていない本文はpdf頼みに...そのpdf文書の本文をjavaで扱ってみたいと思います。

xml中のタグ
ファイル名であってパスではないので、使えるかもうちょっと考えてみないと駄目だと思いますが..大量にアクセスすることにならないようにしないといけないとか..

PDF

pdfをjavaで扱うのに、
http://itextpdf.com/
iTextというライブラリが良さそうです.
日本語を扱うには、”日本語フォント”が必要だそうです。
http://allabout.co.jp/gm/gc/80691/
http://itextpdf.sourceforge.net/
上記でダウンロードできるようです。
今回は、英語で書かれた論文を対象にしているので、これはダウンロードなし.

追記:
色々見ていると,生成に特化したライブラリ...なのかな..という印象.
読み込みが出来なくはなさそうですが、ちょっと茨の道っぽいので違う方法を探します.

  • 以下ちょっと見たメモ..MeSHについて

http://www.nlm.nih.gov/mesh/meshhome.html
Obtaining MeSH -> Download
http://www.nlm.nih.gov/mesh/filelist.html
2011 MeSH in XML format
他には、ASCII format,木構造のformat