放牧27日目:this article does not allow downloading...

引き続き,文献データからあれこれ取り出そうということをやっています.
今は,PCR法で用いるプライマーの塩基配列を文献データから取って来ようとしています.
(その後,例えばBLASTにかけて色々したり...を想定)

まずは,目的の塩基配列を抜き出せることを目指します.
そこで文献を見ていったところ,
(5'-[ATGC..]-3')
のような形式で記述されることが(まぁ.. )多そうなことを把握.
(他には細々、'が大文字だったり(本文は英語のくせに..)
スペースが入っていたりします.)

そこで初めはあまり難しく考えず,
(5'-[ATGC..]-3')
文章中からこんな形式の部分を取り出せるようにしました.

pubmedのアクセッション番号を入力にし,
pubmedとpubmedcentral(以下pmc)のアブスト,本文データから抽出することを考えました.
アクセスに,EFetch(http://eutils.ncbi.nlm.nih.gov/)を使います.

テストデータには以前の作業で作成したroche,illumina,abiの文献データ(pubmedのアクセッション番号.そのうち,pubmedのタグにGENBANKのアクセッション番号が登録されているもの)を用意しました.
そこからいくつか,手で上記の配列が含まれているものもチェックして...

いたのですが,(pmcの本文のXMLに)

The publisher of this article does not allow downloading of the full text in XML form.


しかもコメントアウト付き!?
PMCのアクセッション番号があっても,xmlで本文が取れない...場合もあるようです.
ブラウザで見る分には(普通に全文を)見られるし,XMLデータとして返ってくるのが空でなく,著者情報,アブスト付きなので本文がないことにしばらく気付きませんでした...意地悪....

用意したデータがほぼ↑で,XML形式では(むしろ,EFetch経由では、か?)本文は手に入れられなさそうだと思ったところで...今週は座礁
企業の文献データにあるくらいの文献は,雑誌に載ってるってことですね....