文献データから，SRAやGEOのアクセッションデータを抽出する．

DBCLSでの活動報告

今年最後の勤務ということでまとめ PubMed*1やPubMed Central*2などの文献データベースから，SRA*3やGEO*4などの実験データなどを保存した別のデータベースとの関連情報を抽出することを中心に活動しました．#細々と枝分かれな作業はやっていましたが...大枠…

2010-10-25

pdf文書をjavaで扱う．

DBCLSでの活動報告

今やっていることの詳細は.. http://d.hatena.ne.jp/i_87/20101003/1286327328 にまとめて書いてくださっていますのでご覧下さい..．前回は、EFetch経由でpubmed centralの本文情報を取ろうとして取れない...という問題に悩んで（？）いました．ここを掘り…

2010-09-29

放牧27日目：this article does not allow downloading...

DBCLSでの活動報告

引き続き，文献データからあれこれ取り出そうということをやっています．今は，PCR法で用いるプライマーの塩基配列を文献データから取って来ようとしています．（その後，例えばBLASTにかけて色々したり...を想定）まずは，目的の塩基配列を抜き出せること…

2010-08-02

放牧１９日目：GEOからSRAに再登録されたデータたち

DBCLSでの活動報告

書かねば忘れることを思い知ったので、書きます...orz・次世代シーケンサでの解析結果は、世に出てきた当初は専用のDBなどが整備されていなかったので， GEOに混じって登録されていた．・現在は，NCBIなら，SRA(Sequence Read Archive) http://www.ncbi.nl…

2010-06-21

14日目：PMCからGEO/SRAのIDを得る

DBCLSでの活動報告

PubMedCentralのXMLには、PubMedのIDを保持するタグが用意されている → 2584661 18976483

2010-06-17

放牧１２-１３日目：GEO,SRAの登録データからPudMedのIDを得る

DBCLSでの活動報告

12日目(6/9)は、GEOのデータからPudMedのIDを抽出した。具体的には、soft形式のデータを見て、 !Series_geo_accession = xxxx !Series_pubmed_id = xxxxx の部分から、GEOのアクセッション番号とPudMedのアクセッション番号を抜いた。結果は16960個のGEOの…

2010-06-16

放牧１０-１１日目：データ集め

DBCLSでの活動報告

随分、間が空いてしまった... ここへ書きこむテンションをまだ模索中です...。現段階？はデータ集めのフェーズで、作業内容は、文献の本文データからGEOやSRAなどのデータベースへのアクセッション番号（とPubMed,PubMedCentralのID）を抽出してくるという…

2010-05-19

放牧９日目：まだまだ使ってみる...

DBCLSでの活動報告

今日は、Rocheの454 Life Sciencesが開発しているシーケンサで解析した結果を扱う論文からDBIDを抽出する作業をした． http://454.com/publications-and-resources/all-publications.asp から、PudMedのアクセッション番号を探し,PudMedCentalを引いて他DBの…

2010-05-14

放牧：7,8日目使ってみる

DBCLSでの活動報告

ズルズル書かなくなっちゃいそうなので、とりあえずやったことだけは...７日目:これまで作ったものを使ってみる（これまで作ったもの↓ pubmedのID(以降PMID)があれば、 EFetch経由で論文のアブストデータをとってくる．アブストデータからPubMedCentralのI…

2010-04-23

放牧６日目：今まで作ったものを組み合わせる

DBCLSでの活動報告

1.Web上で公開されている文献リスト(html形式)を取得 2.PudMedのURLのみ抜き出す 3.URLから，PudMedに登録されている文献のアブストのIDを抜き出す 4.IDを使って，EFetch経由でアブスト(XML形式)取得 5.アブストからPudMedCentralのIDを（あれば）抜き出す 6…