2010-01-01から1年間の記事一覧
今年最後の勤務ということでまとめ PubMed*1やPubMed Central*2などの文献データベースから,SRA*3やGEO*4などの実験データなどを保存した別のデータベースとの関連情報を抽出することを中心に活動しました.#細々と枝分かれな作業はやっていましたが...大枠…
今やっていることの詳細は.. http://d.hatena.ne.jp/i_87/20101003/1286327328 にまとめて書いてくださっていますのでご覧下さい...前回は、EFetch経由でpubmed centralの本文情報を取ろうとして取れない...という問題に悩んで(?)いました. ここを掘り…
引き続き,文献データからあれこれ取り出そうということをやっています. 今は,PCR法で用いるプライマーの塩基配列を文献データから取って来ようとしています. (その後,例えばBLASTにかけて色々したり...を想定)まずは,目的の塩基配列を抜き出せること…
書かねば忘れることを思い知ったので、書きます...orz・次世代シーケンサでの解析結果は、 世に出てきた当初は専用のDBなどが整備されていなかったので, GEOに混じって登録されていた. ・現在は,NCBIなら,SRA(Sequence Read Archive) http://www.ncbi.nl…
PubMedCentralのXMLには、PubMedのIDを保持するタグが用意されている → 2584661 18976483
12日目(6/9)は、GEOのデータからPudMedのIDを抽出した。 具体的には、soft形式のデータを見て、 !Series_geo_accession = xxxx !Series_pubmed_id = xxxxx の部分から、GEOのアクセッション番号とPudMedのアクセッション番号を抜いた。 結果は16960個のGEOの…
随分、間が空いてしまった... ここへ書きこむテンションをまだ模索中です...。現段階?はデータ集めのフェーズで、 作業内容は、文献の本文データからGEOやSRAなどのデータベースへのアクセッション番号(とPubMed,PubMedCentralのID)を抽出してくるという…
今日は、Rocheの454 Life Sciencesが開発しているシーケンサで解析した結果を扱う論文からDBIDを抽出する作業をした. http://454.com/publications-and-resources/all-publications.asp から、PudMedのアクセッション番号を探し,PudMedCentalを引いて他DBの…
ズルズル書かなくなっちゃいそうなので、とりあえずやったことだけは...7日目:これまで作ったものを使ってみる (これまで作ったもの↓ pubmedのID(以降PMID)があれば、 EFetch経由で論文のアブストデータをとってくる. アブストデータからPubMedCentralのI…
1.Web上で公開されている文献リスト(html形式)を取得 2.PudMedのURLのみ抜き出す 3.URLから,PudMedに登録されている文献のアブストのIDを抜き出す 4.IDを使って,EFetch経由でアブスト(XML形式)取得 5.アブストからPudMedCentralのIDを(あれば)抜き出す 6…
(先週の続き) JAVAでXMLを扱うライブラリを使って, 目的のタグのデータを取ってくるための準備をした. ライブラリを探したところ, ・DOM ・SAX ・XPath を使う方法が見つかった. DOMとSAXはAPI,XPathは構文らしいので, こうして並べて挙げるのは間違…
今日は,前回EFetchから取ってきたXMLデータから 特定のデータを抽出した. ・EFetchから落としたXMLデータのタグの種類,意味の把握. ・ファイルを読み込み,タグを拾い,データ抽出.今回の実装では,文字列をべたっと読んで,目的のタグか, 調べるとい…
DBCLSでの作業内容 ・NCBIのESearchにクエリを投げる ・返って来た結果をEFetchに投げる ・そして色々..