エラーのありがたみ

人の書いたものを眺めていて、さっさと気付けなかったミスのメモ。 =は、数を比べる手続き。 gosh> (= #t #t) *** ERROR: real number required: #t Stack Trace: gosh> (= 3 2) #f _______________________________________

データを定期的に更新する

長らく間が空いてしまいました...。活動報告をば。 現在(前からですが)次世代シーケンサデータの目次サイトSRAs のコンテンツにある、文献から探す -Publications referring to NGS dataに関わっています。 次世代シーケンサデータ関連の文献(論文)と、…

ハマった:Python 正規表現

# xという以下の文字列があったとする. >>> x = '385A33B1C96C' # この文字列から、BとCを前にある数字ごと抜き出したいときに、次のような正規表現を書いた. >>> re.compile(r'(\d+B)|(\d+C)').findall(x) [('33B', ''), ('', '1C'), ('', '96C')] # 間違…

DBCLSの収穫祭で発表しました。

活動メモです。 3/18にRAとしてお世話になっているDBCLSで、AJACS25 もとい、収穫祭が催されました。 RAの成果発表会で、来年度から来てもらうRAの勧誘の目的も強いです。 私も末席ながら、発表させていただきました。 http://g86.dbcls.jp/g86/?p=174普段、…

ハマった:Python

データの書式を変えるのに、Pythonを使って書いていた。 あぁ、そうかと思った出来事メモ。データを作るのに、for文のなかで for: a = str(int(b)) ... str="hugahuga" 関数strと変数strを無意識に使っていた。エラーが.. TypeError: 'str' object is not ca…

迷路*Python

覚えたてほやっほやのPythonを使ってみたくて書きました. 問題は, 人生を書き換える者すらいた。:人材獲得作戦・4 試験問題ほか の最短経路探索問題から抜粋. 実際の問題の詳細については、リンクから.簡単に説明すると,迷路のスタートからゴールまで…

ハマったメモ*Python

気ばらしにPythonで何かを書いていた。メモ。m行n列な多次元配列を作って、配列の中身をいじりたかった。 #5x3の、要素を0で初期化した多次元配列を作りたい。 In [44]: d=[[0]*3]*5 #多次元配列できた。 In [45]: d Out[45]: [[0, 0, 0], [0, 0, 0], [0, 0,…

文献データから,SRAやGEOのアクセッションデータを抽出する.

今年最後の勤務ということでまとめ PubMed*1やPubMed Central*2などの文献データベースから,SRA*3やGEO*4などの実験データなどを保存した別のデータベースとの関連情報を抽出することを中心に活動しました.#細々と枝分かれな作業はやっていましたが...大枠…

pdf文書をjavaで扱う.

今やっていることの詳細は.. http://d.hatena.ne.jp/i_87/20101003/1286327328 にまとめて書いてくださっていますのでご覧下さい...前回は、EFetch経由でpubmed centralの本文情報を取ろうとして取れない...という問題に悩んで(?)いました. ここを掘り…

放牧27日目:this article does not allow downloading...

引き続き,文献データからあれこれ取り出そうということをやっています. 今は,PCR法で用いるプライマーの塩基配列を文献データから取って来ようとしています. (その後,例えばBLASTにかけて色々したり...を想定)まずは,目的の塩基配列を抜き出せること…

放牧19日目:GEOからSRAに再登録されたデータたち

書かねば忘れることを思い知ったので、書きます...orz・次世代シーケンサでの解析結果は、 世に出てきた当初は専用のDBなどが整備されていなかったので, GEOに混じって登録されていた. ・現在は,NCBIなら,SRA(Sequence Read Archive) http://www.ncbi.nl…

14日目:PMCからGEO/SRAのIDを得る

PubMedCentralのXMLには、PubMedのIDを保持するタグが用意されている → 2584661 18976483

放牧12-13日目:GEO,SRAの登録データからPudMedのIDを得る

12日目(6/9)は、GEOのデータからPudMedのIDを抽出した。 具体的には、soft形式のデータを見て、 !Series_geo_accession = xxxx !Series_pubmed_id = xxxxx の部分から、GEOのアクセッション番号とPudMedのアクセッション番号を抜いた。 結果は16960個のGEOの…

放牧10-11日目:データ集め

随分、間が空いてしまった... ここへ書きこむテンションをまだ模索中です...。現段階?はデータ集めのフェーズで、 作業内容は、文献の本文データからGEOやSRAなどのデータベースへのアクセッション番号(とPubMed,PubMedCentralのID)を抽出してくるという…

放牧9日目:まだまだ使ってみる...

今日は、Rocheの454 Life Sciencesが開発しているシーケンサで解析した結果を扱う論文からDBIDを抽出する作業をした. http://454.com/publications-and-resources/all-publications.asp から、PudMedのアクセッション番号を探し,PudMedCentalを引いて他DBの…

放牧:7,8日目 使ってみる

ズルズル書かなくなっちゃいそうなので、とりあえずやったことだけは...7日目:これまで作ったものを使ってみる (これまで作ったもの↓ pubmedのID(以降PMID)があれば、 EFetch経由で論文のアブストデータをとってくる. アブストデータからPubMedCentralのI…

放牧6日目:今まで作ったものを組み合わせる

1.Web上で公開されている文献リスト(html形式)を取得 2.PudMedのURLのみ抜き出す 3.URLから,PudMedに登録されている文献のアブストのIDを抜き出す 4.IDを使って,EFetch経由でアブスト(XML形式)取得 5.アブストからPudMedCentralのIDを(あれば)抜き出す 6…

放牧5日目:XMLを扱うライブラリと、PMCのデータからDBのIDを抽出する

(先週の続き) JAVAでXMLを扱うライブラリを使って, 目的のタグのデータを取ってくるための準備をした. ライブラリを探したところ, ・DOM ・SAX ・XPath を使う方法が見つかった. DOMとSAXはAPI,XPathは構文らしいので, こうして並べて挙げるのは間違…

放牧4日目:XMLから欲しいデータを抜き出す

今日は,前回EFetchから取ってきたXMLデータから 特定のデータを抽出した. ・EFetchから落としたXMLデータのタグの種類,意味の把握. ・ファイルを読み込み,タグを拾い,データ抽出.今回の実装では,文字列をべたっと読んで,目的のタグか, 調べるとい…

放牧3日目:ESearchとEFetchとの出会い

DBCLSでの作業内容 ・NCBIのESearchにクエリを投げる ・返って来た結果をEFetchに投げる ・そして色々..