放牧12-13日目:GEO,SRAの登録データからPudMedのIDを得る

12日目(6/9)は、GEOのデータからPudMedのIDを抽出した。
具体的には、soft形式のデータを見て、
!Series_geo_accession = xxxx
!Series_pubmed_id = xxxxx
の部分から、GEOのアクセッション番号とPudMedのアクセッション番号を抜いた。
結果は16960個のGEOのデータのうち、
PudMed番号がみつかったものは11744個(無かったのは5216個)
(結局...見つからなかったファイルは、見つからない、でいいのか、データの種類が違う?とか、見れていないので、確認しておきたい。)


13日目(6/16)は、SRAのデータからGEOのアクセッション番号を抽出した。
SRAのXMLファイルから、GEOに関連のありそうな、タグを見つける、アクセッション番号を拾うのが目的。
これは、ベタにファイル内の文字列を上からさらっていった。
(何をしたいのかを書きたいけれど...なんだか、はっきりしないところが出てきてしまったので後日...。)