放牧19日目:GEOからSRAに再登録されたデータたち

書かねば忘れることを思い知ったので、書きます...orz

・次世代シーケンサでの解析結果は、
世に出てきた当初は専用のDBなどが整備されていなかったので,
GEOに混じって登録されていた.
・現在は,NCBIなら,SRA(Sequence Read Archive)
http://www.ncbi.nlm.nih.gov/sra
が整備され、以前GEOにとりあえず登録されていたものが,再登録しなおされている.
・再登録されたものはSRAのデータの方に,これはGEOのGSExxxのデータですよと何らかの記述がある.(はず)

今日までの作業で,GEOから,次世代シーケンサの結果(だと思われるもの)を抽出してみた.
方法は,
・GEOのデータを全てなぞり,PMIDや,GPL(PL->プラットフォーム)の情報を抜き出す.
・SRAのデータを全てなぞり,データにGEOのアクセッション番号の頭文字+数字を抜き出す.
・上の二つのファイルをGEOの番号で合わせる.
(これで,得たテーブルのGPL情報は次世代シーケンサのものと考えられる)
・得たテーブルにあるGPLと同じ番号を持つGEOのデータを抽出

 ..結果は追記します