えー私は馬鹿です。
前回のエントリーで書いたように、Bowtieという解析ソフトをインストールしようとして苦労していました。
で、昨日ふと気付いたのは、、、、
ちゃんとWindows用があるんですね。。。ェン(p´;ω;`q)ェン
そらUnix用をWindowsにインストールしようとしていたら色々エラー出ますよね。
ってこと改めてインストール方法を。
まず、
Bowtieのサイト
でbowtie-0.12.7-win32.zipをダウンロードします。
で、解凍して中身のファイルを全てメインフォルダ(私の場合は、MSYSの\home\ユーザー名\)に置きます。
これで、MSYS上でbowtieコマンドが使えるようになりました。
次に、SAMtoolsというものを、
このサイト
からsamtools-0.1.7_i386-win32をダウンロード&解凍し、中身を先ほどと同じフォルダに置きます。
これでsamtoolsコマンドも使えるようになり、シーケンスデータのマッピングから、
SNP
の同定まで一通りのことができるようになりました。
ここでは、bowtieの
Tutrial
にある通りに、大腸菌のゲノムにあるSNPを探してみます。
まず、
bowtie -S e_coli reads/e_coli_10000snp.fq ec_snp.sam
として、次世代シーケンサーのデータ(e_coli reads)を、大腸菌のゲノム配列のデータ(e_coli_10000snp.fq)にマッピングします。その結果を-Sオプションでec_snp.samという名前のファイルとしてでアウトプットさせています。
次に、
samtools view -bS -o ec_snp.bam ec_snp.sam
として、テキスト形式のSAM fileをバイナリ形式のBAM fileに変換します。
BAMの方が容量も小さいし、後の解析に色々便利らしいです。
さらに、BAM fileをsortします。
samtools sort ec_snp.bam ec_snp.sorted
で、最後にゲノムデータと照らし合わせて、違うところ(SNP)を表示させます。
samtools pileup -cv -f genomes/NC_008253.fna ec_snp.sorted.bam
てな感じで動かしてみると、確かに以下のように10個のSNPが表示されました。
細かいところはまだ理解できていない点があるものの、とりあえずインストールから一通り動かしてみるところまでできました。
次回はこういう結果を目で見れるviewerを使ってみようと思います。
gi|110640213|ref|NC_008253.1| 541 G T 171 171 60
48 t$t$TTTttTttttTttTtTTTTTtTtttTTTtttTTtTTTtttTtTT^~T^~t EE566AA7AAAA9@@9
@;;;<===<;;@@@999AA8AAA776C5DDE4
gi|110640213|ref|NC_008253.1| 2363 T C 114 114 60
29 CccCcccccccccccCCCCcccCCcC^~c^~c^~C 7AA8AAAAA@@??>===?@9:9AC5D44E
gi|110640213|ref|NC_008253.1| 2778 T C 135 135 60
36 c$C$CCCCccCccCcCCccCcccccCcCcCccCccC^~C^~c E45557AA8AA:@:;??====<;?
9@:@::A76CE4
gi|110640213|ref|NC_008253.1| 5387 C G 114 114 60
29 gggggGGGGgggGggggGGggGGgggGG^~G CBAAA9:;;>>==<;99@@98AA777CCE
gi|110640213|ref|NC_008253.1| 6650 G A 150 150 60
41 a$AaaaAaaAAaAAAAAaAAaaAAAaAAAAAaaaaaaAAA^~a^~A E5DCC7CC77B999:;======>@
;@@@@@999877CCC4E
gi|110640213|ref|NC_008253.1| 7764 G A 141 141 60
38 A$aAAAAAaaaaAAaaaAaAaaAaaAAAaaAAaAaAa^~a^~A 4C56667CBA@99@>====<<@;;
@@@:9AA7C6C54E
gi|110640213|ref|NC_008253.1| 7794 G A 117 117 60
30 A$aAaaAaaaAaaAAAAaaaAaAaaAaAaaa 4D5CC7BBA9@@9;;;?>===?9:@9A765
gi|110640213|ref|NC_008253.1| 8691 G A 108 108 60
27 AAAaAAAaaaaaAaAAAaaaAaAaaA^~a 555D677AAA@>===>?999A9A76C4
gi|110640213|ref|NC_008253.1| 9173 T C 141 141 60
38 C$C$CccccCccCccccCccCCCcCcCCCCCCcCCcCCc^~c 445CCBA8AA;@?=====>>?;@;
@@@@@A9AA7CC54
gi|110640213|ref|NC_008253.1| 9384 G A 144 144 60
39 A$aAaaaAAaaaaAAAAAaaAaAaAaAAAaAAaaaaaAAa 4C7BAA78AAA@9<======<>;?
;@@@9AA99877CC6