明けましておめでとうございます。
年末から次世代シーケンサー関連ばっかりですが、新年も最初から次世代シーケンサーねたです。
前回のエントリー
で、mappingに時間がかかるとつぶやいていた件についての追記です。
maq mapコマンドにかかる時間が2百万readあたり約半日と、いくらなんでも時間がかかりすぎなので、何かおかしいと思い、色々調べた結果、、、
maqのreferenceページ
をよーく見ると、、、、
*
Given 2 million reads as input, maq usually takes 800MB memory.
と書いてある。
VMwareの”仮想マシンの設定”を見てみると、
512MBしかない∑(゚□゚;)
これぢゃないか。
ということで、
Ubuntu.vmxをメモ帳で開いて、
memsize = "512"
を、
memsize = "2048"
と手動で変更したところ、
maq mapコマンドは数分で終わりました。
友人N氏の助けもあって、ようやく環境も整ったので、いよいよmaqを使って次世代シーケンサーのデータを解析してみたいと思います。
以下の論文のデータを使って、追試を行いたいと思います。
この論文では、野生型と変異型のハエのゲノムを読んで、それらを比較することで変異を同定しています。
解析の流れは以下の図の通りで、次世代シーケンサーのデータ(reads)をゲノムの配列(reference)にマッピングして、出来上がったconsensus配列同士を比較することで、野生型と変異型の違うところ(SNP)を同定します。
以下は手順のまとめです。
1. データをNCBIのSRAというサイト からダウンロード(それぞれ3GB程度)
2. sra-lite fileの解凍 (sra-lite → fastq)
XXX/fastq-dump -A 出力名 -D 入力名(.lite.sra) -O 出力ディレクトリ
3. fastq形式からbinary fastq (bfq) 形式への変換
maq fastq2bfq -n 2000000 入力名(.fastq) 出力名(.bfq)
注意1: -nオプションで200万readごとに出力しないとmaq mapできない。
注意2: fastq fileから空白文字を除いておかなくてはいけない。
たとえばコマンドラインで、sed 's/ //g' < 入力名(.fastq) > 出力名(.fastq_ns)など。
4. fasta形式からbinary fasta (bfa) 形式に変換
maq fasta2bfa 入力名(.fasta_ns) 出力名(.bfa)
5. readをreferenceにマッピング
maq map 出力名(.map) 入力名(genome; .bfa) 入力名(reads; .bfq)
6. mappingファイルをひとつにまとめる
maq mapmerge 出力名(.map) 複数の入力ファイル名(.map)
7. mappingファイルを元にconsensus sequenceを作成
maq assemble 出力名(.cns) 入力名(genome; .bfa) 入力名(map; .map)
8. 野生型と変異型のconsensus配列を比較
基本的にはこんな感じなんですが、実際にやってみるといろいろと大変でした。
特に3. fastqからbfqへの変換のところで2日ほどてこずっていました。
また、5. mappingにかなり時間がかかっていて、現在それ以降に進めていません。
とりあえず2000readsずつマッピングしてみて、ちゃんとマッピングできていることは確認済みですが。
本当にこんなにかかるんですかね。何かミスっている気がしないでもないですが。。。。。。。
とりあえず今年はここまでとして帰省します。
皆様、良いお年を。
以下は数々の落とし穴から救い上げて下さったサイト様です。
ありがとうございます。
http://g86.dbcls.jp/~yag/wordpress/archives/959
http://seqanswers.com/forums/showthread.php?t=1488
http://d.hatena.ne.jp/Tanakky/20091014
http://d.hatena.ne.jp/isomino/
http://x68000.q-e-d.net/~68user/unix/pickup?sed
追記(110107) 3~7の操作は、optionがdefaultで良いならば、maq easyrunでできるハズです。
以下の論文のデータを使って、追試を行いたいと思います。
Identification of EMS-induced mutations in Drosophila melanogaster by whole-genome sequencing.
Blumenstiel JP, Noll AC, Griffiths JA, Perera AG, Walton KN, Gilliland WD, Hawley RS, Staehling-Hampton K.
Genetics. 2009 May;182(1):25-32. Epub 2009 Mar 23.この論文では、野生型と変異型のハエのゲノムを読んで、それらを比較することで変異を同定しています。
解析の流れは以下の図の通りで、次世代シーケンサーのデータ(reads)をゲノムの配列(reference)にマッピングして、出来上がったconsensus配列同士を比較することで、野生型と変異型の違うところ(SNP)を同定します。
以下は手順のまとめです。
1. データをNCBIのSRAというサイト からダウンロード(それぞれ3GB程度)
2. sra-lite fileの解凍 (sra-lite → fastq)
XXX/fastq-dump -A 出力名 -D 入力名(.lite.sra) -O 出力ディレクトリ
3. fastq形式からbinary fastq (bfq) 形式への変換
maq fastq2bfq -n 2000000 入力名(.fastq) 出力名(.bfq)
注意1: -nオプションで200万readごとに出力しないとmaq mapできない。
注意2: fastq fileから空白文字を除いておかなくてはいけない。
たとえばコマンドラインで、sed 's/ //g' < 入力名(.fastq) > 出力名(.fastq_ns)など。
4. fasta形式からbinary fasta (bfa) 形式に変換
maq fasta2bfa 入力名(.fasta_ns) 出力名(.bfa)
5. readをreferenceにマッピング
maq map 出力名(.map) 入力名(genome; .bfa) 入力名(reads; .bfq)
6. mappingファイルをひとつにまとめる
maq mapmerge 出力名(.map) 複数の入力ファイル名(.map)
7. mappingファイルを元にconsensus sequenceを作成
maq assemble 出力名(.cns) 入力名(genome; .bfa) 入力名(map; .map)
8. 野生型と変異型のconsensus配列を比較
基本的にはこんな感じなんですが、実際にやってみるといろいろと大変でした。
特に3. fastqからbfqへの変換のところで2日ほどてこずっていました。
また、5. mappingにかなり時間がかかっていて、現在それ以降に進めていません。
とりあえず2000readsずつマッピングしてみて、ちゃんとマッピングできていることは確認済みですが。
本当にこんなにかかるんですかね。何かミスっている気がしないでもないですが。。。。。。。
とりあえず今年はここまでとして帰省します。
皆様、良いお年を。
以下は数々の落とし穴から救い上げて下さったサイト様です。
ありがとうございます。
http://g86.dbcls.jp/~yag/wordpress/archives/959
http://seqanswers.com/forums/showthread.php?t=1488
http://d.hatena.ne.jp/Tanakky/20091014
http://d.hatena.ne.jp/isomino/
http://x68000.q-e-d.net/~68user/unix/pickup?sed
追記(110107) 3~7の操作は、optionがdefaultで良いならば、maq easyrunでできるハズです。
コンピュータに投げた次世代シーケンサーの解析に時間がかかっていて暇なので、久しぶりに論文のレビューを更新します。
今回紹介する論文は、
Myosin-Va transports the endoplasmic reticulum into the dendritic spines of Purkinje neurons.
Wagner W, Brenowitz SD, Hammer JA 3rd.
Nat Cell Biol. 2011 Jan;13(1):40-8. Epub 2010 Dec 12.
MyosinVa (Myo5a) の変異体では、小脳のプルキンエ細胞のスパインに小胞体(ER)が存在しないことがわかっており、(おそらくその結果として)ataxia(運動失調)が起こることがわかっていました。
この論文ではMyo5aがどうやってスパインにERを”輸送”しているかを明らかにしている。
筆者らはまず、スパインにERが存在しないことの影響を確認しています。
ERはCaを多く有しており、スパインに刺激が入るとERからCaが流出することでスパイン内のCa濃度が上昇してさまざまな現象(LTPなどなど)が起こることがわかっています。筆者らは、Myo5a変異体のプルキンエ細胞のスパインを(caged Glutameteを用いて)刺激しても、Caの上昇が起きないこと、つまりスパインにERが存在することの重要性を確認しました。
また、タイムラプス観察からERがスパインの中に入っていく動き(insertion)が高頻度(1スパインあたり0.8回/分)で観察されました。一方、ERが引っ込んでいく動き (retraction) は低頻度(1スパインあたり0.1回/分)であったので、ERは積極的にスパイン内に運ばれて、スパイン内に”維持”されることが示唆されました。一方Myo5aの変異体ではERのスパインへのinsertionの頻度が1/30に減少し、retractionの頻度も上昇しました。insertionの頻度が顕著に減少したことから、Myo5aはERの積極的な”輸送”に関わっていることが示唆されました。
次に、Myo5aのpreの細胞での働きが間接的に影響を与えている可能性を排除するために、レスキュー実験を行っています。GFPを付けたMyo5aをプルキンエ細胞でだけ発現させると、ERのスパインへの挿入もレスキューされました。ATPase活性がないformではレスキューできないことから、Myo5aの活性が重要であることもわかりました。つまり、Myo5aがERを引き連れてactin上を滑ってスパインに入っているというモデルに合致するわけです。
本当にこのモデルが正しいのかを証明するために、Myo5aの滑りの速度が低下する変異体を用いてレスキュー実験を行っています。一部の変異体では低下していないもの、基本的にはMyo5aの速度が低下するとERの動きの速度も低下しました。
細胞生物学のお手本のようなきれいな論文で非常に読みやすかったです。
今回紹介する論文は、
Myosin-Va transports the endoplasmic reticulum into the dendritic spines of Purkinje neurons.
Wagner W, Brenowitz SD, Hammer JA 3rd.
Nat Cell Biol. 2011 Jan;13(1):40-8. Epub 2010 Dec 12.
MyosinVa (Myo5a) の変異体では、小脳のプルキンエ細胞のスパインに小胞体(ER)が存在しないことがわかっており、(おそらくその結果として)ataxia(運動失調)が起こることがわかっていました。
この論文ではMyo5aがどうやってスパインにERを”輸送”しているかを明らかにしている。
筆者らはまず、スパインにERが存在しないことの影響を確認しています。
ERはCaを多く有しており、スパインに刺激が入るとERからCaが流出することでスパイン内のCa濃度が上昇してさまざまな現象(LTPなどなど)が起こることがわかっています。筆者らは、Myo5a変異体のプルキンエ細胞のスパインを(caged Glutameteを用いて)刺激しても、Caの上昇が起きないこと、つまりスパインにERが存在することの重要性を確認しました。
また、タイムラプス観察からERがスパインの中に入っていく動き(insertion)が高頻度(1スパインあたり0.8回/分)で観察されました。一方、ERが引っ込んでいく動き (retraction) は低頻度(1スパインあたり0.1回/分)であったので、ERは積極的にスパイン内に運ばれて、スパイン内に”維持”されることが示唆されました。一方Myo5aの変異体ではERのスパインへのinsertionの頻度が1/30に減少し、retractionの頻度も上昇しました。insertionの頻度が顕著に減少したことから、Myo5aはERの積極的な”輸送”に関わっていることが示唆されました。
次に、Myo5aのpreの細胞での働きが間接的に影響を与えている可能性を排除するために、レスキュー実験を行っています。GFPを付けたMyo5aをプルキンエ細胞でだけ発現させると、ERのスパインへの挿入もレスキューされました。ATPase活性がないformではレスキューできないことから、Myo5aの活性が重要であることもわかりました。つまり、Myo5aがERを引き連れてactin上を滑ってスパインに入っているというモデルに合致するわけです。
本当にこのモデルが正しいのかを証明するために、Myo5aの滑りの速度が低下する変異体を用いてレスキュー実験を行っています。一部の変異体では低下していないもの、基本的にはMyo5aの速度が低下するとERの動きの速度も低下しました。
細胞生物学のお手本のようなきれいな論文で非常に読みやすかったです。
