次世代シーケンサを使用したde novo assembly周りの総説で


幅広い論文をわかりやすくレビューしている。


とりあえずこれを読んでおけばNGSリードによるde novo assemblyの


傾向や限界はおおかた把握できそう。


長い論文なので半分も読めていないけどいくつか興味深い話があって


自分の仕事に役に立ちそうだしホント読んでよかった。

これからアセンブリを始める方、オススメですよ!



J Comput Biol. 2010 Nov;17(11):1519-33. Epub 2010 Oct 20.

Ray: simultaneous assembly of reads from a mix of high-throughput sequencing technologies.



複数の次世代シーケンサを混在してアセンブリを行うアセンブラの話


本日もざっくりと斜め読みしただけであるが、このアセンブラの売りはこんな感じだと思われる。


1. シーケンサ特有のカバレッジの低い箇所が他のシーケンサのデータでフォローされる


2. グラフに落とすと失われるリードの連続性を無視しない


3. そのほか


アイディアはいいと思うのだがいかんせん結果の評価があやしい。


複数シーケンサはMIRAでもcelera assemblerでも扱えるんだからその辺と比べて欲しいし、


velvet contig + newbler contig を2段階でアセンブリした結果とも比較してない。


別々にアセンブリした結果よりもよい結果が得られることを言わないと


同時にアセンブリして何がうれしいのかわからないと思うんだけど。。。


では~。



Limitations of next-generation genome sequence assembly.

NATURE METHODS. vol8. no.1 January 2011


Solexaリードを使用してヒトゲノムをde novoでアセンブルするとどうなるか、


主にリピート配列周りの問題をあれこれと指摘している。 


ツールはSOAP(made in china)を使用している。SOAPはマッピングソフトとしては


いまひとつだったがアセンブラの方は結構優秀で世界中で使われている。


ちなみにこの分野、日本製のツールでスタンダードになってるものはほとんどない。


さて、アセンブリの結果であるが、総延長は概要配列と比べて16.2%程度小さくなり、


ありふれたリピート420.2Mb、確認済みのリピートの99.1%がなくなっている。


その結果、2,377のエクソン領域がすっぽり完全になくなっている。


で、de novoではこの程度の精度なので、ショートリードをベースに比較ゲノムや


ゲノム進化を研究するためには、高精度のシーケンシングアプローチを


考えないといけないね、という論文でした。 詳しいところは時間と能力の関係で読んでません。


ヒトはマッピングしてから構造変異用のツールであれこれ解析したらいいと思うんだけど、


やっぱりde novo assemblyは何とも言えないロマンがあっていいね。


では。