ゲノム配列決定で大事なこと

l リシーケンシング　ゲノム配列が分かっている生物について、集団内の遺伝的多様性やその近縁種のゲノム配列を決定するもの

参照ゲノム配列がある生物種における変異検出。

l 変異検出　SNP、インデルを検出。

l Depth 1サイトあたりのリード数。カバー率という。アルゴリズムにはベイズ法が多く用いられている。

l NGS 大量パラレルシーケンサー。サンガーは96塩基ごとであったのが数百万〜数十億塩のDNA配列を読む。100-200bp。繰り返し読むことでエラー率を減らす。

l NGSデータ　SRA形式とFASTQ形式。SRAはコンピュータが処理しやすいようにバイナリ形式。FASTQは人間が判読できるテキスト形式。

l FASTQは4つの行で1つのリードを表現する。各塩基のクオリテイ情報を付与したもの。1行目　配列名　2行　塩基配列　4行　塩基ごとのクオリティスコア

l 1分子リアルタイムシーケンサー　DNA１分子から得られるシグナルを読み取る。数kbpを読む。ロングリードのこと。Oxford Nanopore社 Pacific Bioscience社。

l アライメントサイズ　NGSで解析する断片配列の長さ。概ね数百塩基。

l アセンブル　断片的に得られたゲノム配列をひとつなぎにする

l デノボアセンブリ　リードデータのみを用いて配列を組み立てる作業

l コンティグ　デノボアセンブリの結果として得られる塩基配列

l リード　読み取られた塩基配列。長さはリード長と呼ぶ。イルミナ社NovaSeqは50bp、100bp、150bpを指定可能。

l カバレッジ　ゲノム上の塩基あたり何個のリードがカバーできるデータ量

X1.5としたら1.5倍のリードがカバーできる。
ゲノムサイズ48bp、リード長さは6bp、リード数は12bpとしたらそう塩基数は6X12b=72bp。ゲノムサイズは72/48=1.5のデータ量であるため1.5Xと表示する。

l ベースコール　塩基配列を決定する作業

l エラー率 NGSでは0.1-15%。低いほど良い。

l クオリティスコア　Q=-10 x log10(P) P=エラー率高いほど良い。

^lエラー率　Phred値　P＝10 ^-Q/10

l クオリティコントロール　

トリミング　Q値の低い位置塩基のみの除去を行う。
クオリティフィルタリング　全体的にQ値の低いリードそのものの除去をお行う
クオリティチェック　リード全体のクオリティスコア分布を眺めるクオリティチェック

l 前処理　トリミング後に一定の長さ未満となったリードの除去

l マッピング　配列の相同性を用いて参照ゲノム配列に貼り付けること

l k-mer マッピングで用いるもの。参照ゲノム配列からk-merの出現位置を探し出して部分的なシード配列がリードに出現しているかどうかを探索する。一致するシード配列が見つかればアライメントを身長し、スコアを計算できる。接尾辞木と呼ばれる構造が用いられてきた。

l k-mer法　アセンブルに用いられる。全体の配列に現れる長さkの塩基配列の回数を数える。一度だけ現れるよう設計。K-1の長さを配列にもつグラフ構造。一筆書きの要領ですべての法典を通る経路（ハミルトン経路）を探索することによって得られる。

l オイラー経路　すべての頂点でなく、すべての辺を通る経路を見つけ出す経路。

l フラーリーのアルゴリズム　オイラー経路の探索法。

条件1 辿った辺を除去し、それにより孤立した点があれあbそれも除去する

条件2 そこを消去することによってグラフが分割されるような辺はできる限り辿らない。

l 条件2に当てはまるような辺のことを橋と呼ぶ。Lowlink法。

l 深さ優先探索木を作成する。

l バーローズホイーラー変換(Burrows-Wheeler transformation, BWT)

　マッピングに用いられる。ブロックソートとも呼ばれる。文字列をアルファベット順にソートし、同じ文字が繰り返されるような構造に変換する。その行列は最左列からアルファベット順にソートされているので、探索する文字列の範囲を順番に狭めていくことができる。したがって、文字列にシード配列が含まれているかを効率的に探索することができる。部分的に一致しない場合はバックトラックという方法を用いて探索範囲を広げる。

l SAMフォーマット　sequence alligment/map。それぞれのリードが参照ゲノムのどこにマッピングされたかの情報が1つのリードにつき1行を使ってオリジナルの配列データと一緒に記録されている。Samフォーマットはテキストファイルでサイズが巨大なためbamファイル、cramファイルに圧縮される

l BAM (basecall alligment/map)リードの比較結果を格納するための形式。

l VCF variant call file。変異解析で、リファレンス配列と異なる塩基の情報を格納する形式。

l ペアエンド配列　DNA断片の5’末端、3’末端から同時に決定する。比較的短い(<500bp)の両端配列

l メイトペア　数kbp 外向きに決定する。

参考文献　

講談社　よくわかるバイオインフォマティクス入門

森北出版　進化で読み解く　バイオインフォマティクス入門

羊土社　東京大学バイオインフォマティクス集中講義

慶應義塾大学出版会　バイオインフォマティクス入門