今日から、俺は、遺伝子解析、始めます。 -7ページ目

Adapter trimmingができていないと感じたので再確認。

Adapter情報は

 

に記載されている。

Nexteraの配列はfastpでdefaultでしっかりトリミングできていた。

しかし、TruseqのIDT adapterはfastpのdefaultセッティングでは

トリミングしきれていない。

fastpでオプション指定すれば

--adapter_sequence AGATCGGAAGAGCACACGTCTGAACTCCAGTCA

--adapter_sequence_r2

AGATCGGAAGAGCGTCGTGTAGGGAAAGAGTGT

完全にトリミングできていた。

 

https://jp.illumina.com/content/dam/illumina-marketing/apac/japan/documents/pdf/2013_illumina_techsupport_session17.pdf

も参考になる。(13枚目)

 

IDT for Illumina–TruSeq DNA and RNA UD Indexes

のadapter trimming

Read 1

AGATCGGAAGAGCACACGTCTGAACTCCAGTCA

Read 2

AGATCGGAAGAGCGTCGTGTAGGGAAAGAGTGT

 

のRead1についてはi7直前の「C」が省略されている点に注意。

これは簡便さのためで、Cを加えて

AGATCGGAAGAGCACACGTCTGAACTCCAGTCA「C」

でトリミングして問題なし。

 

Truseq系のアダプターはinsertにadapter ligateする際に

P5の3'末端に「T」、P7の5'末端に「A」が付加される。

 

 

-やNをinput fastaに含めるときにはxmlファイルに

以下を追記する。

 

    <generalDataType id="general">
        <state code="A"/> <!-- A -->
        <state code="C"/> <!-- C -->
        <state code="G"/> <!-- G -->
        <state code="T"/> <!-- T -->
        <ambiguity code="-" states="ACGT"/>
        <ambiguity code="N" states="ACGT"/>
    </generalDataType>

 

 

Tempestでyearを入力するtextファイルは

UTF-8,改行コードLFでないとだめ。

変換にはnkfコマンドを用いる。

 

cat test.txt | nkf -wd > input.txt

 

input.txtをtempestの入力ファイルとする。

今更感はあるが、gffreadなるものをcondaでインストールした。

 

gffファイルを利用した便利ソフト。想像しやすい事はたいていできるのでしょう。

 

gffread input.gff -g ref.fasta -x output_CDS.fasta

 

-xオプションでCDSがnuc配列に変換されたmaultifastaファイルが作成される。