今日から、俺は、遺伝子解析、始めます。 -12ページ目

①Tip Dates:since some time in the pastを選択

②Site model:まずHKY。そのあとGTR。

③Clock modelとPriorsのモデルの選択

→ランダムに選ぶ。(とりあえずstrick clockとuncorrelated relaxed clock, relaxed distributionはlog normalでやってみたが、結局のところ、これもmarginal likelyhoodを比較して、どちらが良いモデルなのか検討しないといけないのであろう)

Clock model:Strict clock, Relaxed clock exponential

Priors:constant population, Exponential population, Bayesian skyline, extented bayesian skyline

を組み合わせて、2×4通り

④ESSは200以上が必須。全ての項目で200以上である必要はないが、The likelihoods (both of the tree and coalescent model) should have decent ESSs.

⑤<posterior id="posterior">と<joint id="joint">はどちらも使えるが、xmlファイルに直接書き込む際には、間違えないように注意する。

これに従って、jointと記載されているところは全てposteriorに書き換える

⑥path samplingの結果の解釈→log marginal likelyhoodが-20000と-25000だったら、-20000の方が最適モデル

 

ACT使い出すと結構便利。

databaseの作り方はいつも通り。

makeblastdbで比較されるreference sequenceのDBを作成。

次にこのDBを使ってsampleをlocal blast!

ここで-outfmt 6のオプションをつける。

blastn -db blastDB -query input.fasta 
-out blast_result.txt -outfmt 6
みたい感じです。
あとはACT起動!

親切にilluminaさんが日本語の説明書を作成してくれているので、参考にすべし!

https://jp.illumina.com/content/dam/illumina-marketing/apac/japan/documents/pdf/2014_techsupport_session14.pdf

と言いたいところだが、長い!!!!!!!説明書長すぎる!!!(渡辺謙「ハズキルーペより」)

 

肝心なところだけ抽出。

 

走らせ方

メインディレクトリ(ConfigやらDataやらImagesやらのdirがあるディレクトリ)に移動して、

bcl2fastq --runfolder-dir ./ --output-dir ./Output -r 12 -p 12 -w 12 -d 12 --no-lane-splitting --barcode-mismatches 0

 

-d -r -p -wのオプションについてはそれぞれスレッド数なので、自分のPCのパワーに応じて調整。

 

注意点!!!!!!!!!!

メインディレクトリ直下にIEMで作ったサンプルシートを置かないといけないのだが、名前が指定されている!!!!!!!

SampleSheet.csv

 

以上!

他に注意点はないです。

 

--barcode-mismatches 0  <-defaultは1になっている。

 

について追記。(21/9/24)

Mauveのmanualにcommand lineでcontig moverを使うには以下のようにせよと書いてある。
java -Xmx500m -cp Mauve.jar org.gel.mauve.contigs.ContigOrderer 
-output results_dir -ref reference.gbk -draft draft.fasta


。。。。errorで出る。
自分の環境はMacOS mojave10.14で最初Java11でやっていた。
Javaのバージョンせいと思い、1.6をインストールしてやってみたが、結果は変わらない。
一応、ちゃんと1.6が動いているかも-versionで確認した。


残念すぎる。が、以下で動くようになります。


java -Xmx4096m -cp "/Applications/Mauve.app/Contents/Java/*" 
org.gel.mauve.contigs.ContigOrderer -output results_dir 
-ref reference.gbk -draft draft.fasta


??アスタリスク?
理由は不明。この方法はBiostarにのっていた。

今まではLinuxで解析を行ってきたが、ちょっと色々あってMacに乗り換えてみることにした。

手始めにMacbookProを購入。2018年モデルの15インチで、6core、32GB、SSD1Tで開始。

 

解析の注意点を書いていきます。

 

①sedコマンドの挙動がLinuxと違う!

解決のためにgnu-sedをインストール。brew install gnu-sedで簡単にインストール。

 

②.bash_profileが見当たらない。

自分で作るようだ。ホームディレクトリ下にviで作成。そこにパスを書いていく。

ただし、パスはexport PATH=/usr/local/bin:/usr/bin:/bin:/usr/sbin:/sbin:/usr/local/sbin

のように:区切りで一列で書かないと、変なパスが設定されてlsとかcdとか、binに入っているコマンドが使えなくなる。

 

③viエディタ

viコマンドでvimが立ち上がるが、設定が何もされていない。これもhomeディレクトリに設定ファイルを作成しないといけないようだ。

.vimrc作成して以下のように書き込む(あくまでこれは私の好み)

set number

set title

set showmatch

syntax on

set smartindent

set wrapscan

①立ち上げる

②create sample sheet

③Nextseq/Miniseq

④そのままNext

⑤Reagent Kit→適当

Library Prep Workflow→Nextera XT

Index Adapter→AとかBとか、使ったindexを選ぶ

他のparameterは適当入力

⑥New plate

⑦名前を付ける

⑧Plateタブを選んでコピペ

⑨Apply default index layout

⑩Finish

 

Indexが96種類以上の場合には上記を繰り返して、各Indexのcsvを作成する。

 

統合は⑤でNextera XT v2 Index kit

を選んで次に進む。

Select Plateで上記で作成したcsvを選んで、select all→Add selected samples

を各plateについて繰り返す。

 

全部右に移ったら、最後Finish。

 

あとはbcl2fastqでfastqに変換。

 

Windows上で作成したテキストファイルの改行コードは「CR+LF」なので、この改行コードのままLinuxに転送してvi等で開くと「^M」が表示される。結果としてpasteがうまくいかなくなる。

そこでsedをもちいて、この^Mを消すのだが、普通に

sed -e s/\r//
とやってもうまくいかない。
そこで
sed -e s/^M//
を行う。「^M」の部分は「Ctrl-v」と「Ctrl-m」を連続して入力する。
Ctrlを押し続けて、v、mと順番に押すので良い。
これで改行コードが一括で削除される。

GK 川島 5.0

いい感じの雰囲気出してくるけど、見てる人が見たら、ひやひや感出まくり。奇跡の左足フィードが乾にピタリと届いて、FK決められた分の引きの悪さを取り戻したか。。。いや、しかし、最後のWカッブなんですから、もうちょっとしっかりしてください。

 

CB 吉田 5.5

可もなく、不可もなく。相手が早々に10人になったおかげで、目立った活躍シーンもなし。

 

CB 昌司 6.0

吉田とともに可もなく、不可もなく。吉田より点数がいいのは、若さの分だけ。

 

SB 酒井ひろき 6.5

攻守ともに運動あり。そこまでゴリラッシュするなら、点まで決めてほしかった。足が痛いのはわかるけど、笛が鳴らなかったらすぐに立ち上がるようにしてください。

 

SB 長友 6.5

自称スーパーサイヤ人だが、かなり自重気味だった。おかげでDFラインの安定感が増して、見ていて安心。次もよろしくお願いします。

 

MF 長谷部 5.0

危うく戦犯になりかけた、落ち目のナルシスト。心が整ってないせいか、凡ミスが散発。

 

MF 柴崎 7.5

全ての攻撃が彼を経由して始まった。攻撃のスイッチ役となり、まさに司令塔。もともとプレスが弱いと大活躍できる選手なだけに、早々の相手選手退場が何倍にも彼には有利に働いた。

 

MF 乾 6.0

運動量は抜群だったが、いかんせんシュート力なさすぎる。長谷部先生に心の整え方を教わってください。

 

MF 原口 6.0

彼の場合には運動量しかないので、いつも通りご苦労様です。

 

MF 香川 7.0

メンタリストなので、PKがひやひやしたが、さすがは香川。ヨーロッパで長年干されずに生きてきているだけある。かなり運の要素が強いが、PKとれたのは彼の裏パス&ちょっとふかし気味のシュートのおかげ♡

Wカップ中はメンタルが落ちないように祈っております。

 

FW 大迫 7.0

結構半端なかったね。でも、みんな気づいて!彼最初の1対1外してるから!もしこれが、相手の退場を誘発するために、わざと外したのなら、「まじ、半端ないっす!!!」

 

監督 西野 8.0

いや、一番半端ないのはこの監督の引きだと思います。

まるで相手が一人退場になると分かっているような柴崎先発。そして本田の交代。

全てがはまっていてもはや恐ろしい。時間もあるし、攻撃の調整をお願いいたします。

 

評価外

FW 岡ちゃん 6.0

ご苦労様でした。

 

MF 山口 6.0

ご苦労様でした。

 

MF 本田 6.5

ご苦労様でした。

raxml -s input_file -b 1264948 -n output_filename -m GTRGAMMA -p 2689451 -T 12 -# 500

raxmlHPC-PTHREADS -f a -s input.fasta -n output_file_name -m GTRGAMMA -p 2689451 -T 12 -# 500 -x 234792453

(nucleotide用)

 

!!raxmlはinputファイルのあるディレクトリに行って、走らせないといけない!なので、 -s と -n オプションにはファイル名のみを入力。パスを入力してはいけない!!

 

RAxML_bestTree.output_file_nameがbest-scoring ML tree of a thorough ML analysisらしい。

 

注意点

・inputfileに同じ配列を持った2つ以上のsampleを含めることはできない。

・inputfileに-やNを用いる事はできない。

・-mオプションはモデルの選択。ASCが語頭につくモデルはSNPのみ取り出したpseudogene解析用モデル。モデルは塩基配列、アミノ酸配列によって異なる

・-Tはスレッド数

・-bや-pオプションの数字はランダムな数字を入れる。mannualには12345だけじゃなく色々試せと書いてある。

・pseudogene解析するため補正をおこなう。(--asc-corr=lewis)

 

SNP alignmentの場合のコマンド 

raxmlHPC-PTHREADS -f a -s core_gene_SNP_alignment_rn.fasta -n raxmlbs50rn_ASC -m ASC_GTRGAMMAX -p 0243752384 -T 12 -# 50 -x 2934752 --asc-corr=lewis -n output