sudo update-alternatives --config java
Filtlong
Filtlong -1 Illumina_1.fastq.gz -2 Illumina_2.fastq.gz --min_length 1000 --keep_percent 90 --trim --split 1000 Pacbio.fastq > filtlong_output.fastq
オプションはhttp://kazumaxneo.hatenablog.com/entry/2018/04/30/210954
を参照。
クオリティ優先だと
filtlong -1 illumina_1.fastq.gz -2 illumina_2.fastq.gz --min_length 1000 --keep_percent 90 --target_bases 500000000 --trim --split 100 --mean_q_weight 10 input.fastq.gz | gzip > output.fastq.gz
と書いてある。
--target_bases 500000000はPacbioだと長すぎる。
ナノポア用の設定と考えられる。
pauvre stats --fastq input.fastq
でQCできる。
bbmap_env
randomreads.sh ref=input.fasta length=150 ¥
paired=t reads=10000000 ¥
out1=out_1.fastq out2=out_2.fastq ¥
illuminanames=t
これでlength=150bpsの1000万リードの
ペアエンドを生成できる。
GATK 3.8はjava8じゃないと動かない!!
以上!
prefetch --option-file List.txt
でlistに書かれたsraファイルを一括ダウンロード。
その後
fastq-dump ~/ncbi/public/sra/***.sra --split-files --
gzip
でfastq.gzに変換
raxml-ng --msa inputfile.fasta --all --model
*** --bs-trees 100 --threads 8
--seed 6542 --tree pars{25},rand{25}
modelオプションではSNP解析の時には補正を用いる
GTR+G+ASC_LEWIS
など
これでMLとbootstraping100回がなされる。
MLにbootstraping valueを重ねたければ、
raxml-ng --support --tree ML.tree
--bs-trees ID.bootstrap
--prefix resID --threads 8
だけど
raxml-ng --all --msa inputfile.fasta
--model GTR+G+ASC_LEWIS
--prefix resID --seed 21234
--threads 8 --bs-metric fbp
--tree pars{25},rand{25}
--bs-trees 100
あるいは
raxml-ng --all --msa inputfile.fasta
--model GTR+G+ASC_LEWIS
--prefix resID --seed 21234
--threads 8 --bs-metric tbe
--tree pars{25},rand{25}
--bs-trees 100
で一発で全部できるらしい。
--threads auto{N}
で自動並列化回数、chain lengthについて
Manualより
We suggest to specify a number of path steps of either 50 or 100, with the lenght of each chain being at least 250.000 iterations. In general, it’s probably a good idea to run a total amount of iterations (i.e. number of path steps times chain length) equal to the length of the standard BEAST analysis performed to estimate the various parameters. Given that the Beta(0.3; 1.0) distribution to determine the power posteriors has been shown to deliver adequate performance (Xie et al., 2011), we currently only allow this distribution to be used. Through XML specification (see below), other options for this distribution can be specified.
コマンドはこんな感じ
iqtree -s input.fasta -m TVM+I+G4 -nt 12 -b 500
-m モデル名
-nt thread
-b ブートストラップ回数
outputファイルは
input.fasta.iqtree:そのまま読める
.log :Run log
.treefile :Maximum likelihood tree in NEWICK format, can be visualized with treeviewer programs
.svg :Graphical tree representation in SVG format, done with ete view
.pdf :Graphical tree representation in PDF format, done with ete view
.contree Consensus tree with assigned branch supports where branch lengths are optimized on the original alignment; printed if Ultrafast Bootstrap is selected
.ckp.gz Checkpoint file; included if a job was stopped because of RAM/CPU limits