今日から、俺は、遺伝子解析、始めます。 -6ページ目

conda create -n dfast -c bioconda -c conda-forge -c defaults dfast

とかでまずdfastをインストール。

 

https://github.com/nigyta/dfast_core/blob/master/bin/Linux/blastp

https://github.com/nigyta/dfast_core/blob/master/bin/Linux/makeblastdb

https://github.com/nigyta/dfast_core/blob/master/bin/Linux/blastdbcmd

からblastp、makeblastdb、blastdbcmdをダウンロード。

~/anaconda3/envs/dfast/opt/dfast-xxx/bin/Linuxに上記3つをコピーする。

その後

~/anaconda3/envs/dfast/opt/dfast-xxx/db/protein

の中身を消去する。

最後に

dfast環境をactivateして

dfast_file_downloader.py --protein dfast

でデータベースの再構成を行う。

 

dfast -g input_genome.fasta --fix_origin -o output_directory --cpu 64
でdnaAを最初にしてannotation。


 

docker run -v input_dir:/home/data -it kazumax/get_homologues

 

 

 

./get_homologues.pl -d ../data/ -M -n 32 -t 0

./get_homologues.pl -d ../data/ -G -n 32 -t 0

 

(-MはOMCL -GならCOGSだが、-Gは3株以上必要)

 

単一dir指定

./compare_clusters.pl -o sample_intersection -m -d \ Path_to_/Uncultured[...]_f0_0taxa_algCOG_e0_

 

 

複数dir指定(カンマで区切る)

./compare_clusters.pl -o sample_intersection -m -d \ Path_to_/Uncultured[...]_f0_0taxa_algCOG_e0_, Path_to_/Uncultured[...]_f0_0taxa_algOMC_e0_

 

flye2.9でアセンブリすると

ERROR: No disjointigs were assembled - please check if the read type and genome size parameters are correct

とエラーが出た。

Coverageが700あるせいか??

 

ググると、

--meta オプションをつけるか、

--asm-coverage 50 オプション

をつけろと書いている。

 

後者をやってみたら一応つながった。

ちなみにiterationは2回。

 

その後prokkaでannnotationをしてみたが、

CDS:2310

gene:2382

でそれっぽい値にはなっている。

 

BASTAのxmlファイルの説明書は

~/.beast/2.6/BASTA/doc

の中にあります。

 

clustalw2

を用いて対話式で作成できる。

4. Phylogenetic tree

を選んで、1. Input an alignment

を選べば、その後inputアライメントファイル名を入力すれば良い。

その後、4のDraw tree nowを選べばすぐに描いてくれる。

 

インストールはどうやってやったのだろう。。。

思い出したら追記します。

(emboss-aln_env)

 

unicycler

--mode conservative

 

flye

--nano-raw ONT regular reads, pre-Guppy5 (<20% error)

--nano-corr ONT reads that were corrected with other methods (<3% error)

--subassemblies  unicycler_output

--threads 64

 

 

 

unicycler_polish -1 short_reads_1.fastq.gz -2 short_reads_2.fastq.gz --long_reads nanopore.fastq.gz -a assembly.fasta

 

の流れでどうだろう。。。

 

この流れではダメだ。

まず、

unicycler

--mode conservative

でなるべく精度高くhybrid assembly.

その後、

flye --nano-raw ONT regular reads --threads 64

でlong read only assembly

その後、flyeのoutputに対して、

unicycler_polish -1 short_1 -2 short_2 --long_reads ONT -a flye_output

でflyeのlong readのみアセンブリをpolish。

最後に

quickmergeで

merge_wrapper.py hybrid_assembly.fasta self_assembly.fasta
らしいが、これでいけるか!?

EMBOSS

 

seqretsplit input_multi.fasta n
nはファイル数
事前にgrepで調べておく。

quast:assembly評価ソフトウェア

注意点

サンプル名に「-」ハイフンが含まれていると、

report.txtではそのハイフンが「_」に変換される。

outputファイルをgrepなどで検索する場合に注意が必要。