今日から、俺は、遺伝子解析、始めます。 -9ページ目

エクセル→タブ区切りテキストデータ出力

data=read.table("input.txt", header=TRUE, sep="\t")

options(max.print=100000)

data

でデータ確認

vcf-consensusを用いる前にvcfファイルをgz圧縮するが、これを

pigzやgunzipを用いて圧縮すると、tabixでindexを付けられないようで、その後のvcf-consensusが動かない。

bgzipで圧縮すべし!

Dockerがいろんなところで出てくるので、始めてみた。

まだまだよくわからんがとりあえず備忘録。

インストール方法→省略(何も問題ないと思う)

 

docker images --> imageのリストが出る。出力されたREPOSITORYの名前を使って

docker run XXXXXX

てな感じで使用。

 

ubuntuやcentosなどの対話型シェルを用いる際は

docker run -it centos /bin/bash

としないといけない。

さらにホスト側のフォルダとマウントしないと、ファイルのやりとりができない。

 

そこで

docker run -v ホスト側のパス:docker環境側のパス -it centos /bin/bash

とすれば、「ホスト側のパス」のディレクトリの中身と「docker環境側のパス」のディレクトリの中身が同じになる。

 

これを利用してインストールファイルを用いてdocker環境にインストールしたり、yumやapt-getを利用して必要最低限のソフトウェアをインストールする。

 

環境を保存するために一度exitする。

そしたら

docker ps -a

ここで表示されたコンテナIDを使って、

docker commit container_ID 新しいイメージ名

とすれば、先ほど色々インストールした環境がイメージとして保存される。

 

これを使えば、次回

docker run -it 新しいイメージ /bin/bash

で、その環境を引き継いで利用できる。

さらにコンテナがどんどん溜まってくるので、環境が整えば、その後は

docker run --rm -it 新しいイメージ /bin/bash

とすれば、コンテナは保存されなくなる。

 

さらに

docker save イメージ名 | gzip > name.tar.gz

でイメージをtar.gzファイルとして出力できる。

これを他人に渡して、

docker load -i name.tar.gz <-解凍がいるかも

とすれば

dockerイメージが移植できる。

 

停止中のコンテナ一括停止

docker container prune

sudo apt-get install alien --assume-yes
でalienをインストール
illuminanoHPからbcl2fastq2-v2-20-0-linux-x86-64.zip
をダウンロードしてきて解凍
sudo dpkg -i bcl2fastq2_0v2.20.0.422-2_amd64.deb
でインストール。
マジ一瞬。
あとは普通に使用。

ncbi-genome-download --dry-run -l complete -g "Streptococcus pneumoniae" bacteria > ./list.txt

で何株対象株があるか確認できる。

 

ncbi-genome-download --dry-run -l complete ーt1313 bacteria > ./list.txt

のようにtaxonIDでも引っ掛けれるが、NCBIのデータベースを見てみると、IDを間違えて登録しているものが散見される。

 

なので菌名で引っ掛けたほうが良いように思う。

実際のダウンロードは

ncbi-genome-download -l complete -g  ncbi-genome-downloa -F fasta bacteria