エクセル→タブ区切りテキストデータ出力
data=read.table("input.txt", header=TRUE, sep="\t")
options(max.print=100000)
data
でデータ確認
vcf-consensusを用いる前にvcfファイルをgz圧縮するが、これを
pigzやgunzipを用いて圧縮すると、tabixでindexを付けられないようで、その後のvcf-consensusが動かない。
bgzipで圧縮すべし!
Dockerがいろんなところで出てくるので、始めてみた。
まだまだよくわからんがとりあえず備忘録。
インストール方法→省略(何も問題ないと思う)
docker images --> imageのリストが出る。出力されたREPOSITORYの名前を使って
docker run XXXXXX
てな感じで使用。
ubuntuやcentosなどの対話型シェルを用いる際は
docker run -it centos /bin/bash
としないといけない。
さらにホスト側のフォルダとマウントしないと、ファイルのやりとりができない。
そこで
docker run -v ホスト側のパス:docker環境側のパス -it centos /bin/bash
とすれば、「ホスト側のパス」のディレクトリの中身と「docker環境側のパス」のディレクトリの中身が同じになる。
これを利用してインストールファイルを用いてdocker環境にインストールしたり、yumやapt-getを利用して必要最低限のソフトウェアをインストールする。
環境を保存するために一度exitする。
そしたら
docker ps -a
ここで表示されたコンテナIDを使って、
docker commit container_ID 新しいイメージ名
とすれば、先ほど色々インストールした環境がイメージとして保存される。
これを使えば、次回
docker run -it 新しいイメージ /bin/bash
で、その環境を引き継いで利用できる。
さらにコンテナがどんどん溜まってくるので、環境が整えば、その後は
docker run --rm -it 新しいイメージ /bin/bash
とすれば、コンテナは保存されなくなる。
さらに
docker save イメージ名 | gzip > name.tar.gz
でイメージをtar.gzファイルとして出力できる。
これを他人に渡して、
docker load -i name.tar.gz <-解凍がいるかも
とすれば
dockerイメージが移植できる。
停止中のコンテナ一括停止
docker container prune
sudo apt-get install alien --assume-yes
でalienをインストール
illuminanoHPからbcl2fastq2-v2-20-0-linux-x86-64.zip
をダウンロードしてきて解凍
sudo dpkg -i bcl2fastq2_0v2.20.0.422-2_amd64.deb
でインストール。
マジ一瞬。
あとは普通に使用。
ncbi-genome-download --dry-run -l complete -g "Streptococcus pneumoniae" bacteria > ./list.txt
で何株対象株があるか確認できる。
ncbi-genome-download --dry-run -l complete ーt1313 bacteria > ./list.txt
のようにtaxonIDでも引っ掛けれるが、NCBIのデータベースを見てみると、IDを間違えて登録しているものが散見される。
なので菌名で引っ掛けたほうが良いように思う。
実際のダウンロードは
ncbi-genome-download -l complete -g ncbi-genome-downloa -F fasta bacteria