SAMOVA (Spatial Analysis of Molecular Variance)は入力ファイルに不備があると動作を停止してしまうことがしばしばあります。
エラーメッセージが表示されることもありますが、そのメッセージから原因を類推するのは困難でもあります。
動かなくなってしまった時どこをチェックすればよいかを以下に列挙します。
参考になると幸いです。
なお、動作検証はWindows 7で行っております。
また、以下に記載されていない他のエラー事例をご存知でしたらコメントをくださると幸いです。
・arpファイルに不備がある。
Arlequinでは問題なく読み込めるのにSAMOVAでは読み込めない場合があります。
Arlequin.logに不備のある箇所が表示されますので、そこを直してください。
"ERROR"というキーワードでArlequin.logファイル内を検索すると、不備を指摘している箇所に飛べます。
マンテル検定の設定[[Mantel]]がarpファイル内にある場合にSAMOVAが動かないことがあります。
・geoファイルが崩れている。
見た目には形式通りでもタブやスペースの微妙な違いによりSAMOVAがgeoファイルを読み込めないことがあります。
Microsoft Excel等の表計算ソフトウェアでgeoファイルを開くことで崩れていないか確認できます。
データを表計算ソフトウェアに読み込んで、セルに適切に割り振れていない場合、修正して上書き保存してみてください。
・キーボードだけでSAMOVAを操作した。
RunボタンをマウスでクリックせずEnterキーで押してしまった場合、
プルダウンメニュー(Number of groupsとMolecular distance)をマウスで選択せず上下キーで操作した場合、
計算を実行しても動作が停止します。
・"Number of initial conditions"が長すぎる。(2012年3月11日追記)
100で問題なく動くのに、1000ではエラーが出るといったことがあります。
その場合はやや短く(例えば500等)値を設定します。
・その他ソフトウェア作者が指摘している事項
arpとgeoのファイル名が異なる場合。
arpとgeoのいずれかがない場合。
"Generic name of input file"に入力したファイル名と同一のarpとgeoファイルがSAMOVA.exeの格納されているフォルダー内にない場合。
経緯度が同一の集団が複数ある場合。
AMOVA (Analysis of Molecular Variance)は集団間の分化の大きさを計算でき、
かつ分化の程度が0より有意に大きいか検定できる手法です。
AMOVAは集団を複数まとめてグループ化し、グループ間の分化も調べることができます。
ただし、どのように集団をグループ化すればよいかは判断が難しいところです。
SAMOVA (Spatial Analysis of Molecular Variance)は、
集団の経緯度情報を加味してAMOVAを実施することで集団の分類を支援するソフトウェアです。
地理的に隣接した集団が同一のグループに分類されやすい点がSAMOVAの優れている点です。
SAMOVAはArlequin形式の入力ファイル(拡張子arp)と経緯度データ(拡張子geo)を要求します。
arpファイルを作成する手っ取り早い方法は、Arlequinのファイル変換機能を使うことです。
ArlequinはGenepop, WinAmova, Biosys, Phylip, Megaの入力ファイルをarp形式に変換する機能を持っています。
経緯度のデータは国土地理院の電子国土ポータルから入手するのが手っ取り早いように思います。
電子国土では度分秒(60進数)で経緯度が得られます。
SAMOVAに入力するときは10進数で入力する必要があるので、度+分/60+秒/3600で変換します。
SAMOVAは操作が簡素なソフトウェアでもあります。
わかりやすくていいのですが、入力ファイルの事前チェック機能とバッチ処理機能があればなおよいのにと個人的には思います。
かつ分化の程度が0より有意に大きいか検定できる手法です。
AMOVAは集団を複数まとめてグループ化し、グループ間の分化も調べることができます。
ただし、どのように集団をグループ化すればよいかは判断が難しいところです。
SAMOVA (Spatial Analysis of Molecular Variance)は、
集団の経緯度情報を加味してAMOVAを実施することで集団の分類を支援するソフトウェアです。
地理的に隣接した集団が同一のグループに分類されやすい点がSAMOVAの優れている点です。
SAMOVAはArlequin形式の入力ファイル(拡張子arp)と経緯度データ(拡張子geo)を要求します。
arpファイルを作成する手っ取り早い方法は、Arlequinのファイル変換機能を使うことです。
ArlequinはGenepop, WinAmova, Biosys, Phylip, Megaの入力ファイルをarp形式に変換する機能を持っています。
経緯度のデータは国土地理院の電子国土ポータルから入手するのが手っ取り早いように思います。
電子国土では度分秒(60進数)で経緯度が得られます。
SAMOVAに入力するときは10進数で入力する必要があるので、度+分/60+秒/3600で変換します。
SAMOVAは操作が簡素なソフトウェアでもあります。
わかりやすくていいのですが、入力ファイルの事前チェック機能とバッチ処理機能があればなおよいのにと個人的には思います。
Structure 2.3は遺伝子型のデータから個々の個体がどの先祖集団にどの程度の割合由来するのかを推定するソフトウェアです。
このソフトウェアでは先祖集団の数Kをソフトウェアの利用者が与える必要があります。
ただ、Kを知る由もないので、Kをいろいろと変化させて最もふさわしい値を決めることになります。
Structure Harvesterは、今まで研究者たちがKを決めるために手作業で行っていたであろうデータ整理を自動化した便利なソフトウェアです。
Structureの出力ファイルをStructure Harvesterに入力すると、ln Pr(X|K)-Kグラフを出力します。(ln Pr(X|K)はStructureマニュアルp. 16参照)
このグラフはKを決める判断材料として有用です。
同じKで複数回Structureを実行すると、平均のln Pr(X|K)と標準偏差がプロットされます。
もし標準偏差が非常に大きい場合は、パラメーター(特にα)が収束する前に余熱(burnin) (Structureマニュアルp. 13)が終わってしまった可能性が高いです。
α等の時系列グラフを参照して、パラメーターが収束していないようであれば、該当するKに関してパラメーターが収束するまでburninを長くとるべきです。
そうするとln Pr(X|K)が安定することが多くなります。
三回以上同じKでStructureを実行するとΔKとその導出過程のグラフも出力されます。
ΔKはEvanno et al (2005)が提案したKを決める指標の一種です。
Structure HarvesterはCLUMPPというソフトウェアの入力ファイルも併せて作成します。
CLUMPPは同じKで複数回Structureを実行した結果を整理するソフトウェアです。
Structureを実行して得られるQ(個々の個体がどの先祖集団にどの割合由来するのかを示す行列)を整理します。
CLUMPPの出力ファイルはそのままdistructに入力できます。distructはCLUMPPの結果をグラフ化するソフトウェアです。
PostScript形式で出力されるので、Adobe DistillerやIllustratorで閲覧できます。
これらのソフトウェアがない場合はRampant Logic Postscript Viewerで閲覧できます。
このソフトウェアをインストールするとAdobe ReaderでPostScriptファイルを開くことができるようになります。
以上述べたStructure Harvesterの出力結果は圧縮されて一つのファイルにまとめられます。
圧縮形式はtar.gzです。Lhaplus等で解凍できます。
今後、Structure→Structure Harvester→CLUMPP→distructというフローで解析する論文が増えてくるでしょう。
このソフトウェアでは先祖集団の数Kをソフトウェアの利用者が与える必要があります。
ただ、Kを知る由もないので、Kをいろいろと変化させて最もふさわしい値を決めることになります。
Structure Harvesterは、今まで研究者たちがKを決めるために手作業で行っていたであろうデータ整理を自動化した便利なソフトウェアです。
Structureの出力ファイルをStructure Harvesterに入力すると、ln Pr(X|K)-Kグラフを出力します。(ln Pr(X|K)はStructureマニュアルp. 16参照)
このグラフはKを決める判断材料として有用です。
同じKで複数回Structureを実行すると、平均のln Pr(X|K)と標準偏差がプロットされます。
もし標準偏差が非常に大きい場合は、パラメーター(特にα)が収束する前に余熱(burnin) (Structureマニュアルp. 13)が終わってしまった可能性が高いです。
α等の時系列グラフを参照して、パラメーターが収束していないようであれば、該当するKに関してパラメーターが収束するまでburninを長くとるべきです。
そうするとln Pr(X|K)が安定することが多くなります。
三回以上同じKでStructureを実行するとΔKとその導出過程のグラフも出力されます。
ΔKはEvanno et al (2005)が提案したKを決める指標の一種です。
Structure HarvesterはCLUMPPというソフトウェアの入力ファイルも併せて作成します。
CLUMPPは同じKで複数回Structureを実行した結果を整理するソフトウェアです。
Structureを実行して得られるQ(個々の個体がどの先祖集団にどの割合由来するのかを示す行列)を整理します。
CLUMPPの出力ファイルはそのままdistructに入力できます。distructはCLUMPPの結果をグラフ化するソフトウェアです。
PostScript形式で出力されるので、Adobe DistillerやIllustratorで閲覧できます。
これらのソフトウェアがない場合はRampant Logic Postscript Viewerで閲覧できます。
このソフトウェアをインストールするとAdobe ReaderでPostScriptファイルを開くことができるようになります。
以上述べたStructure Harvesterの出力結果は圧縮されて一つのファイルにまとめられます。
圧縮形式はtar.gzです。Lhaplus等で解凍できます。
今後、Structure→Structure Harvester→CLUMPP→distructというフローで解析する論文が増えてくるでしょう。
系統樹作成ソフトウエアにはPhylipやPopulationsがあります。
が、今回ご紹介するのがPOPTREE2です。
POPTREE2は遺伝マーカーから得られたデータから集団系統樹を描画するソフトです。
このソフトの機能は
1. 5種類の遺伝距離(根井の遺伝距離Da, 根井の標準遺伝距離Ds, Fst*, デルタミュー2乗, Dsw)について、
計算、系統樹の作成、ブートストラップ検定
※DsとFst*については、サンプルサイズの偏りを補正した計算も可能。
※デルタミュー2乗、Dswは入力データがマイクロサテライトのときだけ適用可能。
2. ヘテロ接合度He、Gstの計算です。
このソフトの長所は
1. 操作がわかりやすい
2. 計算が早い……一瞬で計算してしまいます。
3. 安定している……バグで止まってしまうことがないです、今のところ。
4. 結果をすぐ閲覧できる
一方短所は入力ファイルの作成にひと手間かかることです。
使い方(Windowsの場合)
1. POPTREE2をダウンロードする。こちらから。
2. 入力ファイル(対立遺伝子頻度データ)を作成する。
ArlequinやGenepopなどを使って対立遺伝子データを出力します。
ちなみにGenepop on the webで計算する場合は、"5. Basic Information, Fis and gene diversities"を選択してください。
そして、マニュアルやサンプルデータを参考に入力ファイルを作成します。
3. POPTREE2を起動し、"Data Input"ボタンを押し入力ファイルを読み込む。
きちんと入力されると下に入力ファイルの内容が表示されます。

4. 計算したい指標を選択し、"Run poptree"ボタンを押し、計算を実行。
5. 結果が別のタブに表示される。
集団系統樹はNewickフォーマットで保存でき、MEGAやTreeviewといった系統樹閲覧ソフトで表示することもできます。

なお、画像ファイルは、ソフト同梱のサンプルファイルを利用し作成しました。
が、今回ご紹介するのがPOPTREE2です。
POPTREE2は遺伝マーカーから得られたデータから集団系統樹を描画するソフトです。
このソフトの機能は
1. 5種類の遺伝距離(根井の遺伝距離Da, 根井の標準遺伝距離Ds, Fst*, デルタミュー2乗, Dsw)について、
計算、系統樹の作成、ブートストラップ検定
※DsとFst*については、サンプルサイズの偏りを補正した計算も可能。
※デルタミュー2乗、Dswは入力データがマイクロサテライトのときだけ適用可能。
2. ヘテロ接合度He、Gstの計算です。
このソフトの長所は
1. 操作がわかりやすい
2. 計算が早い……一瞬で計算してしまいます。
3. 安定している……バグで止まってしまうことがないです、今のところ。
4. 結果をすぐ閲覧できる
一方短所は入力ファイルの作成にひと手間かかることです。
使い方(Windowsの場合)
1. POPTREE2をダウンロードする。こちらから。
2. 入力ファイル(対立遺伝子頻度データ)を作成する。
ArlequinやGenepopなどを使って対立遺伝子データを出力します。
ちなみにGenepop on the webで計算する場合は、"5. Basic Information, Fis and gene diversities"を選択してください。
そして、マニュアルやサンプルデータを参考に入力ファイルを作成します。
3. POPTREE2を起動し、"Data Input"ボタンを押し入力ファイルを読み込む。
きちんと入力されると下に入力ファイルの内容が表示されます。

4. 計算したい指標を選択し、"Run poptree"ボタンを押し、計算を実行。
5. 結果が別のタブに表示される。
集団系統樹はNewickフォーマットで保存でき、MEGAやTreeviewといった系統樹閲覧ソフトで表示することもできます。

なお、画像ファイルは、ソフト同梱のサンプルファイルを利用し作成しました。
集団遺伝学データ解析のための統合ソフトウエアパッケージ
Arlequin(2011年6月現在の最新版は3.5.1.2)
の"Option"メニューはユーザーズマニュアルにあまり説明が載っていません。(p.52,53にちょろっとある程度。)
Arlequin ConfigurationタブでもOptionメニューとほとんど同じことができ、
その説明はユーザーズマニュアルp.58,59にあります。
ただ、両者の解説を見てもわからないことはあります。
そこで、OptionメニューとArlequin Configurationタブの内容を、私が把握している範囲で解説をしたいと思います。
XML Output
チェックを入れると、出力ファイルの形式がXMLになります。
チェックを入れないと、HTMLファイルで出力されます。
R-lequinを使って出力ファイルにグラフを追加させるには、必ずチェックを入れてください。
(R-lequinの使い方は前回書きましたので、ご覧ください。)
Append results
チェックを入れると、一つの入力ファイルに二度、三度…と解析したとき、結果を出力ファイルの末尾にどんどん付け加えていきます。
チェックを入れないと、解析のつど結果が上書きされていきます。
Compute statistics within groups
チェックを入れると、Structure Editorで分類した各グループの分子多様度指標(ヘテロ接合度など)やグループ間F統計量を計算します。
この選択肢の影響を受けるのは、現時点で把握している限りでは、SettingsタブのMolecular diversity indicesとPopulation comparisons及びPopulation differentiationです。(2012年3月14日追記)
Use associated settings
チェックを入れると、入力ファイル(拡張子は.arp)と同じ名前で拡張子が.arsのファイルが作成されます。
.arsファイルにはSettingsタブの設定状況が保存されます。
次回.arpファイルを読み込むと、.arsも読み込まれ、前回の設定状況が復元されます。
(.arpファイルを読み込むと直前の設定状況は破棄されます。)
入力ファイルごとに違う解析をしたい場合に有効です。
いくつもの種類の遺伝マーカーを併用する方には便利な設定だと思います。
チェックを入れないと、どの.arpファイルを読み込んでも直前の設定が引き継がれます。
Keep AMOVA null distributions
チェックを入れると、AMOVAの計算過程で発生させるnull distributions(ゼロ分布?)が出力されます。
入力ファイルと同名で、拡張子が.va, .vb, .vc, .vdのファイルが出力されます。
null distributionsは有意差検定に用いられます。
Excoffier et al (1992)のFigure 5も参照してください。
Prompt for handling unphased multi-locus data
この選択肢を私は使わないので、はっきりとしたことは言えませんが、マニュアルによると、
配偶子相(gematic phase)が不明な場合にELBアルゴリズムを用いてgematic phaseを推定できるようです。
SettingsタブのHaplotype inference>ELB algorithmと深い関係があるようです。
マニュアルのpp. 53, 56, 57, 74-75, 132-135を参照してください。
Arlequin(2011年6月現在の最新版は3.5.1.2)
の"Option"メニューはユーザーズマニュアルにあまり説明が載っていません。(p.52,53にちょろっとある程度。)
Arlequin ConfigurationタブでもOptionメニューとほとんど同じことができ、
その説明はユーザーズマニュアルp.58,59にあります。
ただ、両者の解説を見てもわからないことはあります。
そこで、OptionメニューとArlequin Configurationタブの内容を、私が把握している範囲で解説をしたいと思います。
XML Output
チェックを入れると、出力ファイルの形式がXMLになります。
チェックを入れないと、HTMLファイルで出力されます。
R-lequinを使って出力ファイルにグラフを追加させるには、必ずチェックを入れてください。
(R-lequinの使い方は前回書きましたので、ご覧ください。)
Append results
チェックを入れると、一つの入力ファイルに二度、三度…と解析したとき、結果を出力ファイルの末尾にどんどん付け加えていきます。
チェックを入れないと、解析のつど結果が上書きされていきます。
Compute statistics within groups
チェックを入れると、Structure Editorで分類した各グループの分子多様度指標(ヘテロ接合度など)やグループ間F統計量を計算します。
この選択肢の影響を受けるのは、現時点で把握している限りでは、SettingsタブのMolecular diversity indicesとPopulation comparisons及びPopulation differentiationです。(2012年3月14日追記)
Use associated settings
チェックを入れると、入力ファイル(拡張子は.arp)と同じ名前で拡張子が.arsのファイルが作成されます。
.arsファイルにはSettingsタブの設定状況が保存されます。
次回.arpファイルを読み込むと、.arsも読み込まれ、前回の設定状況が復元されます。
(.arpファイルを読み込むと直前の設定状況は破棄されます。)
入力ファイルごとに違う解析をしたい場合に有効です。
いくつもの種類の遺伝マーカーを併用する方には便利な設定だと思います。
チェックを入れないと、どの.arpファイルを読み込んでも直前の設定が引き継がれます。
Keep AMOVA null distributions
チェックを入れると、AMOVAの計算過程で発生させるnull distributions(ゼロ分布?)が出力されます。
入力ファイルと同名で、拡張子が.va, .vb, .vc, .vdのファイルが出力されます。
null distributionsは有意差検定に用いられます。
Excoffier et al (1992)のFigure 5も参照してください。
Prompt for handling unphased multi-locus data
この選択肢を私は使わないので、はっきりとしたことは言えませんが、マニュアルによると、
配偶子相(gematic phase)が不明な場合にELBアルゴリズムを用いてgematic phaseを推定できるようです。
SettingsタブのHaplotype inference>ELB algorithmと深い関係があるようです。
マニュアルのpp. 53, 56, 57, 74-75, 132-135を参照してください。
集団遺伝学データ解析のための統合ソフトウエアパッケージ
Arlequin(2011年12月現在の最新版は3.5.1.3)
には、R-lequinという機能があります。
これは、Arlequinが出力した結果を視覚化してくれる機能です。
どんな結果が出てきたのかを直感的に把握できるので、便利な機能だと思います。
出力例は、ユーザーズマニュアルの100ページから113ページに出ています。
R-lequinを作動させるにはちょっと手間がかかり、かつ落とし穴もちょいちょいあります。
うまく作動せず、私は丸二日悩みました。同じ悩みを持つ方のために、手順を説明したいと思います。
なお、私のPC環境はWindows 7, Internet Explorer 9です。
手順1. R言語をダウンロード&インストールする。
R言語は高度な統計解析ができるソフトで、t検定はもとより多変量解析までできる優れものです。
R-lequinはこのR言語を利用します。これをダウンロードしましょう。
ただし、ここで注意点があります。
最新版のRでは、R-lequinは動作しません。2.10.1かそれ以前のバージョンで動作します。
《2011年12月追記》
2011年9月にArlequinが最新版にアップデートされました。(バージョン3.5.1.3)
最新版のArlequinは最新版のRとの組み合わせでも動作するようになりました。
Rをダウンロードする手順は次の通りです。
(1) Rプロジェクトのホームページを表示します。
(2) "Download R for"をクリックします。はご自身のOS("Windows", "MacOS X"か"Linux")に読み替えてください。
(3) "subdirectories:"の下に"base"と書かれたリンクが表れるので、"base"を選択します。
(4) 一番上に現れるリンク"Download R <バージョン番号> for"をクリックして、保存します。
(5) 保存したファイルを実行し、指示に従ってインストールしてください。初期設定のままで問題ないはずです。
ウィザードを日本語にすると、文字化けすることがあります。その場合は英語でインストールの手順を進めてください。
手順2. 管理者権限でArlequinを起動する。
Arlequinのアイコンを右クリックし、「管理者として実行…」を選択します。
何かメッセージが表示されたら、「はい」を選択してください。
手順3. ArlequinがRを認識できるようにする。
(1) "Arlequin Configuration"タブをクリックします。
(2) 一番下の"Rcmd"の右側の"Browse..."をクリックします。
(3) インストールしたRの中にRcmd.exeというファイルがあるので、それを選択します。
Windowsの場合"C:\Program Files\R\R-2.14.0\bin\Rcmd.exe"の場合が多いと思います。
手順4. 出力形式をxml形式にする。
"Arlequin Configuration"タブの"XML Output"にチェックを入れます。
手順5. 入力ファイルを読み込み、解析をかける。
手順6. Rcmdボタンを押す。
これで、完了です。Resultボタンをクリックすると、R-lequinが描いたグラフが表示されるはずです。
2回目以降の分析では、管理者権限でArlequinを実行することとxml形式で出力することだけ気をつければ、問題なく動作するはずです。
Arlequin(2011年12月現在の最新版は3.5.1.3)
には、R-lequinという機能があります。
これは、Arlequinが出力した結果を視覚化してくれる機能です。
どんな結果が出てきたのかを直感的に把握できるので、便利な機能だと思います。
出力例は、ユーザーズマニュアルの100ページから113ページに出ています。
R-lequinを作動させるにはちょっと手間がかかり、かつ落とし穴もちょいちょいあります。
うまく作動せず、私は丸二日悩みました。同じ悩みを持つ方のために、手順を説明したいと思います。
なお、私のPC環境はWindows 7, Internet Explorer 9です。
手順1. R言語をダウンロード&インストールする。
R言語は高度な統計解析ができるソフトで、t検定はもとより多変量解析までできる優れものです。
R-lequinはこのR言語を利用します。これをダウンロードしましょう。
ただし、ここで注意点があります。
《2011年12月追記》
2011年9月にArlequinが最新版にアップデートされました。(バージョン3.5.1.3)
最新版のArlequinは最新版のRとの組み合わせでも動作するようになりました。
Rをダウンロードする手順は次の通りです。
(1) Rプロジェクトのホームページを表示します。
(2) "Download R for
(3) "subdirectories:"の下に"base"と書かれたリンクが表れるので、"base"を選択します。
(4) 一番上に現れるリンク"Download R <バージョン番号> for
(5) 保存したファイルを実行し、指示に従ってインストールしてください。初期設定のままで問題ないはずです。
ウィザードを日本語にすると、文字化けすることがあります。その場合は英語でインストールの手順を進めてください。
手順2. 管理者権限でArlequinを起動する。
Arlequinのアイコンを右クリックし、「管理者として実行…」を選択します。
何かメッセージが表示されたら、「はい」を選択してください。
手順3. ArlequinがRを認識できるようにする。
(1) "Arlequin Configuration"タブをクリックします。
(2) 一番下の"Rcmd"の右側の"Browse..."をクリックします。
(3) インストールしたRの中にRcmd.exeというファイルがあるので、それを選択します。
Windowsの場合"C:\Program Files\R\R-2.14.0\bin\Rcmd.exe"の場合が多いと思います。
手順4. 出力形式をxml形式にする。
"Arlequin Configuration"タブの"XML Output"にチェックを入れます。
手順5. 入力ファイルを読み込み、解析をかける。
手順6. Rcmdボタンを押す。
これで、完了です。Resultボタンをクリックすると、R-lequinが描いたグラフが表示されるはずです。
2回目以降の分析では、管理者権限でArlequinを実行することとxml形式で出力することだけ気をつければ、問題なく動作するはずです。