https://www.ism.ac.jp/editsec/toukei/pdf/57-1-119.pdf
生存時間解析って難しいですね。前にアップした論文を見ていると、ある事柄のあるなしのハザード比を書いてその区間(信頼区間)の記述の後でp値が書いてあります。 この記述が謎でした。比例ハザードモデルは基準ハザード関数にいろんな特性があるなしの変数z_i (多分0または1)それとそれが与える影響の係数β_iの一次結合を指数関数の肩にのっけたものと、混合のパラメータw_jの積です。
だからβ_iの値が知りたいとき、z_iの値を0と1にしたもので比をとってあげれば、他の部分は相殺されて、β_iだけ残る(実際はe^{β_i} だけど煩雑なので略してβ_i と表します)。これが1を信頼区間に含んでいれば、その特性は死ぬ確率に影響しないということに、ただ、前回書いたベイズ統計でMCMCならp値って出て来ようがない。従って、β_i の従う確率分布が数学的にわかっている状況があるということです。
すべてのβ_i たちのつくるベクトルが従う確率分布として部分尤度を計算する部分があってこれは、例えば t1 t2 t3, .... とあるきまった時刻に誰かが死ぬという(なんかサスペンスかオカルトみたい(^^;) 前提で条件付き確率として 調査で実際の起こった内容の条件付き確率の分布関数は漸近正規性をもつことや 別の確率過程で解釈できてマルチンゲールの議論など使えるといってるのが最初に書いた論文のよう。
ある事柄あるかないかは、観測データが1か0でしょう、その観測データには係数がついていて、この係数がどれだけかを見ているわけです。
比例ハザードモデルはある時間tに特定の人が死ぬ その人の特性で0か1 それといくつか混合モデルための係数がかかっている 0か1を入れたとき出てくるのはその人がその時刻に亡くなる確率
亡くなるということが主的アウトカムかな 心筋梗塞などの特定の疾患が発症するのが副次的アウトカムとあるけど、後者はどういう扱いを数式でやっているのかがまだ見えない。
とりあえず、β_iの従う確率分布がわかって、その信頼区間をp値付きでこれでもとめてる。
だから、結構めんどいですね。その意味では栄養素のバランスを問題にしたいけど、作業仮説として一つの栄養素の成分比の大きさを群に分けて、比較するために比をとるしかない。
β_iたちをまとめ推定するにはベクトルになるから、多分大変なんでしょうね。。
まだ、わかんないとこあるけど、いちようわかったこと。生存時間解析って長ーい歴史がありそうで、じっさい臓器移植やいろんなところで、どうしたらなるべく死亡者を少なくできるかの実際問題とかかわって出てきた統計だけに、切実でその歴史がありますね。なかなか煩雑