生存時間解析のチュートリアル論文を読む(その1)
生存時間解析なのか生存時間分析なのか、はたまたサバイバル分析なのか。 いまいち呼称が統一されていないSurvival Analysis。
医療統計や計量経済ではよく使われるはずなのですが、 日本語で読める定番の書籍があまりないことも呼称の乱立の原因なのかも知れません。
お仕事の関係で入門したいのですが、松戸のジュンク堂に行っても生存時間解析の本が一冊もない。
こりゃだめだ。ということでググってたら見つけたチュートリアル論文(英語)に手を付けることにします。
TUTORIAL IN BIOSTATISTICS - SURVIVAL ANALYSIS IN OBSERVATIONAL STUDIES
http://www.rni.helsinki.fi/~kja/event2010/Tutorial.pdf
要約
1. INTRODUCTION
1.1. Background
- データベースを使った研究が医療分野でも増えてきたよ
1.2. Structure of this paper
- 従来から主流だったランダム化比較実験と、観察データに基づく分析には重要な違いがあるんだ
- ランダム化比較実験
- 実験群の間で説明変数(観察不可能なものも含む)がバランスしているから、非説明変数の違いはほぼ全部介入の影響と考えていいよ
- 観察データに基づく分析
- 対象の選び方がランダムじゃないし、介入のタイミングもバラバラだから、介入の被説明変数への影響がtentativeだよ
- ランダム化比較実験
- ランダム化比較実験ができず、観察データに基づく分析に頼らざるを得ないような場面はある
- そんな時には、観察データの質にかなり厳格な注意が必要だし、より洗練された統計分析が求められるんだ
- この論文では、観察データからよりvalidな結論を導き出すための研究デザインや分析手法について説明するよ
- 詳しくは第2節で説明するけど(たぶん)、2つのストーリーに沿って説明するよ
- 1つ目は fixed interval でのイベント発生を対象とするものだ
- 例えば「手術から1年以内の死」みたいに
- 2つ目は、期間をまたいだイベント発生を分析するもの
- 例えば「20歳になるまでの死亡率のパターン」
- 1つ目は fixed interval でのイベント発生を対象とするものだ
- 重要な概念は2つ
- 第4節で導入する late entry
- 第9節で考える time-dependent variables
- 詳しくはそれぞれの節で説明して、第10節ではこれらの概念を組合せて分析する方法を教えるよ
- 最後にはこうした分析から導く結論には、どうしてもtentativeな性質があることを強調して終わるよ
所感
の前に、何故口語調で訳したんだ俺
- 「実験できないから観察データに頼らざるを得ないんだけど、そうするとデータの統計的な扱いにはかなり気をつけて、工夫した手法を使わないといけないよね」という問題設定は、自然科学に対する計量経済学や計量社会学のアプローチに近い(というかまんま)
- 医療統計全然知らなかったんだけど、自分のバックグランド(社会学)と実は近いのかも
- 英国人の英語って読みづらくないですかね…ちょっと難しいし一文がやたら長いし…
第2節も近いうちに上げます。