疫学で有名な分析に、生存分析がある。ある生物について、生息環境ごとの寿命の違いを調べたり、ある医薬品を投与した患者について、その医薬品の有効性を計測するために、生存の状況を調べたりする際に用いられる。
分析では、横軸に時間経過、縦軸に生存率をとって、グラフを描く。これにより、調査対象の生物や患者の生存の状況が、時間とともにどのように変わるかを捉えることができる。
生存分析では、個体ごとに、調査開始時点と、死亡時点のデータを管理する。ここで、問題となるのが、調査が打ち切りとなってしまう個体が出る点である。次のものが、その原因として挙げられる。
(1) 調査対象が、いなくなってしまう
生物であれば、檻などから逃げ出してしまい、調査不能になることがある。患者の場合は、転居などにより、通院先の病院を変えたために、調査が継続できなくなる場合がある。
(2) 死亡が発生しないまま、調査期間が終了する
通常、調査期間は、限られている。調査期間中に全ての個体が死亡するとは限らず、調査終了時に生存している個体が残存することが考えられる。
(3) 調査とは別の原因で死亡してしまう
例えば、がん患者を対象に抗がん剤の投与後の生存状況を調べていたところ、がんと無関係の急性心筋梗塞により、患者が死亡してしまうような場合がある。
(4) 調査の中止が必要となる場合がある
(3)の例と同様、がん患者を対象に抗がん剤の投与後の生存状況を調べていたところ、著しい副作用が生じたため、投与を中止することがある。これにより、調査も中止することとなる。
こうした打ち切りを、生存分析では、どのように取り扱うべきだろうか。これについては、生命保険数理法と、カプラン・マイヤー(Kaplan-Meier)法の、2つの方法が有名である。
生命保険数理法では、調査期間の途中で打ち切りになった場合、打ち切りとなった期を半分経過した時点まで生存して、その後、調査から外れたものとみなす。その上で、各期の死亡率を計算する。
一方、カプラン・マイヤー法では、死亡が生じるごとに、その時点までの死亡率を計算する。死亡より前に発生した打ち切りは、調査に入っていなかったものとみなす。
なお、この方法では、死亡率のベースとなる期間が1年などの一定期間とは限らないため、死亡率は、「○○ヵ月後の瞬間死亡率」などと呼ばれる。
具体例で、2つの方法を見てみよう。ある病院の5人の患者について、2年間、調査をしたとしよう。患者A、Cは、それぞれ調査から9ヵ月後、22ヵ月後に死亡。Dは、14ヵ月後に転院して、調査から外れた。B、Eは、2年後の調査終了まで生存。各患者の状況を横線の矢印で表すと、次のようになる。
生命保険数理法では、1年目の死亡率は、5人中1人(患者A)が死亡したため、0.2(=1/5)となる。2年目の死亡率は、年始に生存していた4人のうち、患者Dが期中で打ち切りとなったので、3.5人とみなし、そのうち1人(患者C)が死亡したため、0.29(=1/3.5)となる。
一方、カプラン・マイヤー法では、9ヵ月後の瞬間死亡率は、5人中1人が死亡したため、0.2(=1/5)。22ヵ月後の瞬間死亡率は、その時点までに打ち切りとなった1人を除いて、3人中1人の死亡であるため、0.33(=1/3)となる。
死亡率や瞬間死亡率をもとに、時間の経過に応じた累積生存率の推移を図示してみよう。両者は、水準に、大きな違いはない。ただし、グラフの形状は、生命保険数理法が斜めの線なのに対して、カプラン・マイヤー法は階段状の線となっており、かなり異なった印象を与える。
なお、調査対象の規模がもっと大きければ、カプラン・マイヤー法の各段の段差は小さくなり、曲線に近い形状になる。
2つの方法を比較しよう。まず計算精度の面では、打ち切りを期の半分まで生存とする生命保険数理法のみなしは、大雑把と言える。死亡時に瞬間死亡率を算定するカプラン・マイヤー法の方が、精度は高い。
一方、計算負荷の面では、計算回数が、生命保険数理法は期間数、カプラン・マイヤー法は死亡個体数となる。調査対象が万単位となれば、カプラン・マイヤー法は回数が増し、負荷が大きい。
かつて、コンピューターの計算システムが未整備の時代には、調査対象が50個体以上の場合は生命保険数理法、未満の場合はカプラン・マイヤー法などと使い分けられていた。現在は、システム機能が向上し、集団規模によらず、カプラン・マイヤー法が使用可能となり、通常、この方法が推奨される。
打ち切りの取扱いのような、みなし計算は、システムの発達とともに、適用可能性が変化する。従来、妥当とされてきた方法でも、技術の進化に応じて見直すべきと思われるが、いかがだろうか。
関連レポート
(2017年12月4日「研究員の眼」より転載)
株式会社ニッセイ基礎研究所
保険研究部 主任研究員