Tom Lang 先生による「統計の基礎 」 シリーズ

2. 推定値と信頼区間

イントロダクション Introduction

第1回では、データをパーセンテージや平均値、四分位範囲などで記述し、要約する「記述統計量」について学びました。今回は推定値と信頼区間の話題に移ります。これらは「推測統計量」と呼ばれるもので、標本の特性を測定し、標本を抽出した母集団の特性を推測あるいは「推定」する統計学のことです。
生物医学研究の多くは標本を用いて行われますが、標本から得られた結果は「母集団」に適用されます。たとえば、世界中のすべてのてんかん患者を対象に研究を行うことはできないため、実際にはこうした患者を代表する標本を対象に研究を行います。生物医学研究では(母集団を代表する)標本から得られた知見が、すべてのてんかん患者(母集団)にもあてはまるであろうことを見込んでいるのです。
つまり、標本の測定値から母集団の特性を推測します。標本は母集団のごく一部であることが多いため、この推定値の精度を評価する必要性が生じます。医学領域では推定値の精度を表す指標に「信頼区間(confidence interval:CI)、通常は95%CIを用いることが最も一般的ですが、小標本では「信頼係数」に90%を用いて90%CIとする場合もあり、理論的には信頼係数はあらゆる数値をとる可能性があります。このように、医学文献を読み解くには推定値と信頼区間を理解することが重要なのです。

推定値 Estimates

推定値は、標本の測定値から推定される母集団の真の値である可能性のある値を指します。医学領域では、たとえば7歳児の平均身長といった身体特性の値を推定する場合もあれば、異なる治療の群間差〔群間比較〕や同一の患者群における治療前後での差〔群内比較〕などのように治療介入の効果を推定する場合もあります。
ここでは例を用いて推定値と信頼区間について説明していきます。西洋の民間伝承に「ノーム」と呼ばれる精霊が存在します(図1)。ノームは少人数の集団でしか姿を現さないため、ノームの平均身長がどの程度であるかは知られていません。そこで、ここでのリサーチクエスチョンは、「ノームの身長を数人しか測定できないとすると、ノーム全体の平均身長を推定するにはどうすべきか」となります。
図1 ノームは西洋文化における神話上の生き物である この図のノームの身長は10cmである。身長を測ったのがこのノームだけだとすると、得られた情報はそれがすべてであるため、ノーム全体の平均身長の最良推定値は10cmとなる。
1人のノームがあなたの机の上に姿を現したと仮定して、身長を測ったところ10cmちょうどであることが分かりました。この場合、ノーム全体の平均身長を何cmと推測するのが最も適切でしょうか?その答えは10cmです。標本が1つの場合、得られる情報はそれがすべてだからです。
では1人目のノームの隣にもう1人ノームが現れたとします。このノームの身長が11cmだったとすると、ノーム全体の平均身長は何cmと推測するのが最も適切でしょうか?答えは10.5cmです。それが得られた情報のすべてで、2つの標本の身長を平均すると10.5cmになるからです。
この後、たとえばノームが20人現れたとしても、それぞれのノームの身長を測定し、その平均値を算出する過程を繰り返します。ここでもやはり、標本の平均値がノーム母集団の平均身長を表す最良推定値となります。つまり、標本の平均値が母集団の平均値の最良推定値となります。同様のことがこの標本の他の特性、たとえば、中央値や範囲、標準偏差にもあてはまります。
ただし、上述の例の標本サイズは20人に過ぎず、数千人いる(と思われる)ノームの母集団のごく一部しか抽出されていない点に注意が必要です。ノームの母集団の人数が多い場合、このようにして得られた推定値はどの程度精確なのでしょうか。たとえば、とても小柄な(あるいはとても大柄な)ノームが標本に含まれていれば、母集団の平均身長は実際よりも低く(高く)見積もられてしまいます。そこで、得られた推定値の精度を表す指標が必要となります。この指標が信頼区間です。

信頼区間 Confidence Intervals

信頼区間の概念を分かりやすく説明するため、再び架空のノームの例を用います。概念が理解できたら、信頼区間が実際にどのように決定されるのかを解説します。 信頼区間を例証する架空のアプローチ すべてのノームから全面的に協力が得られたと仮定すると、ノームの母集団から10人のノームで構成される標本をランダムに得ることができます。つまり、10人の(ランダムな)ノームの標本を母集団から抽出し、それぞれの身長を測定して平均値を算出し、平均値をグラフ化して、そのノームを母集団に戻します。次に、別の10人のノームの標本を同じ母集団から抽出し同様の過程を繰り返し、以後、可能な限り得られる10人のノームから成る標本で繰り返します(表)。
10の標本から収集した100人のノームの身長 10の標本から得られた身長の平均値から算出された全体の平均値は9.3cmであり、これがノーム母集団の平均身長の最良推定値となる。SEM*は1.9。平均値-2 SEM=5.5cm、平均値+2 SEM=13.1cmであり、95%CIは5.5~13.1cm となる(詳細は本文参照)。
*SEM:standard error of the mean(平均値の標準誤差)  
すべての標本から得られた平均値をグラフ化すると(図2)、正規分布を示していることが分かります(この結果は、「中心極限定理」により説明されますが、ここではその説明は省略します)。このシリーズの第1回目で「曲線下面積」は標準偏差の単位で表せることを学びました。ここでさらに重要なのは、標本の平均値のグラフから得た平均値が、やはり母集団の平均値の最良推定値になるという点です。ここでも標本が複数であるため、標本から得た平均値の分布が得られます。単一標本の平均値を中心とするデータの散らばりを示す尺度は標準偏差(standard Deviation:SD)ですが、今回は、標本の平均値の分布の散らばりを表すため、この標準偏差を平均値の標準誤差(standard error of the Mean:SEM)と呼びます。
SDとSEMは同じ概念を表しており、同じ数学的な特性をもつもので、両者はともに正規分布を表すために用いることができます。唯一の違いは、SDがデータの分布の散らばりを示す記述統計量であるのに対し、SEMは推定値の散らばり、つまり母集団から抽出可能な同一サイズの標本から得られる平均値の分布の散らばりを示す推測統計量であるという点です。
データの約68%は平均値の±1 SD以内に、約95%は±2 SD以内に分布することは既に学んだとおりです。これらの関係はSEMでも同様で、標本平均値の約68%は標本平均値の平均値±1 SEM以内に含まれ、約95%は平均値±2 SEM以内に含まれます(図2)。
図 2 推定される平均身長を中心とする95%信頼区間を算出する架空のプロセス
上図: 関心の対象となる母集団から同一サイズの標本を可能な限り抽出し、各標本の平均身長を算出してグラフ化する。
下図: 新たに示された平均値の分布は正規分布すると予想されることから、抽出した標本の95%で、平均値がこの新しい分布全体の平均値±2 SEMの範囲内に入る。全体の平均値が推定される平均身長となり、平均値±2 SEMの範囲が推定値の95%信頼区間となる。
この標本平均値の分布における平均値が、母集団の平均値の最良推定値であり、平均値±2 SEMの範囲が推定値の95%CIとなります。上記のノームの例では、ノームの母集団から得た標本で身長を測定し、その推定値は標本ごとに異なっていました。しかし、同じサイズの100の標本のうち95は、その平均値が標本平均値の上下2 SEMを含む値の範囲内に入る可能性がかなりあるといえます。
信頼区間を決定する実際のアプローチ 一般的には1つの標本で測定します。(測定した)標本平均値が母集団の平均値の最良推定値となり、95%CIは、以下に示す簡単な式により導かれるSEMから算出されます。
SEM=
標本の標準偏差
標本サイズの平方根
標本平均値の平均値±1 SEMで表される値が約68%CIとなります。95%CIを決めるにはSEMを2倍します。これにより、100の標本のうち95の標本の平均身長の値が入ると予想される範囲が決定されます。
図3で説明すると、可能な限り得られた同一サイズの標本(ここでは10の標本ですが)平均値の分布における平均値は9.3cmです。SEMは1.9で、2 SEMは3.8です。平均値の9.3に3.8を加えた値と9.3から3.8を引いた値から、推定身長9.3cm、95%CI 5.5~13.1cm が決定されます。
図 3 ノームの平均身長を推定する場合の標本平均値の分布 推定される平均身長は9.3cm、1 SEM=1.9、2 SEM=3.8、したがって、95%CIは5.5~13.1となる。

平均値の標準誤差の誤用 The Misuse of the Standard Error of the Mean

SEMは記述統計量として誤用されることがたびたびみられます。とくに基礎生命科学の分野では測定値を平均値とSEMで報告するのが慣例となっており、こうした形式で示す測定値を見慣れている読者にとってはとくに問題にはなりません。しかし、SEMの値は常にSDよりも小さいため、SDを用いた場合に比べて測定の精度がより高くみえてしまいます。そのため、SEMを解釈する際にはこの点を常に念頭に置く必要があります。著者の研究によれば、SEMが適切に報告されているのは回帰分析の結果を示した表などごく一部に限られていました。データの散らばりを記述する場合はSDを、推定値の精度を示す尺度には95%CIを用いることが推奨されます。

信頼区間の重要性 The Value of Confidence Intervals

生物医学研究の結果を報告する際には、信頼区間はきわめて重要な情報となります。生物医学研究の多くは、その結果(「エフェクトサイズ」と呼ばれます)が実際には推定値であるため、CIを一緒に示す必要があります。最近では、結果を記述する際にはP値よりもCIが好まれる傾向が強くなっています。P値は、得られた結果が偶然に生じる確率を表す指標であり、生物学的な解釈は含まれていません(P値については第3回で詳しく解説します)。これに対し、CIを解釈する際には、常にエフェクトサイズの生物学的意味に重点が置かれます。
以下は、信頼区間の重要性を示す例です。ある薬剤が拡張期血圧(diastolic blood pressure:DBP)を低下させることが研究で示されたと仮定します。
「この薬剤は、拡張期血圧値を平均で15mmHg低下させた
(95% CI = 3.5 to 26.5 mmHg; P = 0.01). 」
ここでは、エフェクトサイズは15mmHgの低下であり、この研究におけるDBP値の低下は統計学的に有意だったことが分かります。仮にこの薬剤で降圧効果が得られない場合、DBP値の15mmHg以上の低下が偶然起こるのは、同じような研究を100回行ったうちのわずかに1回でしょう。このように確率が低いことを考えると、上記のDBP値の低下は、おそらくこの薬剤によって引き起こされたものだと判断されます。
15mmHgのDBP値の低下が臨床的に重要なものと仮定します。この結果が統計学的に有意であったとしても、95%CIからいえるのは、同様の研究を100回行った場合、そのうち95回はおそらくDBP値の低下が3.5~26.5mmHgの範囲内に入るだろうということです。26.5mmHgのDBP値の低下は臨床的に重要だといえますが、わずか3.5mmHgの低下ではそうだとはいえません。15mmHgという推定値だけでは精度が不十分なため、この薬剤が確実に有効であるとは断言できません。推定値の精度を上げるには、おそらくより大きな標本サイズで再び研究を行う必要があります。CIに含まれる値がすべて臨床的に重要な場合(あるいは、すべての値が臨床的に重要でない場合)は、この薬剤の有効性に関してより決定的な結論を導くことが可能となります。

参考文献

1)Rowntree D. Statistics Without Tears: An Introduction for Non-Mathematicians. London: Penguin Books, 2000
2)Lang TA, Secic M. How to Report Statistics in Medicine: Annotated Guidelines for Authors, Editors, and Reviewers. Philadelphia: American College of Physicians, 1997. Reprinted in English for distribution within China, 1998. Chinese translation, 2001. Second edition, 2006. Japanese translation, 2011; Russian translation, 2013.