Tom Lang 先生による「統計の基礎 」 シリーズ

3. 仮説検定

イントロダクション Introduction

統計解析は研究にきわめて必須な部分であるため、統計学の専門家との緊密な連携がなければ臨床研究や疫学研究を行うのはまず無理だといえます。また、研究者も医学論文の読者も、エビデンスに基づく医療を実践するには研究デザインや統計解析に関する実用的な知識が必要となります。医学分野における統計学の二大学派は、頻度論的統計学派(P値を算出する古典的な仮説検定を用いるもの)とベイズ統計学派(既存の情報と追加された情報を合わせて新しい情報をつくり出す過程をモデル化したもの)です。より一般的なのは頻度論的アプローチで、医学分野での歴史は長いものの理解するのは容易でなく、また、常に重大な問題をはらんでおり、その多くは広く知られていません。一方でベイズ流アプローチは数学的に複雑なため、適用するにはコンピュータが必要ですが比較的理解しやすく、頻度論的アプローチに伴う問題の多くを回避できるという利点があります。ここでは頻度論的統計学の観点からいくつかの概念を紹介します。ベイズ統計学はますます評判が高まり、多くの医学研究においては徐々に頻度論的統計学に取って代わりつつありますが、この解説は別の機会に譲ります。

仮説検定とは Hypothesis Testing

仮説検定では、たとえば「この薬剤を服用すると、血清高比重リポ蛋白(HDL)値が平均で30mg/dL増加するだろう」といった具体的な主張が提起されます。これは、一般的には「この薬剤はHDL値を増加させるのか」という疑問になりますが、統計学の分野では、「研究終了時に、この薬剤を投与された患者が、投与されなかった患者と同じ母集団から抽出される確率はどの程度なのか」と表現されます。この疑問と答えを理解するには、実験的な手順を見直す必要があります。まず、たとえばHDL値が40mg/dL未満の成人の母集団から標本を抽出した後に、対象者を被験薬による治療群あるいは対照群にランダムに割り付けます。標本数が十分に大きければ、これらの患者群は「ベースラインの時点で同等である」、つまり、両群間で既知および未知の特性がほぼ均衡した状態にあると考えられます。さらに、対象者を治療群または対照群にランダムに割り付けることで、両群間の統計学的あるいは臨床的な差は偶然の結果であり、試験群を形成する際の選択バイアスによるものではないということになります。次に、治療群には被験薬を、対照群にはプラセボを投与します。研究終了時に両群から反応変数(血清HDL値)に関するデータを収集し、これらの値の分布を比較して研究終了時点で両群間に差があるのか、つまり、研究終了時にこれらの2つの群が元の母集団に属する2つの類似した小集団ではなく、2つの異なる集団にみえるかどうかを検討します(図1)。
図1 実験終了時に両群間に差があるかどうかを判定する 図Aでは、薬剤の投与より、治療群のデータの散らばりの度合いが非常に大きくなったことがわかる。両群間に差があると結論づけるに十分なデータのばらつき(統計学的には分散という)の変化がみられる。
図Bでは、データの散らばりの度合いは同じだが、平均値は大きく離れており、値の重複はみられないことから、2つの異なる群が存在することが容易にわかる。
図Cでは2つの群が近づきつつある。
図Dでは、2つの群がきわめて類似しているため、これらは元の母集団に属する2つの小集団にすぎない可能性が考えられる。両群に差があるかどうかを医学的な疑問として表現すると、「その差は臨床的に意味があるといえるほど十分に大きいか否か」となる。
ここでは、これら2つの群に差はあるのか、薬剤介入による効果はあるのか、を問わねばなりません。これは「両群間の平均値の差は臨床的に意味があるものなのか」という医学的な疑問となりますが、こうした疑問は論文の著者によりしばしば見過ごされているのが現状です。「臨床的に意味があるグループ間の差の最小値」を事前に特定でき、治験で得られた平均値の差がこの最小値よりも大きい場合、「その差が被験薬によるものか、それとも偶然によるものか」を問う必要があります。この疑問は統計学的な問題であり、第1種の過誤または「アルファエラー」という概念を含みます。この差は被験薬によるものであるとしたものの、偶然だった、とするほうがより妥当な説明であることが判明した場合、私たちは第1種の過誤を犯したことになります。アルファエラーは通常0.05に設定されますが、これは、同様の比較を100回行った場合、5回は第1種の過誤が許容されることを意味します。すなわち実際には差が偶然に生じた可能性が高いにもかかわらず、被験薬によるものと誤って判断する可能性が100回のうち5回あるということです。
第1種の過誤を示す架空の例(図2)
図 2 仮説検定の一例 治療群から得た全標本の平均値から、対照群から得た全標本の平均値を引き算する。この差は平均値0を中心とする正規分布をなし、データの散らばりの指標は差の標準誤差(SEdiff)と呼ばれる。平均値0±2 SEdiffと定義される領域が帰無仮説の「棄却域」である。偶然に2つの標本間の差がこの範囲から外れるのは100回のうち5回未満であると考えられ、これを「統計学的に有意」と呼ぶ。
1. 被験薬には効果がなく、研究終了時に治療群と対照群は同等であると想定します。
すなわち、「差がないという帰無仮説」を想定します。
2. この治療群と対照群のサイズが無限に大きいと仮定します。
3. 次に、たとえば、治療群と対照群からそれぞれ成人35人を標本として抽出します。
治療群の平均値から対照群の平均値を引き、その差をグラフ化します。
4. このプロセスを繰り返して、治療群から抽出可能な成人35人の全標本(組み合わせ)の平均値から、
対照群から抽出した全標本の平均値を引き算します(この例は概念的には正しいものですが、説明は仮定のものである点に留意してください)。
得られたすべての標本の平均値の差をグラフ化すると、正規分布となることがわかります。
特に正規分布は平均値を中心として左右対称の曲線となり、その「曲線下面積」は
標準偏差の単位として表せることは既に学びました(詳細は本シリーズの第1回を参照のこと)。
5. 両群の平均値に差がないとする帰無仮説が真に正しければ、新たに得た分布の平均値は0になります。
つまり、両群が同等であれば、一方の平均値から他方の平均値を引いた差は
ほとんどのケースで0となり、すべての平均値の差は0を中心に集まると考えられます。
6. こうした標本平均値の差の分布における標準偏差を、差の標準誤差(SEdiff)と呼びます。
標準偏差と正規分布との関係は、標準偏差とデータ分布との関係と同じであり、
また、平均値の標準誤差と抽出可能な全標本平均値の分布との関係と同じです。これがSEdiffと
呼ばれるのは、両群から抽出可能な全標本間で生じうる差の分布と関連しているからです。
7. 標本平均値の差は正規分布となるため、すべての差の95%は、平均値0±2SEdiff以内の範囲に収まります。
この範囲を帰無仮説の許容域と呼びます。帰無仮説のもとでは、100組の標本対のうち95組で、偶然に平均差がこの範囲内に収まります。これはあらかじめ設定した5%という率をはるかに上回るものです。
8. 実際には、2つの標本の差が偶然に±2SEdiffの範囲からはずれることもありますが、
帰無仮説のもとでは、それは100回のうち5回未満です(α=0.05の場合、P<0.05)。
この範囲を帰無仮説の棄却域と呼びます。つまり、被験薬がまったく無効であっても、偶然に、
実際に観察された差と同じかそれ以上に大きい差が帰無仮説の棄却域に入る可能性があります(図3)。しかし、こうした偶然の可能性が小さい場合(100回のうち5回未満)、通常、帰無仮説は棄却され、
結果は統計学的に有意であり、両群間の差はこの被験薬によってもたらされたものと結論づけられます。
図 3 正規分布下面積 「曲線下面積」は100%のデータを表す。ここでは、治療群と対照群から得られる抽出可能な全標本の平均値の差を表している。曲線下面積は標準偏差という単位で示すことができる(ここでは、差の標準誤差となる)。平均値0±2標準誤差の範囲には、抽出可能な全標本の平均値の差の95%が含まれる。同様の試験を100回行えば、95回は偶然にこの範囲内に差が収まる。このような場合の結果は統計学的に有意ではない。
P値を決定する実際のアプローチ
実際には、無限の大きさの母集団から抽出可能なすべての標本を得ることはできません。そのため、標本を1つだけ抽出し、それを治療群と対照群に分けて、それぞれの分布から得られたデータをt検定(t-test)と呼ばれる式に代入します。t検定によって検定統計量と呼ばれる数値が得られます。次に、これを確率分布上に位置づけて、そこから確率値すなわちP値を決定します。P値は、帰無仮説が真であるという仮定のもとに、観察された差またはそれよりも大きな差が偶然に検出される確率を表します。よってP値は帰無仮説の根拠を定量化する指標であり、P値が小さいほど、帰無仮説を支持する根拠は弱まることになります。P値が有意水準(たとえば0.05)よりも小さいときには帰無仮説は棄却され、得られた結果は統計学的に有意であるといいます。
第2種の過誤を示す架空の例
上述の例における平均値の差が、「臨床的に意味があるグループ間の差の最小値」よりも小さい場合には、「差がないのは、被験薬の効果がないためなのか、それともデータ量が不十分だったためなのか」を問う必要が生じます。上記の研究で対象とされたのは、HDL値が低い成人全体のごく一部であり、被験薬が無効な対象者を偶然に標本として抽出してしまった可能性もあります。この疑問も統計学的な問題であり、第2種の過誤あるいは「ベータエラー」という概念を含み、それはまた、統計学的検出力とも関連しています。両群が類似していたのは被験薬の効果がないためとしたものの、実はデータ量が不十分だったことがより妥当な説明であることが判明した場合、私たちは第2種の過誤を犯したことになります。ベータエラーは通常0.2に設定されます(ただし、一般的には0.1も用いられており、それ以外の値を設定することも可能です)。これは、同様の比較を100回行った場合に20回は第2種の過誤を受け入れることを意味します。つまり、同様の研究を100回行うと、そのうち20回は標本サイズが小さいために差が生じなかった可能性のほうが高いにもかかわらず、その原因を被験薬が無効であったためと誤って判断するということです。臨床的に意味があるグループ間の差の最小値と同様に、研究で差を見いだすのに必要な標本サイズも事前に決定しておかなければなりません。この過程には検出力の計算が含まれ、統計学的検出力は1-βと定義されます。仮にベータエラーを0.2に設定すると、統計学的検出力は80%になります。統計学的検出力の計算を行うことによって、もし、その母集団に臨床的に意味がある差が存在するのであれば、その最小差を80%の確率で検出するには何人の患者を研究に組み入れる必要があるのかを決定することができます。統計学的検出力の計算にはいくつかの変数が含まれます。それらが標本サイズに及ぼす影響を表に示します。左から2列目が、臨床的に意味があると考えられる差の最小値です。ここでは、治療に価値があると判断するためには、5%の平均値の差を示さなければなりません。左から3列目は標準偏差で、データの散らばりの程度を予想する指標となります。ここでは、この値は20です(この例では単位は使用しません)。また、4列目が有意水準、5列目が望ましい統計学的検出力、6列目が必要な標本サイズです。したがって、上から一行目の一番右の欄は、5%の差が母集団に存在する場合に、その差を80%の確率で検出する際に必要とされる研究の標本サイズとなります。
統計学的検出力の計算に含まれる変数 片側検定を用いる場合や検出する差が大きい場合は必要な標本サイズが小さくなる。一方で、データの散らばりの度合いが大きい場合や有意水準がより厳格である場合、統計学的検出力が大きい場合は、標本サイズが大きくなる(詳細は本文参照)。
(上から2行目は片側検定を示します。両側検定では、「群間差の方向」が平均値0よりも大きい側あるいは小さい側のいずれかに向かう確率が示されます。両側検定では、5%の有意水準が二分されるため、差の分布の片側に2.5%の帰無仮説の棄却域が設定されます。一方で、片側検定では、差は一方向にしか向かわないことが確実であるため、分布の片側にのみ5%の棄却域が設定されます。)

適切な統計学的検出力の重要性 The Importance of Adequate Statistical Power

統計学的検出力について覚えておくべき重要なポイントは、「検出力が不十分な」研究の場合には、結果が統計学的に有意でないからといって、比較した両群が同等であるということではありません。単に、差を正しく検出するには収集データが不足しすぎていたことを意味しているに過ぎないのです。「証拠がないことは、ないことの証拠にはならない」ということです。両群が同等かどうかを知りたい場合は、「同等性」を検証する研究を行います。これは、一方の試験群の平均値を中心とした「信頼帯」を設定し、もう一方の試験群の値がその範囲に含まれることを検出するべく試験を実施します。一般に、差が小さい場合にはより大きな標本が必要となります。差を検証する研究よりも同等性試験のほうが大規模になることが多いのはそのためです。

参考文献

1)Rowntree D. Statistics Without Tears: An Introduction for Non-Mathematicians. London: Penguin Books, 2000
2)Lang TA, Secic M. How to Report Statistics in Medicine: Annotated Guidelines for Authors, Editors, and Reviewers. Philadelphia: American College of Physicians, 1997. Reprinted in English for distribution within China, 1998. Chinese translation, 2001. Second edition, 2006. Japanese translation, 2011; Russian translation, 2013.