Tom Lang 先生による「統計の基礎 」 シリーズ

1. 変数、測定レベル、記述統計量を理解する

イントロダクション Introduction

科学とは関係性を探ることです。つまり、科学は、さまざまな関係性を見いだし、その関係性を説明し、予測し、ときには制御することで進歩しています。そして、この関係性は変数により成り立っています。
生物医学研究ではいくつかの変数がよく用いられます。このシリーズでは説明変数と反応変数の2つにしぼって解説しますが、必要に応じて他の変数についても簡単に触れていきます。説明変数と反応変数が決まれば、この変数に関するデータを収集します。これらの収集は、ある「測定レベル」(変数についてどのような情報量が収集されるかを決めるもの)に則って行われます。最終的には、こうして収集したデータを「記述統計量」により数値で要約して記述することで、他者に伝えたり、解析しやすくなります。

変数のタイプ Types of Variables

変数とは、人や場所、物事の特性を表すもので、2つ以上の観察可能な、あるいは測定可能な値をもち、あるものとその他のものを識別する指標となるものです(なお、科学は測定に基づくものです。測定ができなければ、何事も科学的に研究することはできません。測定は興味深いトピックではありますが、このシリーズでは触れません)。
たとえば、母親を対象とした研究では、観察の対象は女性だけとなるため、性別は変数ではありません。一方で、両親を対象とした場合、対象者は男性と女性の両方を含むため、性別は変数になり得ます。性別が、ある人と別の人を区別する指標となるためです。
科学論文のタイトルには、研究対象とされた関係性が明示されることが多く、またそうされるべきです。「頭痛治療におけるアスピリンの効果」と題された論文では、何らかの製剤や用量のアスピリンと、おそらく患者の自己申告による痛みで定義された頭痛との関係性が研究されたものであることがわかります。
反応変数あるいは従属変数は研究のアウトカム(結果)、つまりエンドポイントです。他の変数により影響を受ける可能性があり、また、研究を行う理由ともなるものです。一方で、説明変数あるいは独立変数は、反応変数(結果)に影響を及ぼす可能性のある曝露や治療的介入のことで、この値は通常、研究者が知っているか、制御しているものです。上述の標題の例では、反応変数は患者が自己申告した痛みの程度であり、説明変数はアスピリンによる治療的介入となります。
研究論文を読む際には、まず、この反応変数と説明変数を見極める必要があります。これらの変数は、多くの場合論文のタイトルやキーワード、抄録やイントロダクションのほか、各変数に関して収集されたデータを表す図表で確認することができます。

研究論文では、その他、以下のような変数もよく用いられます。 ・制御変数 Control variables 制御変数は、関係性を説明するのに妨げにならないよう一定値に保たれる変数のことです。たとえば、アスピリンの研究で、すべての対象患者に同じ用量のアスピリンを服用させると、体格が大きな人に比べて小さい人では血中濃度が上昇する可能性があります。そのため、体重という変数を「制御」するには、1)体重がほぼ同じ患者のみを登録する、2)対象患者の体重を「非常に軽い、軽い、正常、重い、非常に重い」などのカテゴリーに分けて解析する、3)回帰分析のように、他の変数との関係において、体重を変数としてデータを統計的手法を用いて解析する、といった方法が考えられます。 ・交絡変数 Confounding variables 交絡変数とは、推定される原因(説明変数)と結果(反応変数)の関連を調べる際に、両者に(直接あるいは逆)相関し、これらの関係性を歪める第3の要因のことを指しますが、原因と結果の「因果連鎖」の中間変数ではありません。交絡が起こると、説明変数が本当に反応変数に影響を及ぼしたのかを判断しようとする際に、結果の解釈を難しくする可能性があります。たとえば、米国でアイスクリーム消費量の変化が殺人事件の件数と相関すると仮定します。得られた情報がこれだけであれば、1)アイスクリームを食べる人は殺人を犯す可能性が高い、あるいは、2)殺人者はアイスクリームを多く食べる、と結論づけられるかもしれません。しかし、アイスクリームの消費量と殺人事件の発生率の関連には、両者に気温という因子が相関するという事実が「交絡」しています。つまり、気温が高いほどアイスクリームの消費量が増え、戸外で過ごす時間が長くなり、イライラする可能性が高くなるという具合です(実際にはさらに多くの関係性が存在しますが、上述の例ではポイントだけを示しています)。 ・剰余変数 Extraneous variables 剰余変数とは、ある研究の結果(反応変数)に影響を及ぼす好ましくない変数ですが、研究の対象となるものではありません。つまり、観察対象の関係性を理解するのを妨げる誤差や「ノイズ」を増やすものです。たとえば、ある試験を一方のグループは午前中に、もう一方のグループは午後に行ったとすると、午前中に行ったグループは頭がリフレッシュして集中力も高いのに対し、午後に行ったグループは疲れていて集中力も低下しているかもしれません。このケースでは、時間帯が研究結果に影響を及ぼす剰余変数となり得ます。

測定レベル Level of Measurement

観察対象の変数が決まったら、データ(測定値)を収集します。収集した情報は、観察または測定から得た情報量により4つの測定「レベル」あるいは「尺度」に分けられます。測定レベルはカテゴリカルデータと連続データの2つに大きく分類されます。カテゴリカルデータはいくつかのカテゴリー(分類のまとまり)からなり、一方の連続データは等間隔の尺度で測定されるデータです。カテゴリカルデータは、観察をカテゴリーのどれか1つ(だけ)に割り当てるために観察対象の質を用いることから、質的データとも呼ばれることもあります。一方で、連続データは、対象の属性や特性を測定し、数量で表すため、量的データとも呼ばれます。 名義尺度(名義レベル)Nominal Level of Measurement 測定レベルの中で最も水準が低いものは、「名義」あるいは名前をつけた尺度です(図1)。名義データは固有の序列をもたない2つ以上のカテゴリーに分類されます。たとえば、血液型(A型、B型、AB型、O型)や治療的介入(アスピリン、イブプロフェン、アセトアミノフェン、ナプロキセンの投与)、病院の所在地(東京都、大阪府、横浜市)などが例として挙げられます。これらの例では、血液型や治療薬、病院の所在地は変数となり、カテゴリーの数がそれぞれの変数の値となります。
図1 カテゴリカルデータの例 治療的介入は、治療群と対照群という2つのカテゴリーをもつ2値変数である。また、治療開始から反応までの期間は0~7日間、8~14日間、15~21日間という3つのカテゴリーでランクづけされる順序変数である。
さらに、名義データでは2値データ(2つのカテゴリーをもつ名義データ)と呼ばれるものも重要です。これはたとえば、生存または死亡、男性または女性、コイン投げの表または裏、治療群または対照群のように相反するカテゴリーをもつものです。 順序尺度(順序レベル)Ordinal Level of Measurement 名義レベルの次の水準に位置する順序レベルもカテゴリカルデータに分類されます(図1)。順序データは、何らかの基準で序列化された2つ以上のカテゴリーからなっています。治療群は、たとえば低用量群、中等用量群、高用量群に分類されるほか、乳幼児群、小児群、青年群、若年成人群、高齢者群に分けられることもあります。データはカテゴリカルデータですが、評価する項目の性質によってはデータに順序がつけられます。上述の年齢のカテゴリーでは、若年成人の年齢の範囲は示されていませんが、乳幼児や小児、青年に分類される人よりは年上で、高齢者に分類される人よりは若いことは分かります。繰り返しになりますが、上述の例では、薬剤の用量と年齢が変数となります。
順序データではカテゴリーに序列がつけられますが、このとき、データの間隔が一定であるとは限りません。たとえば、患者に病院で受けたケアへの満足度を1(とても不満足)から5(とても満足)の尺度で評価してもらう場合、尺度は1~5の5つに分類されます。この5つのカテゴリーを数字で表しても、4と回答した人が2と回答した人に比べて満足度が2倍だったとはいえません。この場合、ある人は他の人に比べて満足度が高かったといえるだけです。
しかし、順序レベルのカテゴリーは、あたかもデータの間隔が一定であるかのように扱われることもあります。たとえば、患者に疼痛の程度を0(疼痛なし)から10(考えられうる最も強い痛み)のうちどれかを選んでもらうことはよくあります。疼痛の程度が術前の8から術後には2になったとすると、この6ポイントの低下は、疼痛が75%軽減した(6/8=0.75)と解釈される可能性があります。順序レベルのカテゴリーを用いて数学的に演算することがときに正しい場合もあり、こうしたケースの測定レベルは半定量的データとも呼ばれます。 連続尺度(連続レベル)Continuous Level of Measurement 3つめの測定レベルは、最も多く情報をもつ連続レベルです。連続データは、等間隔の尺度で測定されるデータで、グラフ化すると分布を形成します。連続データは2つに分けられます。1つは離散データあるいは間隔データと呼ばれるもので、たとえば、患者数など、端数をもたないものです。もう1つは、真の連続データと呼ばれるもので、たとえば、血清アドレナリン濃度(mL/kg)など小数点以下も測定できるものを指します。連続データは等間隔の尺度で測定されるため、計算(加減乗除)できます。たとえば、50歳の患者は25歳の患者に比べて年齢が2倍だといえます。
なお、離散データと連続データは統計解析ではほぼ同様に扱われますので、筆者はどちらを表すにも「連続データ」という言葉を使います。
研究者は多くの場合、これらの測定レベルのうち、自分の研究に適したものを選択できます。たとえば、血圧に関する研究では、高血圧患者と非高血圧患者を比較する場合もあれば(名義/2値レベル)、低血圧患者と正常血圧者と高血圧患者(順序レベル)を比較する、あるいは血圧値をmmHg(連続レベル)で検討する場合もあります。
場合によっては、連続レベルで収集したデータを順序カテゴリーに分類することもあります。たとえば、連続レベルの年齢を、十分位数の年齢群(0~9歳、10~19歳、20~29歳などの10歳ごとのグループ)を用いて順序グループに分類することもできます。しかし、このように連続データを順序カテゴリーに分類することで元の情報が失われることにもなります。たとえば、0歳から100歳までを10のカテゴリーに分けると、データのばらつきの情報の一部が失われます。そのため、論文の著者は、1)測定レベルを変更したこと、2)変更した理由、3)新たなカテゴリーを定義する分割点とその設定根拠、の3点を明らかにする必要があります。

記述統計量 Descriptive Statistics

変数に関するさまざまな測定レベルのデータが収集されたら、それらのデータの特徴を要約して記述する必要があります。記述する際には、言葉と同様に、図や表などを用いることができます。
カテゴリカルデータ(名義データ、順序データともに)はカテゴリーに名称をつけて記述できます。たとえば、生存者と死者を例に挙げると、患者1,000人中820人(82%)が生存し180人(18%)が死亡した、というように各カテゴリーの患者数や割合で記述できます。
一方で、連続分布を要約するには、少なくとも中心傾向の尺度とばらつき(散らばり)の尺度という2つの尺度が必要となります。中心傾向の尺度は、連続体上でのデータが集まりやすい場所を示し、ばらつきの尺度は、連続体上でのデータの広がりを表します。
中心傾向の尺度には、平均値(算術平均)、中央値、最頻値の3つが最もよく用いられます(図2)。平均値は、データの総和をデータ数で単純に割った値です。中央値は、データを大きい順に並べたときに中央に位置する値を示します。そのため、分布の50パーセント点(パーセンタイル)ともいわれます。最頻値はデータの中で最も頻度が高い値です。データの分布が複数のピークをもち、二峰型あるいは多峰型の分布となる場合によく用いられますが、その場合はそれぞれのピークが最頻値となります。
図2 非正規分布(または歪曲分布)でよく用いられる3つの中心傾向の尺度 最頻値は最も頻度が高い値、中央値はデータの分布の上位50%と下位50%とを分ける値、平均値はデータの総和をデータ数で単純に割った値をそれぞれ指す。上側(右側)に外れ値がある分布では平均値は右に引っ張られ、右方向に裾が長く伸びた分布を示すことから「右に歪んだ(分布)」といわれる。
データのばらつきの尺度には、範囲、パーセンタイル値間の範囲(通常は四分位範囲)、分散、標準偏差の4つが最もよく用いられます。範囲とは最小値と最大値との差のことですが、最小値と最大値を報告することで範囲を示すことが多いです。たとえば、10~15スコアの範囲は5ですが、「スコアの範囲は10~15だった」と記述します。最小値と最大値は測定尺度上で固定されますが、単に範囲だけではデータが尺度上のどこに位置するのかを表しません。1005~1010スコアの範囲は上述と同様に5ですが、尺度上では10~15とはまったく違う場所に位置します。 四分位範囲(IQR)はパーセンタイル値間の範囲のうちで最もよく使われる尺度です(図3)。IQRは25パーセント点と75パーセント点との差のことで、観察値(データ点)を均等に4分割、つまり四分位に分けています。第2四分位と第3四分位の間にある50パーセント点が中央値です。IQRは25パーセント点と75パーセント点との差ですが、実際には、両者の範囲ではなく両者の値そのものが報告されることが多いです。
図3 四分位範囲(IQR) 上段と中央の図では最小値と最大値はほぼ同じであるが、分布が明らかに異なる。上段のデータは中央のデータに比べて分散しており、この違いは25パーセント点と75パーセント点の値に反映されている。四分位範囲は、実際には25パーセント点と75パーセント点との差だが、一般的にはこれらのパーセント点の値で報告されることが多いことを忘れてはいけない。
分散、標準偏差については説明がやや難しいため、ここでは簡単な解説にとどめます。 分散は、それぞれのデータの値と分布の平均の差を2乗し(正数にするため)、その2乗の総和をデータ数で割る(平均する)ことで求められます。分散が報告されることはあまりありませんが、分散という用語は記述に用いられます。たとえば、「これらの群は分散がほぼ同じだった」とは、データの散らばりが両群間でほぼ同じだったことを意味しており、また、「対照群に比べて治療群では分散がかなり大きかった」とは、対照群に比べて治療群でデータが広範囲に分布していたことを意味します。
技術的には、標準偏差(SD)はデータの分散の平方根と定義されます。データが正規分布である場合、標準偏差は特別な性質をもつため重要です。正規分布のデータをグラフで表すと左右対称の釣り鐘型、つまり「ガウス(Gaussian)曲線」を示します。正規分布では中心傾向が等しくなり、平均値と中央値と最頻値が等しくなります。また、正規分布では「曲線下面積」(2つの値の間にあるデータ点の数)を標準偏差の単位で表すこともできます。正規分布では、値の約68%が平均値の両側1標準偏差内に、95%が2標準偏差内に、99%が3標準偏差内に入ります(図4)。曲線の形が長くて平ら、あるいは短くて尖っているなど、データの散らばりに関係なく、どの正規分布でもこれらの割合となります。
図4 標準偏差の単位で表した正規分布の「曲線下面積」 正規分布では平均値と中央値、最頻値が等しくなり、SD値ゼロに相当する。どのSDについても面積を求めることができる。SD値=1.3とは、全体の90%より大きく、10%より小さいことを意味しており、SD値が-0. 6とは全体の27%より大きく、73%より小さいことを意味する。
たとえば、サイズが異なる2つの群を比較する場合、通常、共通の尺度として割合(パーセンテージ)を求めなければなりません。生存者が治療群で60人中40人、対照群では100人中50人である場合、母集団の観察数が異なるために40人と50人を直接比較することはできません。そこで、40人と50人をパーセンテージに変換すると、治療群は66%、対照群は50%の生存率だったといえます。生存者の絶対数は治療群に比べて対照群のほうが多いですが、治療群では対照群に比べて相対的に生存者が多いということになります。
同様に、異なる分布を示すスコアも、スコアを標準偏差の単位に変換することで比較できるようになります。スコアが平均値に等しい場合は標準偏差(SD)値ゼロに相当し、半数はこの値より小さく、残りの半数はこの値より大きくなります。平均より1 SD上回るスコアは、全体の約84%(50%+34%)よりも大きく、約16%(50%ー34%)よりも小さくなり、一方で、平均を1 SD下回る(-1 SD)スコアは全体の約16%よりも大きく、約84%よりも小さくなります。
たとえば、ボブが生物のテストで100点中90点を、マリアが統計のテストで100点中80点を取ったとします。2つのテストは科目が異なり、テストの得点の分布も異なるので、90点と80点を直接比べることはできません。そこで、これらの2つの得点を標準偏差で表すと、ボブの90点は平均を2 SD上回り、マリアの80点は平均を3 SD上回っていました。そのため、ボブはクラスメートの約97.5%より成績が良かったのに対し、マリアは約99.9%より良い成績であることが分かりました。この結果、得点の値はボブに比べてマリアが低いですが、マリアのほうが相対的に成績が良いことが分かります。
1つ重要なことは、SDはデータが正規分布の場合のみ割合を示せるということです。正規分布では平均値やSDで適切に要約できますが、その他の分布ではできません。歪んだデータや不規則な形状を示す分布を記述するには、特に中央値やIQR、場合によっては範囲や最頻値も併せて記述する必要があります(図5)。
図5 記述統計量のサマリー a)収集された順に並べたデータ。
b)このデータをグラフ化すると最小値と最大値が明らかになり、分布の中心に位置する値のクラスター(集団)が示される。
c)データを順番に並べ、中央値、四分位範囲、標準偏差を示す。50パーセント点に相当する中央値は79と80の間に位置するため79.5となる。25パーセント点と75パーセント点はそれぞれ74、84であり、数値の約68%(ここでは50データ点のうち34)を含む平均値(79.1)の両側1SDは71.4と86.8で区切られる。
d)50データ点の標準的な記述統計量
生物医学研究ではSDがよく用いられますが、SDには利点も欠点もあります。SDは数多くの統計的手法や計算が基礎にあり、さまざまな概念を伝えるのに有用ですが、生物学的なデータのほとんどは正規分布を示さないため、中央値やIQRで記述すべきです。論文の著者の多くは、データが正規分布であるか否かにかかわらず、平均値やSDで記述しがちですが、この方法は正確ではなく、多くの専門家もそれに反対しています。実際に、医学文献で最も多くみられる統計報告での誤りがSDなのです。

参考文献

1)Rowntree D. Statistics Without Tears: An Introduction for Non-Mathematicians. London: Penguin Books, 2000
2)Lang TA, Secic M. How to Report Statistics in Medicine: Annotated Guidelines for Authors, Editors, and Reviewers. Philadelphia: American College of Physicians, 1997. Reprinted in English for distribution within China, 1998. Chinese translation, 2001. Second edition, 2006. Japanese translation, 2011; Russian translation, 2013.