株式会社アスカコーポレーション - 医薬翻訳・英文校正・メディカルライティング ・通訳

ASCA

 第23回 診断精度の指標とROC

 

今回は、核医学のテーマではなく、検査結果に基づいて患者がある疾患かそうでないかを鑑別する際の、検査の診断精度の指標について説明します。とくに検査結果が数値やスコアで得られる場合はROCと呼ばれる手法が用いられます。ROCはあらゆる医学研究で用いられる基本的な手法ですが、核医学の文献ではきわめて頻繁に登場します。

ある病気の可能性がある一群の患者に対して検査を行い、ある基準(判定基準)に基づいて、その病気と考えられるか(検査陽性)、そうでないか(検査陰性)を診断するとします(注1)。さらに各患者が本当にその病気かそうでないか、何らかの方法で正解を突き止めます(正解を参照基準データなどといいます)。検査結果と正解によって、下表の二重線の枠内のように患者を分類します。

 

 

本当はその病気

本当はその病気でない

 

 

検査陽性

真陽性

偽陽性

陽性数

 陽性適中率=
 真陽性数/陽性数

 陽性率=
 陽性数/総数

検査陰性

偽陰性

真陰性

陰性数

 陰性適中率=
 真陰性数/陰性数

病者数

非病者数

総数

 

 

 

 感度=
 真陽性数/病者数

 特異度=
 真陰性数/非病者数

 

 正診率=
(真陽性数+真陰性数)/総数

 

 

 有病率=病者数/総数

 

 

 

 

表:検査結果と正解との関係。黄色は診断精度として通常用いられる5つの指標。
青は診断精度の指標ではないが、データを解釈する上で重要な指標。
 

真陽性は検査で正しく陽性であった人、真陰性は正しく陰性であった人、偽陽性は誤って陽性であった人(見過ぎ)、偽陰性は誤って陰性であった人(見落とし)です。これらに基づいて、感度、特異度、陽性適中率、陰性適中率、正診率という5つの診断精度の指標が計算されます(注2)。感度とは病者を正しく陽性と言えた割合、特異度とは非病者を正しく陰性と言えた割合、陽性適中率とは陽性者が正しく病気であった割合、陰性適中率とは陰性者が正しく非病気であった割合、正診率とは総数のうち正しかった割合です。感度が高ければ見落としが少なく、特異度が高ければ見過ぎが少ない検査であるといえます。また、陽性適中率の高い検査で陽性と出ればその病気である可能性がきわめて高く、陰性適中率の高い検査で陰性と出ればその病気はほぼ否定できます(注3)。

核医学では、検査の結果が数値で出ることが多いので、判定基準としてある値(カットオフ値、閾値)を設け、カットオフ値以上なら陽性、未満なら陰性と判定します(注4)(上下が逆になる場合もあります)。カットオフ値を低く設定すれば感度が高く特異度が低くなり(見過ぎが増えるが見落としが減る)、カットオフ値を高く設定すれば感度が低く特異度が高くなります。カットオフ値を非常に低いところ(感度=1、特異度=0)から始めて順に高くしてゆき、非常に高いところまで(感度=0、特異度=1)まで変化させ、感度と特異度がどのように変わるかをグラフに表したものを、ROC(receiver operating characteristic)曲線といいます(下図)。ROCは右上と左下を結ぶ折れ線で、ROCの下の面積(AUC:area under curve)が大きいほど診断精度の高い検査であるといえます(注5)。もし百発百中の検査なら左上隅の点(感度=特異度=1)を通ります。また、もし全く診断情報を与えない検査なら対角線となります。

 

 

2.jpg

 

図:左の図は、「その病気」と「その病気でない」(非病気)の患者群それぞれにおける、検査AとBの値の分布。検査Aのほうがよりよく鑑別診断できる。右は、このデータから作成されたROC曲線で、検査Aのほうが検査Bよりも左上に位置し、曲線下面積も大きい。
 

実際の診断においてカットオフ値をいくらにするのがよいかは、かなり難しい問題で、医療の場においてどのような場合にその検査が実施されるかを考慮する必要があります。一般には、誤診した場合の病気の悪化、検査や治療の副作用や費用といった損害を考慮して決めます。たとえば、スクリーニング的に行う検査であってもし陽性なら精密検査に進む予定であれば、見過ぎた場合に不必要な精密検査をする損害よりも、見落とした場合に患者が来なくなって手遅れになる損害のほうが大きいと考えて、カットオフ値を下げることによって、特異度を下げても感度を上げるようにすることが多いです。一方、治療を開始するための検査では、見過ぎによって不必要な手術や投薬をする損害がむしろ大きく、見落としても経過観察すれば手遅れにならないと考えて、カットオフ値を上げることによって、感度を下げても特異度を上げるようにすることが多いようです。後で述べる有病率を考慮して、陽性適中率と陰性適中率から誤診による損害を推定する方法もあります。なお、感度と特異度の両方を同程度に重視する場合には、カットオフ値の決め方として、「感度+特異度」が最大になる(ROCで最も左上に位置する)点を採用する方法がよく用いられます。また、(1?感度)+(1?特異度)が最小になる(左上隅から最も近い)点も用いられます。

診断精度を評価するうえで忘れてはならないのは、対象者がどのように選ばれているかです。「病者」であれ「非病者」であれ典型例ばかりならば診断しやすく、当然感度も特異度も高くなると考えられるからです。しかしそのような症例は検査するまでもなく診断がつくので、検査が依頼されないかもしれません(注6)。文献に記載されている感度や特異度やROCを比較する際には、対象者の選択基準を見きわめる必要があります。

診断精度の評価にあたっては、有病率(prevalence)すなわち対象者のうち真にその病気の人が何%いるかも重要です(上の表)。有病率も、対象者をどのように決めるか、すなわちどのような患者が何の目的でその検査を受けるかによって変わります(注6)。陽性適中率や陰性適中率は、感度や特異度が同じでも有病率によって大きく影響を受け、有病率が高い場合には陽性適中率が高くなり、有病率が低い場合には陽性適中率が低くなります(注7)。たとえば、同じFDG-PET検査でFDGの異常集積が見られても、がんの手術後腫瘍マーカーが上昇した患者であれば再発の可能性がきわめて大きいですが、がん検診を受診した健康な人であればそれが癌である可能性は意外に低いものです。

医学研究によっては、はじめに対象者を決めるのではなくて、まず正解を調べて「病気」の人と「非病気」の人をそれぞれたとえば20人ずつ選び出し、それからカルテを取り出して検査結果を調べる(または改めて各患者に検査を実施する)という方式で研究がなされることがあります。このようなやりかたをケースコントロールスタディといい、「病者」と「非病者」の割合がアンバランスにならない利点があり、とくに珍しい病気を調査研究する場合に有用です。しかし有病率がいくらになるか、データからはわかりません。また対象者を選び出すときに、バイアスがかかる危険が大きくなります(注8)。

最後に診断精度のデータを見る上で忘れてはならない点を再確認します。第一に、対象者の選択にバイアスがかかっていないか? 典型的な例ばかり選んでいないか? 第二に、正解はどのようにして得たか? 手術か? 経過観察ならその期間は? 精密検査ならどのような検査か? それで正解がわかるか?
 

注1) たとえば、肺に陰影のある患者に対してFDGによるPET検査を行い悪性か良性かを鑑別する。あるいは、物忘れを訴える患者がアルツハイマー病か、そうではなくて別の疾患または年齢相応か、鑑別するために脳血流SPECT検査を行う、といったケースです。

注2) 英語では以下のように言います。真陽性(true positive, TP)、真陰性(true negative, TN)、偽陽性(false positive, FP)、偽陰性(false negative, FN)。診断精度の指標は、感度(sensitivity)、特異度(specificity)、陽性適中率(positive predictive value, PPV)、陰性適中率(negative predictive value, NPV)、正診率(accuracy)。なお、accuracyという言葉は、これら5つの指標を総称した診断精度(diagnostic accuracy)という意味でも用いられるので注意が必要です。

注3) 尤度(ゆうど)比(likelihood ratio)も診断精度の指標として用いられます。尤度比は感度と特異度を組み合わせた指標です。

陽性尤度比=感度/(1?特異度)=(真陽性数/病者数)/(偽陽性数/非病者数)。
陰性尤度比=(1?感度)/特異度=(偽陰性数/病者数)/(真陰性数/非病者数)。

さらに、オッズ比やリスク比(相対リスク)も用いられます。

オッズ比=陽性尤度比/陰性尤度比=(真陽性数/偽陰性数)/(偽陽性数/真陰性数)。
(陽性の)リスク比あるいは相対リスク=陽性適中率/(1?陰性適中率)。

注4) たとえば、FDG-PETによる肺陰影の良悪鑑別では、病変へのFDG集積をSUV値あるいは参照領域との比で表すことによって、検査結果が数値化されます。アルツハイマー病の診断のための脳SPECT検査では、統計画像解析(本シリーズ第22回参照)にて、アルツハイマー病で通常低下する部位におけるZ値を計算することによって、検査結果が数値化されます。また、数値化せずに医師が視覚的に読影判定する場合でも、結果をスコアで5?1の5段階評価(強く疑われる、疑われる、どちらともいえない、どちらかといえば否定的である、否定的である)すれば、同様の扱いができます。なお、これらの数値やスコアは、値が1増えればつねに病気の可能性も同じだけ増える(ように数値化されている)必要はありません。

注5) ROCの下の面積(AUC)は、「病気」の患者群から1人、「非病気」の患者群から1人、それぞれランダムに選んだとき、「病気」の人の検査値が「非病気」の人の検査値よりも大きくなる確率に等しくなります。百発百中ならAUC=1, 対角線ならAUC=0.5です。

注6) 物忘れを訴える患者がアルツハイマー病かどうかを脳SPECT検査で診断する場合には、そもそも、まずどの程度の物忘れ患者が医師を受診するかを考える必要があります。次に、神経内科や精神科の医師が診察して明らかにアルツハイマー病または明らかに正常なら普通は脳SPECT検査が依頼されないと考えられますが、「念のために」依頼されることがあるかもしれません。このほか、その検査がその病院でできるか、すぐにできるか、さらには患者の費用負担がいくらになるか、といった医学以外の要素も検査が依頼されるかどうかに影響します。また、診療でなく研究として検査を行う場合には、対象者は研究への参加に応じ同意が得られる患者に限られます。アルツハイマー病は正解を突き止めることが難しいので、対象者中に真のアルツハイマー病がどれだけいるかは常に難しい問題です。

注7) 陽性適中率=有病率×感度/陽性率です。また、陽性率=有病率×感度+(1?有病率)×(1?特異度)です。たとえば、感度が90%、特異度が80%の検査でも、有病率が50%なら陽性適中率は82%ですが、有病率が1%なら陽性適中率は4%に過ぎません。この関係は数学では「ベイズの定理」と呼ばれます。ベイズの定理では、有病率は事前確率、陽性適中率は事後確率と呼ばれ、検査前には病気である確率=有病率だったのが、検査後陽性であることがわかった後は、病気である確率=陽性適中率にまで上昇することを言っています。同じ内容をオッズ(病気ありなしの比)で表現すると、検査前オッズ=有病率/(1?有病率)、検査陽性後オッズ=陽性適中率/(1?陽性適中率)、と定義して、検査陽性後オッズ=検査前オッズ×陽性尤度比、となります。

注8) 感度、特異度、尤度比、オッズ比、ROC(AUC)は、有病率に依存しません。したがって、ケースコントロールスタディでも使われますが、対象者の選択基準とバイアスには十分気をつける必要があります。