[Medical Data Science 100 : S1] 平均値と中央値、臨床研究で本当に使うべきはどっち?外れ値に惑わされないデータ分析の第一歩

学習のポイント

データの「真ん中」を示す代表値には個性があります。外れ値に弱い「平均値」と、それに強い「中央値」の違いを理解し、状況に応じて正しく使い分けることがデータ読解の鍵です。

🗳️ 平均値 (Mean)
全員参加の民主的リーダー

全てのデータを足してデータの個数で割った値です。全員の情報を反映する公平さがありますが、極端な値(外れ値)が一つでもあると、その値に大きく引っ張られてしまう弱点があります。

🧘 中央値 (Median)
動じない冷静沈着なリーダー

データを大きさ順に並べたときの、ちょうど真ん中の値です。計算に値の大きさではなく「順位」を使うため、外れ値の影響を受けない安定感(頑健さ)が最大の強みです。

🎯 使い分けのポイント
データの分布の形で判断する

・左右対称の分布: 平均値が適任
・歪んだ分布 / 外れ値あり: 中央値がより実態を反映


臨床現場で日々集まるたくさんのデータ。患者さんの年齢、血圧、入院日数…。これらのデータをまとめる時、私たちは当たり前のように「平均値」を使いますよね。でも、ちょっと待ってください。その「平均値」、本当にデータの「真ん中」を正しく表しているでしょうか?

「うちの病棟の患者さんの平均年齢は55歳です」と報告したけど、実際には20代の若い患者さんと80代の高齢の患者さんが多くて、50代の人はほとんどいない…。そんな経験、ありませんか?

実は、データの集まりには「個性」があって、その個性に合わないまとめ方をしてしまうと、データが持つ本当のメッセージを見誤ってしまうことがあるんです。特に、一人だけ飛び抜けた値を持つ患者さん(外れ値)がいると、人気者の「平均値」くんは、その一人にぐーっと引っ張られてしまう、ちょっとお調子者な一面を持っています。

そこで今回のヒーローとして登場するのが、どんな時も動じない縁の下の力持ち、「中央値」さんです。この記事を読み終わる頃には、この二人のキャラクターの違いが手に取るようにわかり、あなたのデータを見る目がガラッと変わるはずです。さあ、データが語る本当の物語を読み解く冒険に出かけましょう!


目次

そもそも「代表値」って何?データのキャプテンを探せ!

たくさんの数字の集まり(データ)を前にした時、まず知りたくなるのは「全体として、どんな感じなの?」ということですよね。例えば、ある治療薬を投与した患者さん10人の回復日数のデータがあったとします。

5日, 6日, 7日, 7日, 8日, 9日, 10日, 11日, 12日, 50日

この10個の数字を全部ながめても、パッと特徴は掴みにくい。そこで、このデータ群の「キャプテン」として、全体を代表するような一つの値を選びたくなります。このキャプテンこそが「代表値」です。代表値は、データ群の真ん中、つまり「中心傾向」を示す指標として使われます。

代表値にはいくつか種類がありますが、最も有名なのが次の3人です。

  • 平均値 (Mean): 全員参加で決める、最も民主的なリーダー。
  • 中央値 (Median): 順位のど真ん中にいる、冷静沈着なリーダー。
  • 最頻値 (Mode): 最も多くの票を集めた、人気者のリーダー。

今回は、この中でも特に臨床現場でよく使われ、そして混同されがちな「平均値」と「中央値」の二人に焦点を当てていきます。


みんなの人気者「平均値」くん。でも、弱点もある?

平均値は、おそらく私たちが最も慣れ親しんでいる代表値でしょう。計算方法はとてもシンプル。全てのデータを足し合わせて、データの個数で割るだけです。

数学の世界では、平均値は \( \bar{x} \) (エックスバーと読みます) という記号で表されることが多いです。式で書くと、こんな感じになります。

\[ \bar{x} = \frac{x_1 + x_2 + \cdots + x_n}{n} = \frac{1}{n} \sum_{i=1}^{n} x_i \]

少し難しく見えるかもしれませんが、やっていることは単純です。

  • \(x_1, x_2, \cdots, x_n\) は、それぞれのデータ(1番目の人のデータ、2番目の人のデータ…n番目の人のデータ)を表します。
  • \(n\) は、データの総数です。
  • \(\sum\) (シグマ) という記号は、「全部足し合わせる」という意味です。

つまり、この式は「n個のデータを全部足して、nで割りなさい」という命令文なんです。

平均値の素晴らしいところは、全てのデータが計算に含まれること。一人ひとりの声を無視しない、とても公平な指標と言えます。しかし、ここに落とし穴があります。極端に大きい、または小さい値(外れ値)があると、その声が大きすぎて全体の意見を歪めてしまうことがあるんです。

先ほどの回復日数のデータで平均値を計算してみましょう。

5, 6, 7, 7, 8, 9, 10, 11, 12, 50

\[ \bar{x} = \frac{5+6+7+7+8+9+10+11+12+50}{10} = \frac{125}{10} = 12.5 \text{日} \]

平均回復日数は「12.5日」。でも、データを見てください。10人中9人が12日以内に回復しているのに、たった一人、回復に50日かかった患者さんがいるだけで、平均値がぐっと右に引っ張られています。この「12.5日」は、このグループの「真ん中」として、少し違和感がありませんか?これが平均値くんの弱点なんです。


縁の下の力持ち「中央値」さん。外れ値に動じない安定感

ここで登場するのが、我らがヒーロー「中央値」です。中央値の決め方は、もっとシンプル。

  1. まず、全てのデータを小さい順(または大きい順)に並べます。
  2. そして、ちょうど真ん中の順位にいる人の値を探します。それが中央値です。

データの個数が奇数の場合は、真ん中の順位は一つに決まります。もし個数が偶数の場合は、真ん中に来る二つの値の平均を取るのが一般的です。

さっきの回復日数のデータで中央値を探してみましょう。

5, 6, 7, 7, 8, 9, 10, 11, 12, 50

データは10個(偶数)なので、真ん中に来るのは5番目の「8」と6番目の「9」です。この二つの平均を取るので、

\[ \text{中央値} = \frac{8 + 9}{2} = 8.5 \text{日} \]

中央値は「8.5日」となりました。どうでしょう?平均値の「12.5日」よりも、ずっと実感に近い「真ん中」の値だと思いませんか?

中央値の最大の強みは、この外れ値に対する頑健さ(ロバストネス)です。たとえ最後の患者さんの回復日数が50日ではなく、100日や200日だったとしても、順位の真ん中にいるメンバーは変わらないので、中央値は「8.5日」のままです。このブレない安定感が、中央値さんの最大の魅力なんです。


実践!平均値と中央値、どう使い分ける?【臨床シナリオ別】

では、実際の臨床研究やデータ分析の現場で、私たちはこの二人をどう使い分ければ良いのでしょうか。答えは、「データの分布の形を見る」ことにあります。

データの分布をグラフ(ヒストグラム)にしたとき、きれいな左右対称の山形(正規分布など)になっていれば、平均値と中央値はほぼ同じ値になります。こういう時は、全てのデータ情報を活用できる平均値を使うのが良いでしょう。

一方で、分布が左右どちらかに歪んでいたり、外れ値があったりする場合は、中央値がデータの中心をより正直に表してくれます。

具体的な使い分けを、表にまとめてみました。

状況推奨される代表値具体的な臨床シナリオ理由
データが左右対称に近い
(正規分布など)
平均値健常者の身長、体重、血圧など、極端な値が出にくいデータ全てのデータ情報を無駄なく活用でき、統計的検定(t検定など)にも応用しやすいからです。
データが歪んでいる / 外れ値がある中央値患者の入院日数生存期間、検査値(血中薬物濃度など)、病院の待ち時間など一部の長期入院患者や特異体質の人、予期せぬトラブルなどの「外れ値」に結果が左右されず、集団の典型的な姿を捉えやすいからです。

論文を読むときも、ぜひ注意してみてください。特に生存期間や入院日数といったデータで、平均値だけがポンと書かれていたら、「待てよ、このデータは歪んでいるんじゃないか?中央値も確認したいな」と考える癖をつけると、研究結果をより深く、批判的に吟味できるようになります。実際に、質の高い医学雑誌への投稿を推奨する多くのガイドラインでは、歪んだ分布のデータに対しては中央値と四分位範囲を報告することを推奨しています (Altman et al., 1983)。

実践!平均値と中央値、どう使い分ける? 【臨床シナリオ別】 答えは、「データの分布の形を見る」ことにあります。 データが左右対称に近い 平均値≒中央値 推奨される代表値: 平均値 🧑‍🤝‍🧑 具体的な臨床シナリオ
健常者の身長、体重、血圧など、極端な値が出にくいデータ。
理由
全てのデータ情報を無駄なく活用でき、統計的検定(t検定など)にも応用しやすいため。
データが歪んでいる / 外れ値がある 中央値 平均値 推奨される代表値: 中央値 🏥 具体的な臨床シナリオ
患者の入院日数、生存期間、病院の待ち時間など、外れ値が出やすいデータ。
🛡️ 理由
一部の極端な「外れ値」に結果が左右されず、集団の典型的な姿を捉えやすいため。
🧐 論文を読むときのポイント
特に生存期間や入院日数といったデータで平均値だけが書かれていたら、「待てよ、このデータは歪んでいるんじゃないか?中央値も確認したいな」と考える癖をつけると、研究結果をより深く、批判的に吟味できるようになります。

まとめ:データの「個性」を見抜いて、最適なキャプテンを選ぼう

今回は、データの中心を示す「代表値」の中でも、特に重要な平均値と中央値について深掘りしてみました。

  • 平均値は、全てのデータを公平に扱う民主的なリーダー。でも、外れ値という声の大きい人に引っ張られやすい。
  • 中央値は、順位の真ん中をどっしり守る冷静なリーダー。外れ値があっても動じない安定感が魅力。

どちらが優れている、というわけではありません。彼らにはそれぞれ得意な場面と苦手な場面があるんです。私たちの仕事は、目の前のデータというチームの「個性」(分布の形や外れ値の有無)をしっかりと観察し、そのチームを代表するのに最もふさわしいキャプテンを選んであげること。

この視点を持つだけで、データから得られる情報の質は格段に上がります。統計学は、決して難しい数式の暗記ではありません。データたちの声に耳を傾け、その物語を正しく翻訳してあげるための、強力な「言語」なんです。

さて、今回はデータの「真ん中」について考えましたが、真ん中が分かっても、データがどのくらい散らばっているのかは分かりませんよね。次回は、その「ばらつき」を表現する分散や標準偏差について、また一緒に学んでいきましょう!

参考文献

  • Altman, D. G. (1990). Practical statistics for medical research. CRC Press.
  • Altman, D. G., Gore, S. M., Gardner, M. J., & Pocock, S. J. (1983). Statistical guidelines for contributors to medical journals. BMJ (Clinical research ed.), 286(6376), 1489–1493.
  • Bland, M. (2015). An introduction to medical statistics (4th ed.). Oxford University Press.
  • Bland, J. M., & Altman, D. G. (1996). Statistics notes: Transforming data. BMJ, 312(7033), 770.
  • Bland, J. M., & Altman, D. G. (1999). Measuring skewness in data. BMJ, 308, 896.
  • Campbell, M. J., Machin, D., Walters, S. J. (2007). Medical statistics: A textbook for the health sciences (4th ed.). Wiley.
  • Kirkwood, B. R., & Sterne, J. A. C. (2003). Essential medical statistics (2nd ed.). Blackwell Science.
  • Norman, G., & Streiner, D. (2014). Biostatistics: The bare essentials (4th ed.). PMPH-USA.
  • Pocock, S. J. (1983). Clinical trials: A practical approach. Wiley.
  • Royston, P., & Altman, D. G. (2013). External validation of a Cox prognostic model: Principles and methods. BMC Medical Research Methodology, 13, 33.
  • Sheskin, D. J. (2020). Handbook of parametric and nonparametric statistical procedures (6th ed.). CRC Press.
  • Swinscow, T. D. V., & Campbell, M. J. (2002). Statistics at square one (10th ed.). BMJ Books.
  • Tukey, J. W. (1977). Exploratory data analysis. Addison-Wesley.
  • Vittinghoff, E., Glidden, D. V., Shiboski, S. C., & McCulloch, C. E. (2012). Regression methods in biostatistics: Linear, logistic, survival, and repeated measures models (2nd ed.). Springer.

ご利用規約(免責事項)

当サイト(以下「本サイト」といいます)をご利用になる前に、本ご利用規約(以下「本規約」といいます)をよくお読みください。本サイトを利用された時点で、利用者は本規約の全ての条項に同意したものとみなします。

第1条(目的と情報の性質)

  1. 本サイトは、医療分野におけるAI技術に関する一般的な情報提供および技術的な学習機会の提供を唯一の目的とします。
  2. 本サイトで提供されるすべてのコンテンツ(文章、図表、コード、データセットの紹介等を含みますが、これらに限定されません)は、一般的な学習参考用であり、いかなる場合も医学的な助言、診断、治療、またはこれらに準ずる行為(以下「医行為等」といいます)を提供するものではありません。
  3. 本サイトのコンテンツは、特定の製品、技術、または治療法の有効性、安全性を保証、推奨、または広告・販売促進するものではありません。紹介する技術には研究開発段階のものが含まれており、その臨床応用には、さらなる研究と国内外の規制当局による正式な承認が別途必要です。
  4. 本サイトは、情報提供を目的としたものであり、特定の治療法を推奨するものではありません。健康に関するご懸念やご相談は、必ず専門の医療機関にご相談ください。

第2条(法令等の遵守)
利用者は、本サイトの利用にあたり、医師法、医薬品、医療機器等の品質、有効性及び安全性の確保等に関する法律(薬機法)、個人情報の保護に関する法律、医療法、医療広告ガイドライン、その他関連する国内外の全ての法令、条例、規則、および各省庁・学会等が定める最新のガイドライン等を、自らの責任において遵守するものとします。これらの適用判断についても、利用者が自ら関係各所に確認するものとし、本サイトは一切の責任を負いません。

第3条(医療行為における責任)

  1. 本サイトで紹介するAI技術・手法は、あくまで研究段階の技術的解説であり、実際の臨床現場での診断・治療を代替、補助、または推奨するものでは一切ありません。
  2. 医行為等に関する最終的な判断、決定、およびそれに伴う一切の責任は、必ず法律上その資格を認められた医療専門家(医師、歯科医師等)が負うものとします。AIによる出力を、資格を有する専門家による独立した検証および判断を経ずに利用することを固く禁じます。
  3. 本サイトの情報に基づくいかなる行為によって利用者または第三者に損害が生じた場合も、本サイト運営者は一切の責任を負いません。実際の臨床判断に際しては、必ず担当の医療専門家にご相談ください。本サイトの利用によって、利用者と本サイト運営者の間に、医師と患者の関係、またはその他いかなる専門的な関係も成立するものではありません。

第4条(情報の正確性・完全性・有用性)

  1. 本サイトは、掲載する情報(数値、事例、ソースコード、ライブラリのバージョン等)の正確性、完全性、網羅性、有用性、特定目的への適合性、その他一切の事項について、何ら保証するものではありません。
  2. 掲載情報は執筆時点のものであり、予告なく変更または削除されることがあります。また、技術の進展、ライブラリの更新等により、情報は古くなる可能性があります。利用者は、必ず自身で公式ドキュメント等の最新情報を確認し、自らの責任で情報を利用するものとします。

第5条(AI生成コンテンツに関する注意事項)
本サイトのコンテンツには、AIによる提案を基に作成された部分が含まれる場合がありますが、公開にあたっては人間による監修・編集を経ています。利用者が生成AI等を用いる際は、ハルシネーション(事実に基づかない情報の生成)やバイアスのリスクが内在することを十分に理解し、その出力を鵜呑みにすることなく、必ず専門家による検証を行うものとします。

第6条(知的財産権)

  1. 本サイトを構成するすべてのコンテンツに関する著作権、商標権、その他一切の知的財産権は、本サイト運営者または正当な権利を有する第三者に帰属します。
  2. 本サイトのコンテンツを引用、転載、複製、改変、その他の二次利用を行う場合は、著作権法その他関連法規を遵守し、必ず出典を明記するとともに、権利者の許諾を得るなど、適切な手続きを自らの責任で行うものとします。

第7条(プライバシー・倫理)
本サイトで紹介または言及されるデータセット等を利用する場合、利用者は当該データセットに付随するライセンス条件および研究倫理指針を厳格に遵守し、個人情報の匿名化や同意取得の確認など、適用される法規制に基づき必要とされるすべての措置を、自らの責任において講じるものとします。

第8条(利用環境)
本サイトで紹介するソースコードやライブラリは、執筆時点で特定のバージョンおよび実行環境(OS、ハードウェア、依存パッケージ等)を前提としています。利用者の環境における動作を保証するものではなく、互換性の問題等に起因するいかなる不利益・損害についても、本サイト運営者は責任を負いません。

第9条(免責事項)

  1. 本サイト運営者は、利用者が本サイトを利用したこと、または利用できなかったことによって生じる一切の損害(直接損害、間接損害、付随的損害、特別損害、懲罰的損害、逸失利益、データの消失、プログラムの毀損等を含みますが、これらに限定されません)について、その原因の如何を問わず、一切の法的責任を負わないものとします。
  2. 本サイトの利用は、学習および研究目的に限定されるものとし、それ以外の目的での利用はご遠慮ください。
  3. 本サイトの利用に関連して、利用者と第三者との間で紛争が生じた場合、利用者は自らの費用と責任においてこれを解決するものとし、本サイト運営者に一切の迷惑または損害を与えないものとします。
  4. 本サイト運営者は、いつでも予告なく本サイトの運営を中断、中止、または内容を変更できるものとし、これによって利用者に生じたいかなる損害についても責任を負いません。

第10条(規約の変更)
本サイト運営者は、必要と判断した場合、利用者の承諾を得ることなく、いつでも本規約を変更することができます。変更後の規約は、本サイト上に掲載された時点で効力を生じるものとし、利用者は変更後の規約に拘束されるものとします。

第11条(準拠法および合意管轄)
本規約の解釈にあたっては、日本法を準拠法とします。本サイトの利用および本規約に関連して生じる一切の紛争については、東京地方裁判所を第一審の専属的合意管轄裁判所とします。


For J³, may joy follow you.

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

この記事を書いた人

医師・医学博士・AI研究者・連続起業家
元厚生労働省幹部・ハーバード大学理学修士・ケンブリッジ大学MBA・コロンビア大学行政修士(経済)
岡山大学医学部卒業後、内科・地域医療に従事。厚生労働省で複数室長(医療情報・救急災害・国際展開等)を歴任し、内閣官房・内閣府・文部科学省でも医療政策に携わる。
退官後は、日本大手IT企業や英国VCで新規事業開発・投資を担当し、複数の医療スタートアップを創業。現在は医療AI・デジタル医療機器の開発に取り組むとともに、東京都港区で内科クリニックを開業。
複数大学で教授として教育・研究活動に従事し、医療関係者向け医療AIラボ「Medical AI Nexus」、医療メディア「The Health Choice | 健康の選択」を主宰。
ケンブリッジ大学Associate・社会医学系指導医・専門医・The Royal Society of Medicine Fellow

目次