分布関数と確率密度の違いを初心者でも理解できる完全ガイド

この記事を書いた人

小林聡美

名前：小林聡美（こばやしさとみ）ニックネーム：さと・さとみん年齢：25歳性別：女性職業：季節・暮らし系ブログを運営するブロガー／たまにライター業も受注居住地：東京都杉並区・阿佐ヶ谷の1Kアパート（築15年・駅徒歩7分）出身地：長野県松本市（自然と山に囲まれた町で育つ）身長：158cm 血液型：A型誕生日：1999年5月12日趣味：・カフェで執筆＆読書（特にエッセイと季節の暮らし本）・季節の写真を撮ること（桜・紅葉・初雪など）・和菓子＆お茶めぐり・街歩きと神社巡り・レトロ雑貨収集・Netflixで癒し系ドラマ鑑賞性格：落ち着いていると言われるが、心の中は好奇心旺盛。丁寧でコツコツ型、感性豊か。慎重派だけどやると決めたことはとことん追求するタイプ。ちょっと天然で方向音痴。ひとり時間が好きだが、人の話を聞くのも得意。 1日のタイムスケジュール（平日）：時間行動 6:30 起床。白湯を飲んでストレッチ、ベランダから天気をチェック 7:00 朝ごはん兼SNSチェック（Instagram・Xに季節の写真を投稿することも） 8:00 自宅のデスクでブログ作成・リサーチ開始 10:30 近所のカフェに移動して作業（記事執筆・写真整理） 12:30 昼食。カフェかコンビニおにぎり＋味噌汁 13:00 午後の執筆タイム。主に記事の構成づくりや装飾、アイキャッチ作成など 16:00 夕方の散歩・写真撮影（神社や商店街。季節の風景探し） 17:30 帰宅して軽めの家事（洗濯・夕飯準備） 18:30 晩ごはん＆YouTube or Netflixでリラックス 20:00 投稿記事の最終チェック・予約投稿設定 21:30 読書や日記タイム（今日の出来事や感じたことをメモ） 23:00 就寝前のストレッチ＆アロマ。23:30に就寝

分布関数と確率密度の基本をさくっとおさえる

まず、分布関数とは「ある値以下になる確率」を表すものだ。X というランダム変数がとる値が x 以下になる確率を F(x) と書く。F は階段のように右へと連続的に増える性質があり、x を大きくするほど P(X ≤ x) も大きくなる。

この性質を直感的にいうと、「どれくらいの割合のデータがこの値以下に入るか」を一つの目盛りで示しているイメージだ。分布関数は連続分布にも離散分布にも定義でき、F(-∞) = 0、F(∞) = 1という境界条件を満たす。

次に、確率密度関数とは何かを考える。確率密度 f は連続分布で定義される関数で、x の周りの小さな範囲にどれだけの確率が集中しているかを表す「密度の指標」だ。ある区間 a から b の確率は、F(b) から F(a) を引くことで得られるが、それを微積分で言えば P(a ≤ X ≤ b) = ∫_a^b f(t) dt となる。ここで重要なのは、単にある一点 X = x の確率を f(x) で直接求めることはできず、確率は区間の幅に依存するという点だ。

この違いを理解すると、分布関数と密度関数の役割がはっきり見えてくる。

さらに整理すると、分布関数は「確率の累積情報」をくれる一方、確率密度は「密度の情報」をくれる。F はデータがどの値以下になるかの総量を示し、f はデータが特定の値の周りにどれだけ集まるかを示す。離散分布では密度関数ではなく確率質量関数 p(k) が使われることにも注意が必要だ。連続か離散かで、扱い方が大きく変わる点がこの話の要点になる。

この節の要点をまとめると、分布関数と確率密度はどちらも確率を扱う道具だが、使い方と意味が異なる。分布関数が「どれくらいの割合がある値以下か」を示す累積量であるのに対し、確率密度は「どれくらいの密度でデータが集まっているか」を示す関数であり、密度自体の値が直接その区間の確率を決めるのではない。これらの基本を押さえることで、統計の基礎をしっかり理解する第一歩となる。

また、F と f の関係については連続分布の場合に限り、F(x) = ∫_{-∞}^x f(t) dt が成り立つ。離散分布では F(x) = ∑_{k ≤ x} p(k) という形で表現され、密度関数 f は一般には使われないことを覚えておこう。これらの差異は、データ分析の実務でもよく現れるので、実務の際にはどちらを使うべきかを常に意識することが大切だ。

ピックアップ解説

友達と数学の話をしているときのことだ。分布関数と確率密度の違いを説明してほしいと言われ、私はこう考えた。分布関数はデータ全体の傾向を一つの曲線で示す地図のようなものだ。これに対して確率密度は、どこにデータが多く集まっているかを指し示す“密度の地図”で、点そのものの確率を直接教えてくれるわけではない。離散と連続の違いもあり、実際には離散データには p(k) という別の道具がある。つまり、分布関数は総体の情報、確率密度は局所の情報を表すと覚えると、混乱が減る。彼は最後に「じゃあ日常でどう使えるの？」と聞いてきたが、答えはシンプルだ。データの確率分布の形を知りたいときには F を、データがどの区間にどれだけ密に分布しているかを直感的に知りたいときには f を使うのが基本だ。二つの道具を使い分けることで、統計の世界が一段と身近に感じられるようになる。

前の記事： « ワイブル分布と対数正規分布の違いを徹底解説！どの分布をいつ使うべきかをやさしく解説

次の記事：分散と尖度の違いを徹底解説！データの広がりと形状を一気に理解する入門ガイド »