K-meansとK-medoidsの違いを徹底解説：どっちを使うべき？初心者にもわかる比較ガイド

この記事を書いた人

小林聡美

名前：小林聡美（こばやしさとみ）ニックネーム：さと・さとみん年齢：25歳性別：女性職業：季節・暮らし系ブログを運営するブロガー／たまにライター業も受注居住地：東京都杉並区・阿佐ヶ谷の1Kアパート（築15年・駅徒歩7分）出身地：長野県松本市（自然と山に囲まれた町で育つ）身長：158cm 血液型：A型誕生日：1999年5月12日趣味：・カフェで執筆＆読書（特にエッセイと季節の暮らし本）・季節の写真を撮ること（桜・紅葉・初雪など）・和菓子＆お茶めぐり・街歩きと神社巡り・レトロ雑貨収集・Netflixで癒し系ドラマ鑑賞性格：落ち着いていると言われるが、心の中は好奇心旺盛。丁寧でコツコツ型、感性豊か。慎重派だけどやると決めたことはとことん追求するタイプ。ちょっと天然で方向音痴。ひとり時間が好きだが、人の話を聞くのも得意。 1日のタイムスケジュール（平日）：時間行動 6:30 起床。白湯を飲んでストレッチ、ベランダから天気をチェック 7:00 朝ごはん兼SNSチェック（Instagram・Xに季節の写真を投稿することも） 8:00 自宅のデスクでブログ作成・リサーチ開始 10:30 近所のカフェに移動して作業（記事執筆・写真整理） 12:30 昼食。カフェかコンビニおにぎり＋味噌汁 13:00 午後の執筆タイム。主に記事の構成づくりや装飾、アイキャッチ作成など 16:00 夕方の散歩・写真撮影（神社や商店街。季節の風景探し） 17:30 帰宅して軽めの家事（洗濯・夕飯準備） 18:30 晩ごはん＆YouTube or Netflixでリラックス 20:00 投稿記事の最終チェック・予約投稿設定 21:30 読書や日記タイム（今日の出来事や感じたことをメモ） 23:00 就寝前のストレッチ＆アロマ。23:30に就寝

導入: k-meansとk-medoidsの違いを理解する

k-meansとk-medoidsはデータ分析の世界でよく登場するクラスタリング手法です。クラスタリングとは、似た特徴を持つデータを集めていく作業のことです。例えば街の人の趣味データを使っていくつかのグループを作るとき、どの人がどのグループにぴったり入るかを決める仕組みがクラスタリングです。k-meansは「データの中心点を平均値」で置き換えて、データをその中心の周りに割り当てていく方法です。k-medoidsは「データそのものを中心点（メドイド）として選ぶ」方法で、中心点がデータ点の中から選ばれます。

この違いは、見た目にも影響します。k-meansは中心が連続的に動くので、データが球状にまとまっているときはとても速くて効率的です。

一方、k-medoidsは中心点が実際のデータ点なので、外れ値の影響を受けにくく、データの分布が歪んでいたり外れ値が混ざっていても安定して動くことがあります。

初めてクラスタリングを学ぶ人にとっては、これらのポイントを押さえることが「どうしてこの手法を選ぶべきか」を判断する第一歩になります。

1. 基本の仕組みと違い

まず、k-meansの基本的な流れを3つのステップでまとめます。1) 初期中心の選択: データの中からk個の点をランダムに選ぶ。2) 割り当ての更新: 各データ点を、現在の中心点（クラスターの中心）との距離が最も近い中心に割り当てる。3) 中心点の再計算: 各クラスターの中心を、そのクラスターに属する点の平均値として再計算する。これを中心が安定するまで繰り返す。k-meansはこの流れがとてもシンプルで、データが正規分布に近いときや球状の分布のときに特に強い。対してk-medoidsは中心点をデータ点そのものとして選ぶ点が違いです。例えばPAMアルゴリズムでは、候補となるメドイドをすべて試して、クラスター内の距離の総和を最小にする組を選びます。これには追加の計算が必要ですが、外れ値の影響を避けやすくなります。

2. 距離の選択と頑健性

クラスタを作るときには距離の選び方がとても重要です。k-meansは基本的にユークリッド距離を使うことが多く、点と点の「距離の差」が小さいときに素早くグルーピングします。このときデータが長さや大きさの違いでばらつくと、結果が偏ってしまうことがあります。そこで正規化や標準化という前処理が役立つことがあります。また外れ値があると、中心点を決める平均値が大きくずれてしまう点が弱点です。これに対してk-medoidsは代表点としてデータ点そのものを選ぶため、外れ値の影響を受けにくい性質を持ちます。距離の種類を変えることで、非球状の分布にも対応しやすくなる一方で、計算量が増える点には注意が必要です。

3. 適用シーンと実務でのポイント

現実のデータ分析では、データの量や質、分析の目的によって手法を選ぶ基準が変わります。データ数が多い場合や計算資源が限られている場合には、k-meansが有利です。一方、外れ値が多いデータや、分布が非対称・非球状な場合にはk-medoidsが安定して動くことが多いです。実務での使い分けのコツとしては、まず小さなサンプルで動作を試し、2つの手法の出力を比較してみることです。さらに、クラスタ数kの決め方としてはエルボー法やシルエット法を併用すると良いでしょう。これらの手法を組み合わせて使うことで、データの特徴を壊さずに、現場で直感的に理解しやすい結果を得られます。

<table>手法距離関数代表点計算量の概略外れ値耐性長所短所k-meansユークリッド距離が一般的平均点（Centroid）O(n k t)程度低い計算が速い、実装が簡単外れ値に弱い、球状分布に適しているk-medoids任意の距離関数を使えるデータ点そのもの（Medoid）O(n^2 k t) など（実装次第）高い外れ値に強い、分布に柔軟性計算コストが高い、アルゴリズムが複雑table>

ピックアップ解説

キーワードの一つを深掘りする小ネタとして、頑健性という言葉を改めて考えてみると面白いです。頑健性とは、データにノイズや外れ値が混じっても、モデルの出力が崩れにくい性質のことを指します。k-meansは平均値を使うため、少しのノイズで中心がズレやすいという弱点があります。これに対してk-medoidsは代表点がデータ点そのものなので、外れ値があっても中心が大きく移動しづらい特徴があります。とはいえ、頑健性を高く保つには手法だけでなくデータ前処理や適切なkの選択、距離関数の選択が重要です。実際のデータ分析では、外れ値を先に検知して除去するのか、あるいはk-medoidsのような手法を先に試すのか、状況に応じて選ぶ決断力が求められます。眠っているデータの中に潜む「本当に大事な仲間」を見つけ出す感覚で、頑健性という視点を持つと分析の幅がぐんと広がります。

前の記事： « GMMとK-meansの違いをわかりやすく解説！機械学習の第一歩を踏み出そう

次の記事： k-meansとx-meansの違いを徹底解説！クラスタリングの基礎から使い分けまで »