l1正則化 l2正則化違いを分かりやすく解説：初心者にも伝わるポイント

この記事を書いた人

小林聡美

名前：小林聡美（こばやしさとみ）ニックネーム：さと・さとみん年齢：25歳性別：女性職業：季節・暮らし系ブログを運営するブロガー／たまにライター業も受注居住地：東京都杉並区・阿佐ヶ谷の1Kアパート（築15年・駅徒歩7分）出身地：長野県松本市（自然と山に囲まれた町で育つ）身長：158cm 血液型：A型誕生日：1999年5月12日趣味：・カフェで執筆＆読書（特にエッセイと季節の暮らし本）・季節の写真を撮ること（桜・紅葉・初雪など）・和菓子＆お茶めぐり・街歩きと神社巡り・レトロ雑貨収集・Netflixで癒し系ドラマ鑑賞性格：落ち着いていると言われるが、心の中は好奇心旺盛。丁寧でコツコツ型、感性豊か。慎重派だけどやると決めたことはとことん追求するタイプ。ちょっと天然で方向音痴。ひとり時間が好きだが、人の話を聞くのも得意。 1日のタイムスケジュール（平日）：時間行動 6:30 起床。白湯を飲んでストレッチ、ベランダから天気をチェック 7:00 朝ごはん兼SNSチェック（Instagram・Xに季節の写真を投稿することも） 8:00 自宅のデスクでブログ作成・リサーチ開始 10:30 近所のカフェに移動して作業（記事執筆・写真整理） 12:30 昼食。カフェかコンビニおにぎり＋味噌汁 13:00 午後の執筆タイム。主に記事の構成づくりや装飾、アイキャッチ作成など 16:00 夕方の散歩・写真撮影（神社や商店街。季節の風景探し） 17:30 帰宅して軽めの家事（洗濯・夕飯準備） 18:30 晩ごはん＆YouTube or Netflixでリラックス 20:00 投稿記事の最終チェック・予約投稿設定 21:30 読書や日記タイム（今日の出来事や感じたことをメモ） 23:00 就寝前のストレッチ＆アロマ。23:30に就寝

l1正則化 l2正則化違いを分かりやすく解説：初心者にも伝わるポイント

1. 基本の考え方を比べてみる

機械学習の世界では、データの中にある情報をうまく使いながら、余分な揺らぎを減らすことが目標です。

ここで登場するのが正則化という考え方です。

L1正則化とL2正則化は、似た目的を持ちながら、働き方が少し違います。

L1正則化は重みの絶対値の合計を罰として加え、いくつかの重みを0へと押しやすくします。これによりモデルが単純になり、特徴量の選択が自然に行われることがあります。

一方L2正則化は重みに対して二乗の和を罰として加え、全体を穏やかに縮小します。ゼロに完全には近づきませんが、極端に大きな重みを抑える効果が強く現れます。

これらの違いは、実験の結果にも表れます。

例えばデータに含まれるノイズが多い場合、L1正則化が意味のある特徴を削り落としやすく、解釈性の高いモデルにつながることがあります。その反面、データが複雑で、情報を全体として扱いたいときにはL2正則化の方が安定します。

さらにデータに強い関連があるが、数が多い特徴量のときにはL1が自動的に重要でない特徴を0にすることがあり、モデルの理解が楽になります。

実務ではハイパーパラメータの設定次第で、L1が重みを多く0にし、L2はウェイトの分布を滑らかに広げます。

Elastic Netと呼ばれる手法は、L1とL2を組み合わせ、両方の良さを取りにいく設計です。

これにより、特徴選択と安定な推定の両方を同時に狙うことができます。

Elastic Netは特に、特徴量が多くて相関が強い場合に有効になることが多いです。

2. 数式と直感：どう違うのか

ここでは数式の観点から両者の違いを見ていきます。

L1正則化は損失関数にペナルティを加える考え方です。

実際の式は、
J(w) = L(y, f(x; w)) + lambda * sum_i |w_i| となります。

L2正則化は別の形で、
J(w) = L(y, f(x; w)) + lambda * sum_i w_i^2 となります。

ここでのlambdaは、正則化の強さを決めるパラメータです。

絶対値の|w_i|を使うは、重みが0になる方向に力をかけやすく、非連続性のある特性を持ちます。

これが「特徴選択」を生み出す理由の一つです。

一方、二乗を使うは、重みの変化を滑らかに抑え、連続的な縮小を促します。

微分可能で安定した最適化プロセスにつながりやすく、収束性の良さが特徴です。

実務での違いは、学習後の重みの分布にも現れます。

式だけでなく、直感としてはこんなイメージです。

L1は「要らない道具を切り捨てて、必要な道具だけを残す裁断作業」に近く、モデルをシンプルにします。

L2は「道具の使い方をうまく調整して、全体をほどよく小さくする」感じです。

どちらを選ぶかは、データの性質と目標次第です。

3. 実務での使い分けと選び方

実務での選択は、主に以下のポイントで決まります。

特徴選択をしたいか、解釈性を高めたいか、データに相関の強い特徴が多いか、などです。

もし特徴の中から重要なものを絞り込みたい場合はを検討します。これにより、いくつかの重みを0にして、モデルの理解を助けます。

一方、特徴数が多く、相関も多い場合にはが安定した推定を提供します。特に連続的に小さな重みを並べたいときに向いています。

さらに、両方の良さを取りたいならElastic Netが有力な選択肢になります。

ハイパーパラメータlambdaの設定にはクロスバリデーションが有効であり、標準化（スケーリング）も重要です。

標準化をしないと、特徴量のスケール差が正則化の効果を過剰に左右してしまいます。

<table><th>観点L1正則化L2正則化特徴選択高い可能性低め重みの分布スパースになることが多い滑らかに縮小最適化の安定性データ次第で不安定になることも安定しやすいtable>

ピックアップ解説

今日は放課後の教室で友だちと話している雰囲気でL1正則化について深掘りします。正直に言うと、数学の公式は難しそうに見えるかもしれません。でも、要は『道具の選び方の工夫』と同じです。L1は使わない道具を思い切って削る力が強く、必要な道具だけを残す感覚。だから特徴量が多い場面で、どれが本当に役立つのかを素早く絞り込みやすい。反対にL2は道具を全体的にうまく使う感じ。重みを均等に引き締め、結局は小さな値の重みが増え過ぎないように守ってくれる。Elastic Netは、その両方の良さを一つにまとめた方法だよ。現場では、データの性質とモデルの目的に合わせて、三者を使い分けることが大事なんだ。

前の記事： « モザイクタイルと小口タイルの違いを徹底解説！施工現場で失敗しない選び方と使い分けのコツ

次の記事：バッチとミニバッチの違いを今すぐ理解！初心者にもやさしい徹底解説と実例 »