ML の降順: 理解度チェック

平均二乗誤差

次の 2 つのプロットを考えてみます。

10 ポイントをプロットする。6 つのポイントが 1 つの線で結ばれている。2 ポイントは 1 <img "units"="" 1="" 2="" <="" above="" alt="10 ポイントのプロット。8 つのポイントが 1 つのラインに沿って伸びています。および

以下の選択肢をご確認ください。

上記のプロットで示されている 2 つのデータセットのうち、平均二乗誤差(MSE)が高いのはどちらでしょうか。
左側のデータセット。
回線上の 6 つの例の合計損失は 0 です。行内にない 4 つの例は、それほど離れていないため、オフセットを二乗してもまだ低い値になります。 $$ MSE = \frac{0^2 + 1^2 + 0^2 + 1^2 + 0^2 + 1^2 + 0^2 + 1^2 + 0^2 + 0^2} {10} = 0.4$$
右側のデータセット。
この回線の 8 つの例では、合計で 0 の損失が発生します。ただし、ライン上に位置するポイントは 2 つだけですが、どちらのポイントも左側の図の外れ値から 2 倍離れています。二乗損失はそれらの差を増幅するので、2 のオフセットは 1 のオフセットの 4 倍の損失になります。
$$ MSE = \frac{0^2 + 0^2 + 0^2 + 2^2 + 0^2 + 0^2 + 0^2 + 2^2 + 0^2 + 0^2} {10} = 0.8$$