The bias-variance-noise decomposition

$\def\sa{a} \def\sb{b} \def\sc{c} \def\sd{d} \def\se{e} \def\sf{f} \def\sg{g} \def\sh{h} \def\si{i} \def\sj{j} \def\sk{k} \def\sl{l} \def\sm{m} \def\sn{n} \def\so{o} \def\sp{p} \def\sq{q} \def\sr{r} \def\ss{s} \def\st{t} \def\su{u} \def\sv{v} \def\sw{w} \def\sx{x} \def\sy{y} \def\sz{z} \def\va{\vec{a}} \def\vb{\vec{b}} \def\vc{\vec{c}} \def\vd{\vec{d}} \def\ve{\vec{e}} \def\vf{\vec{f}} \def\vg{\vec{g}} \def\vh{\vec{h}} \def\vi{\vec{i}} \def\vj{\vec{j}} \def\vk{\vec{k}} \def\vl{\vec{l}} \def\vm{\vec{m}} \def\vn{\vec{n}} \def\vo{\vec{o}} \def\vp{\vec{p}} \def\vq{\vec{q}} \def\vr{\vec{r}} \def\vs{\vec{s}} \def\vt{\vec{t}} \def\vu{\vec{u}} \def\vv{\vec{v}} \def\vw{\vec{w}} \def\vx{\vec{x}} \def\vy{\vec{y}} \def\vz{\vec{z}} \def\ga{\mathfrak{A}} \def\gb{\mathfrak{B}} \def\gc{\mathfrak{C}} \def\gd{\mathfrak{D}} \def\ge{\mathfrak{E}} \def\gf{\mathfrak{F}} \def\gg{\mathfrak{G}} \def\gh{\mathfrak{H}} \def\gi{\mathfrak{I}} \def\gj{\mathfrak{J}} \def\gk{\mathfrak{K}} \def\gl{\mathfrak{L}} \def\gm{\mathfrak{M}} \def\gn{\mathfrak{N}} \def\go{\mathfrak{O}} \def\gp{\mathfrak{P}} \def\gq{\mathfrak{Q}} \def\gr{\mathfrak{R}} \def\gs{\mathfrak{S}} \def\gt{\mathfrak{T}} \def\gu{\mathfrak{U}} \def\gv{\mathfrak{V}} \def\gw{\mathfrak{W}} \def\gx{\mathfrak{X}} \def\gy{\mathfrak{Y}} \def\gz{\mathfrak{Z}} \def\ra{A} \def\rb{B} \def\rc{C} \def\rd{D} \def\re{E} \def\rf{F} \def\rg{G} \def\rh{H} \def\ri{I} \def\rj{J} \def\rk{K} \def\rl{L} \def\rm{M} \def\rn{N} \def\ro{O} \def\rp{P} \def\rq{Q} \def\rr{R} \def\rs{S} \def\rt{T} \def\ru{U} \def\rv{V} \def\rw{W} \def\rx{X} \def\ry{Y} \def\rz{Z} \def\rva{\vec{A}} \def\rvb{\vec{B}} \def\rvc{\vec{C}} \def\rvd{\vec{D}} \def\rve{\vec{E}} \def\rvf{\vec{F}} \def\rvg{\vec{G}} \def\rvh{\vec{H}} \def\rvi{\vec{I}} \def\rvj{\vec{J}} \def\rvk{\vec{K}} \def\rvl{\vec{L}} \def\rvm{\vec{M}} \def\rvn{\vec{N}} \def\rvo{\vec{O}} \def\rvp{\vec{P}} \def\rvq{\vec{Q}} \def\rvr{\vec{R}} \def\rvs{\vec{S}} \def\rvt{\vec{T}} \def\rvu{\vec{U}} \def\rvv{\vec{V}} \def\rvw{\vec{W}} \def\rvx{\vec{X}} \def\rvy{\vec{Y}} \def\rvz{\vec{Z}} \def\seta{A} \def\setb{B} \def\setc{C} \def\setd{D} \def\sete{E} \def\setf{F} \def\setg{G} \def\seth{H} \def\seti{I} \def\setj{J} \def\setk{K} \def\setl{L} \def\setm{M} \def\setn{N} \def\seto{O} \def\setp{P} \def\setq{Q} \def\setr{R} \def\sets{S} \def\sett{T} \def\setu{U} \def\setv{V} \def\setw{W} \def\setx{X} \def\sety{Y} \def\setz{Z} \def\fa{a} \def\fb{b} \def\fc{c} \def\fd{d} \def\fe{e} \def\ff{f} \def\fg{g} \def\fh{h} \def\fi{i} \def\fj{j} \def\fk{k} \def\fl{l} \def\fm{m} \def\fn{n} \def\fo{o} \def\fp{p} \def\fq{q} \def\fr{r} \def\fs{s} \def\ft{t} \def\fu{u} \def\fv{v} \def\fw{w} \def\fx{x} \def\fy{y} \def\fz{z} \def\fA{A} \def\fB{B} \def\fC{C} \def\fD{D} \def\fE{E} \def\fF{F} \def\fG{G} \def\fH{H} \def\fI{I} \def\fJ{J} \def\fK{K} \def\fL{L} \def\fM{M} \def\fN{N} \def\fO{O} \def\fP{P} \def\fQ{Q} \def\fR{R} \def\fS{S} \def\fT{T} \def\fU{U} \def\fV{V} \def\fW{W} \def\fX{X} \def\fY{Y} \def\fZ{Z} \def\ma{A} \def\mb{B} \def\mc{C} \def\md{D} \def\me{E} \def\mf{F} \def\mg{G} \def\mh{H} \def\mi{I} \def\mj{J} \def\mk{K} \def\ml{L} \def\mm{M} \def\mn{N} \def\mo{O} \def\mp{P} \def\mq{Q} \def\mr{R} \def\ms{S} \def\mt{T} \def\matu{U} \def\mv{V} \def\mw{W} \def\mx{X} \def\my{Y} \def\mz{Z} \def\loss{\mathcal{L}} \newcommand{\dkl}[2]{D_{\text{KL}}\mathopen{}\paren{#1\,||\,#2}} \newcommand{\dataset}{S} \newcommand{\ndataset}{N} \newcommand{\idataset}{n} \newcommand{\inputRV}{\mathcal{X}} \newcommand{\inputvec}{\vec{x}} \newcommand{\ninputvec}[1]{\vec{x}_{#1}} \newcommand{\iinputvec}[1]{x_{#1}} \newcommand{\niinputvec}[2]{x_{#1, #2}} \newcommand{\icpnt}{i} \newcommand{\inputmatrix}{X} \newcommand{\inputdim}{D} \newcommand{\outputval}{y} \newcommand{\ioutputval}[1]{y_{#1}} \newcommand{\outputvec}{\vec{y}} \newcommand{\trainset}{S_{\text{train}}} \newcommand{\testset}{S_{\text{test}}} \newcommand{\truemodel}{f_{\text{true}}} \newcommand{\trainedmodel}{f_{\trainset}} \newcommand{\linmodel}[1]{f_{#1}} \newcommand{\bestmodel}{f^{*}} \newcommand{\model}{f} \newcommand{\hyperparam}{\lambda} \newcommand{\linparamv}{\vec{w}} \newcommand{\ilinparam}[1]{w_{#1}} \newcommand{\indivloss}{l} \newcommand{\modelclass}{\mathcal{F}} \newcommand{\linclass}{\modelclass_{\text{lin}}} \newcommand{\g}{\mathcal{G}} \newcommand{\gmse}{\g_{\text{MSE}}} \newcommand{\glasso}{\g_{\text{lasso}}} \newcommand{\gridge}{\g_{\text{ridge}}} \newcommand{\glogit}{\g_{\logit}} \newcommand{\l}{\mathcal{L}} \newcommand{\lmse}{\l_{\text{MSE}}} \newcommand{\lmae}{\l_{\text{MAE}}} \newcommand{\llasso}{\l_{\text{lasso}}} \newcommand{\lridge}{\l_{\text{ridge}}} \newcommand{\llogit}{\l_{\logit}} \newcommand{\logit}{\sigma} \newcommand{\reg}{\mathcal{R}} \DeclareMathOperator*{\argmin}{argmin} \DeclareMathOperator*{\argmax}{argmax} \DeclareMathOperator*{\mean}{mean} \DeclareMathOperator*{\avg}{avg} \DeclareMathOperator*{\span}{span} \DeclareMathOperator*{\var}{var} \DeclareMathOperator*{\bias}{bias} \newcommand{\expectation}{\mathbb{E}} \newcommand{\brak}[1]{\left[#1\right]} \newcommand{\paren}[1]{\left(#1\right)} \newcommand{\realset}{\mathbb{R}} \newcommand{\realvset}[1]{\realset^{#1}} \newcommand{\prob}{\mathbb{P}} \newcommand{\gaussian}{\mathcal{N}} \newcommand{\iid}{\stackrel{\text{i.i.d.}}{\sim}} \newcommand{\abs}[1]{\left\lvert#1\right\rvert} \newcommand{\norm}[1]{\left\lVert#1\right\rVert} \newcommand{\normtwo}[1]{\norm{#1}_{2}} \newcommand{\normone}[1]{\norm{#1}_{1}} \newcommand{\card}[1]{\left\lvert#1\right\rvert} \newcommand{\grad}{\nabla} \newcommand{\dconv}{\stackrel{d}{\to}} \newcommand{\pconv}{\stackrel{p}{\to}} \newcommand{\rva}[1]{#1} \newcommand{\rve}[1]{\vec{#1}} \newcommand{\obs}[1]{#1} \newcommand{\vobs}[1]{\vec{#1}} \newcommand{\distrib}[1]{#1} \newcommand{\distribof}[2]{#1_{#2}} \newcommand{\density}[1]{#1} \newcommand{\densityof}[2]{#1_{#2}} \newcommand{\distributed}{\sim} \newcommand{\const}[1]{#1} \newcommand{\fun}[1]{#1}$

The MSE loss is attractive because the expected error in prediction can be explained by the bias-variance of the model and the variance of the noise. This is called the bias-variance-noise decomposition. In this article, we will introduce this decomposition using the tools of probability theory.

In short, when $\ry = \ff(\rvx) + \epsilon$ , the bias-variance-noise decomposition is:

E_{S, ϵ} [({\hat{Y}}_{S} - Y)^{2}] = var (\hat{f} (\vec{X})) + bias (\hat{f} (\vec{X}))^{2} + v a r (ϵ)

$\expectation_{\sets, \epsilon}[(\,\hat{\ry}_{\sets} - \ry\,)^2] = \var(\hat{\ff}(\rvx)) + \bias(\hat{\ff}(\rvx))^2 + var(\epsilon)$

Notations

Let $(\rvx, \ry)$ be a pair of random variables on $\realvset{\sd} \times \realset$ .

Assume there exists a $0$ -mean random noise $\epsilon$ and a function $\ff$ such that:

y = f (\vec{X}) + ϵ

$\sy = \ff(\rvx) + \epsilon$

The goal of a regression is to use a sample $\trainset$ to estimate this function:

{\hat{f}}_{S_{train}} \approx f

$\hat{\ff}_{\trainset} \approx \ff$

For instance, in a linear regression the function $\ff$ is a linear function with parameter $\vw$ :

E [Y ∣ \vec{X}] = \vec{w} \cdot \vec{X}

$\expectation[\ry \mid \rvx] = \vw\cdot\rvx$

And the regression aims at estimating $\vw$ from the training-set:

{\hat{\vec{w}}}_{S_{train}} \approx \vec{w}

$\hat{\vw}_{\trainset} \approx \vw$

Once the function $\ff_{\trainset}$ is estimated, we can measure the error between a predictions $\hat{\sy}_{\trainset} = \ff_{\trainset}(\vx)$ and the true value $\sy$ :

L_{MSE} ({\hat{y}}_{S_{train}}, y) = ({\hat{y}}_{S_{train}} - y)^{2}

$\lmse(\hat{\sy}_{\trainset}, \sy) = (\hat{\sy}_{\trainset} - \sy)^2$

The expected error in prediction is:

\begin{aligned} E_{S, ϵ} [({\hat{y}}_{S} - y)^{2}] \\ = & E_{S, ϵ} [({\hat{f}}_{S} (\vec{X}) - (f (\vec{X}) + ϵ))^{2}] \\ = & E_{S, ϵ} [(\underset{A}{\underset{⏟}{{\hat{f}}_{S} (\vec{X}) - f (\vec{X})}} - ϵ)^{2}] \end{aligned}

$\begin{align*} & \expectation_{\sets, \epsilon}[(\,\hat{\sy}_{\sets} - \sy\,)^2] \\ = & \expectation_{\sets, \epsilon}[(\,\hat{\ff}_{\sets}(\rvx) - (\ff(\rvx) + \epsilon)\,)^2] \\ = & \expectation_{\sets, \epsilon}[(\,\underbrace{\hat{\ff}_{\sets}(\rvx) - \ff(\rvx)}_{A} - \epsilon\,)^2] \end{align*}$

Define $A$ as a shorthand.

\begin{aligned} E_{S, ϵ} [(A - ϵ)^{2}] \\ = & E_{S, ϵ} [A^{2}] - 2 E_{S, ϵ} [A ϵ] + E_{S, ϵ} [ϵ^{2}] \end{aligned}

$\begin{align*} & \expectation_{\sets, \epsilon}[(\,A - \epsilon\,)^2] \\ = & \expectation_{\sets, \epsilon}[A^2] - 2\expectation_{\sets, \epsilon}[A\epsilon] + \expectation_{\sets, \epsilon}[\epsilon^2] \\ \end{align*}$

$A$ does not depend on $\epsilon$ and $\epsilon$ does not depend on $\sets$ , so:

\begin{aligned} E_{S, ϵ} [A^{2}] - 2 E_{S, ϵ} [A ϵ] + E_{S, ϵ} [ϵ^{2}] \\ = & E_{S} [A^{2}] - 2 E_{ϵ} [ϵ] E_{S} [A] + E_{ϵ} [ϵ^{2}] \end{aligned}

$\begin{align*} & \expectation_{\sets, \epsilon}[A^2] - 2\expectation_{\sets, \epsilon}[A\epsilon] + \expectation_{\sets, \epsilon}[\epsilon^2] \\ = & \expectation_{\sets}[A^2] - 2\expectation_{\epsilon}[\epsilon]\expectation_{\sets}[A] + \expectation_{\epsilon}[\epsilon^2] \\ \end{align*}$

Recall that $\expectation[\epsilon] = 0$ :

\begin{aligned} E_{S} [A^{2}] - 2 E_{ϵ} [ϵ] E_{S} [A] + E_{ϵ} [ϵ^{2}] \\ = & E_{S} [A^{2}] + E_{ϵ} [ϵ^{2}] \end{aligned}

$\begin{align*} & \expectation_{\sets}[A^2] - 2\expectation_{\epsilon}[\epsilon]\expectation_{\sets}[A] + \expectation_{\epsilon}[\epsilon^2] \\ = & \expectation_{\sets}[A^2] + \expectation_{\epsilon}[\epsilon^2] \\ \end{align*}$

Since $\epsilon$ is a $0$ -mean noise we have:

var (ϵ) = E [ϵ^{2}] - E [ϵ]^{2} = E [ϵ^{2}]

$\var(\epsilon) = \expectation[\epsilon^2] - \expectation[\epsilon]^2 = \expectation[\epsilon^2]$

Hence:

\begin{aligned} E_{S} [A^{2}] + E_{ϵ} [ϵ^{2}] \\ = & E_{S} [A^{2}] + var (ϵ) \end{aligned}

$\begin{align*} & \expectation_{\sets}[A^2] + \expectation_{\epsilon}[\epsilon^2] \\ = & \expectation_{\sets}[A^2] + \var(\epsilon) \\ \end{align*}$

Finally, the term $\expectation_{\sets}[A^2]$ is exactly the error in estimation between $\ff$ and $\hat{\ff}$ . We can exprees it using the bias-variance decomposition:

\begin{aligned} E_{S} [A^{2}] + var (ϵ) \\ = & bias (\hat{f})^{2} + var (\hat{f}) + var (ϵ) \end{aligned}

$\begin{align*} & \expectation_{\sets}[A^2] + \var(\epsilon) \\ = & \bias(\hat{\ff})^2 + \var(\hat{\ff}) + \var(\epsilon) \\ \end{align*}$

Finally, the bias-variance-noise decomposition is:

E_{S, ϵ} [({\hat{y}}_{S} - y)^{2}] = bias (\hat{f})^{2} + var (\hat{f}) + var (ϵ)

$\expectation_{\sets, \epsilon}[(\,\hat{\sy}_{\sets} - \sy\,)^2] = \bias(\hat{\ff})^2 + \var(\hat{\ff}) + \var(\epsilon)$