分類問題之損失函數

在機器學習和最佳化領域中，分類問題之損失函數可以用來表達預測不準確之程度，其中分類問題主要是用來判斷所偵測到的物件屬於什麼類別。將一個向量空間 $X$ 做為所有的輸入值，而向量空間 $Y=\{-1,1\}$ 做為所有的輸出值。我们希望能夠找到最佳的公式 $f:X\rightarrow \Re$ 將 ${\vec {x}}$ 映射到 $y$ ^[1]。然而，由于信息不完整、雜訊、计算過程中的非确定性模块等因素，有可能會有相同的輸入值 ${\vec {x}}$ 映射到不同的輸出值 $y$ ^[2]。因此，這個學習過程的目的就是要最小化預期風險（更详细的介绍参见统计学习理论），預期風險之定義為：

I[f]=\textstyle \int _{X\times Y}^{}\displaystyle V(f({\vec {x}},y))p({\vec {x}},y)d{\vec {x}}dy

其中 $V(f({\vec {x}},y))$ 即損失函數，而 $p({\vec {x}},y)$ 為機率密度函數。而實作上概率分布 $p({\vec {x}},y)$ 通常是未知的，因此我们使用由数据样本空间中取出的 $n$ 個獨立且同分布（i.i.d.）的樣本點

S=\{({\vec {x_{1}}},y_{1}),...,({\vec {x_{n}}},y_{n})\}

作为训练集，將樣本空間所得到的经验風險做為預期風險的替代，其定義為：

I_{S}[f]={\frac {1}{n}}\sum _{i=1}^{n}V(f({\vec {x_{i}}},y_{i}))

基於分類問題的二元性，可定義0-1函數做為匹配值之基準。因此損失函數為：

V(f({\vec {x}},y))=H(-yf({\vec {x}}))

其中 $H$ 為步階函數。然而損失函數並不是凸函數或平滑函數，是一種NP-hard的問題，因此做為替代，需要使用可以追蹤的機器學習演算法（透過凸損失函數）。

分類問題之界線

使用貝式定理，可以基於問題的二元性最佳化映射公式 $f^{*}$ 為：

f^{*}({\vec {x}})={\begin{cases}1,&{\text{if }}p(1\mid {\vec {x}})>p(-1\mid {\vec {x}})\\-1,&{\text{if }}p(1\mid {\vec {x}})<p(-1\mid {\vec {x}})\end{cases}}

當 $p(1\mid {\vec {x}})\neq p(-1\mid {\vec {x}})$

簡化分類問題預期風險

{\begin{alignedat}{4}I[f(x)]&=\int _{X\times Y}^{}V(f({\vec {x}},y))p({\vec {x}},y)d{\vec {x}}dy\\&=\int _{X}^{}\int _{Y}^{}V(f({\vec {x}},y))p({\vec {x}},y)p({\vec {x}})dyd{\vec {x}}\\&=\int _{X}^{}[V(-f({\vec {x}})p(1\mid x)+V(f({\vec {x}})p(-1\mid x)]p({\vec {x}})d{\vec {x}}\\&=\int _{X}^{}[V(-f({\vec {x}})p(1\mid x)+V(f({\vec {x}})(1-p(1\mid x))]p({\vec {x}})d{\vec {x}}\end{alignedat}}

平方損失

V(f({\vec {x}},y))=(1-yf({\vec {x}}))^{2}

平方損失凸且平滑，但容易過度懲罰錯誤預測，導致收斂速度比邏輯損失和鏈結損失慢。它的優點為有助於簡化交叉驗證之正則化（regularization）。

最小化預期風險之映射函數為：

f_{Square}^{*}=2p(1\mid x)-1

鏈結損失

V(f({\vec {x}}),y)=\max(0,1-yf({\vec {x}}))=|1-yf({\vec {x}})|_{+}

鏈結損失公式等同於支持向量機（SVM）的損失公式。鏈結損失凸但不平滑（在 $yf({\vec {x}}))=1$ 不可微分），因此不適用於梯度下降法和隨機梯度下降法，但適用次梯度下降法。最小化預期風險之映射函數為：

f_{Square}^{*}=2p(1\mid x)-1

廣義平滑鏈結損失

f_{\alpha }^{*}(z)\;=\;{\begin{cases}{\frac {\alpha }{\alpha +1}}&{\text{if }}z<0\\{\frac {1}{\alpha +1}}z^{\alpha +1}-z+{\frac {\alpha }{\alpha +1}}&{\text{if }}0<z<1\\0&{\text{if }}z\geq 1\end{cases}}

其中 $z=yf({\vec {x}})$

邏輯損失

V(f({\vec {x}}),y)={\frac {1}{\ln 2}}\ln(1+e^{-yf({\vec {x}})})

適用於梯度下降法，但不會對錯誤預測做懲罰。最小化預期風險之映射函數為：

f_{\text{Logistic}}^{*}=\ln \left({\frac {p(1\mid x)}{1-p(1\mid x)}}\right).

交叉熵損失

V(f({\vec {x}}),t)=-t\ln(f({\vec {x}}))-(1-t)\ln(1-f({\vec {x}}))

其中 $t=(1+y)/2$ so that $t\in \{0,1\}$ 屬於凸函數，適用於隨機梯度下降法。

指數損失

V(f({\vec {x}}),y)=e^{-\beta yf({\vec {x}})}

参考资料

^ Shen, Yi, Loss Functions For Binary Classification and Class Probability Estimation (PDF), University of Pennsylvania, 2005 [6 December 2014], （原始内容存档 (PDF)于2019-06-14）
^ Rosasco, Lorenzo; Poggio, Tomaso, A Regularization Tour of Machine Learning, MIT-9.520 Lectures Notes, Manuscript, 2014

[penn-1] Shen, Yi, Loss Functions For Binary Classification and Class Probability Estimation (PDF), University of Pennsylvania, 2005 [6 December 2014], （原始内容存档 (PDF)于2019-06-14）

[mitlec-2] Rosasco, Lorenzo; Poggio, Tomaso, A Regularization Tour of Machine Learning, MIT-9.520 Lectures Notes, Manuscript, 2014

[1]

[2]

查论编可微分计算
概论	可微分编程自動微分张量微积分信息几何统计流形神经形态工程（英语：Neuromorphic engineering）模式识别运算学习理论（英语：Computational learning theory）归纳偏置
概念	梯度下降 SGD（英语：Stochastic gradient descent）聚类回归过拟合幻觉对抗（英语：Adversarial machine learning）注意力卷积損失函數反向传播激活函数 softmax sigmoid ReLU 正则化数据集扩散（英语：Diffusion process）自回归
应用	机器学习人工神经网络深度学习科学计算人工智能語言模型大型语言模型
硬件	TPU VPU IPU（英语：Graphcore）憶阻器 SpiNNaker（英语：SpiNNaker）
软件库	Theano TensorFlow Keras PyTorch JAX Flux.jl（英语：Flux (machine-learning framework)）
主题计算机编程技术分类人工神经网络机器学习