「李宏毅机器学习」学习笔记-Semi-supervised

本章课程PDF，视频（油管或B站）。

在现实中，半监督学习是很常见的，小孩子第一次见到狗的时候会问父母，知道是狗后，之后再见到类似的动物，就算是没有见过的狗的品种，基本也会认出来是狗。

Semi-supervised Learning for Generative Model

无标注数据有助于重新估计生成模型假设中的参数，从而影响决策边界。算法采用EM算法。

这个算法理论上最终会收敛，但是初始值会影响最后收敛的结果。

EM的每次循环（E步、M步）都让likelihood增加一点，最后收敛在一个local minimum的地方。

Semi-supervised Learning ：Low-density Separation

非黑即白 “Black-or-white”

Self-training

这个方法在Regression上是没有用的。

Self-training类似于Semi-supervised Learning for Generative Model是，区别在于：self-training是Hard label，而Semi-supervised Learning for Generative Model是Soft label。

Self-training必须使用Hard label，使用Soft label是不会work的。因为是非黑即白的世界，所以0.7概率认为是class 1，我们就认为它是class 1。

Entropy-based Regularization

Outlook: Semi-supervised SVM

Semi-supervised Learning：Smoothness Assumption

近朱者赤，近墨者黑 “You are known by the company you keep”

假设特征的部分是不均匀的（在某些地方集中，某些地方分散），如果两个特征在高密度区域是相近的，那么二者的标签是相同的。

从下图中可以看出$x^1$、$x^2$虽然距离较远，但是是在一簇里，可以归为一类，$x^2$、$x^3$虽然距离较近，但是明显有一个鸿沟，不能归为一类。手写2，虽然一开始与数字2有一些差距，但能通过很多相似的其他2逐步看出变化，看出二者有联系。但如果单纯算pixel相似度，就很不像。人的左脸与右脸可能差很多，但是如果有各个角度的脸的照片，就能看出是否是一个人的照片。