本章课程PDF,视频(油管B站)。

Step 1: Function Set


Step 2: Goodness of a Function



Step 3: Find the best function



Logistic Regression v.s. Linear Regression

Logistic Regression + Square Error


使用Square Error时,会发现,距离目标很近时候,微分为0,距离目标很远时候,微分也为0。

Cross Entropy v.s. Square Error

上图是参数的变化和Total Loss的变化。Cross Entropy距离目标越远,微分值越大,参数update越快;Square Error距离目标很远时候,微分值很小,参数update就很慢。可能你会想到,我们可以在Square Error的微分值很小的时候把learning rate设的大一点,但微分值很小的时候,也有可能是距离目标值很近,我们分不清楚微分值小时候是距离目标很近还是很远,所以没办法确定learning rate设置是小还是大。所以, 我们使用Cross Entropy可以让training顺利很多。

Discriminative v.s. Generative

我们把Logistic Regression方法称为Discriminative方法,上节课用Gaussion来描述Posterior Probability的方法称为Generative方法。

虽然使用了同一个模型,但是寻找$w$和$b$的方法不用,找到的$w$和$b$也是不同的。

为什么Dicriminative Model要好于Generative Model?我们举例说明下:


Generative Model经过计算判断Testing Data是Class 1的几率小于0.5,原因在于Generative Modle会适当脑补一些情形。

  • Usually people believe discriminative model is better
  • Benefit of generative model
    • With the assumption of probability distribution, less training data is needed
    • With the assumption of probability distribution, more robust to the noise
    • Priors and class-dependent probabilities can be estimated from different sources.

Multi-class Classfication


Limitation of Logistic Regression

假设现在的输入数据是黄色框框里的,此时我们可以用Logistic Regression处理这个问题吗?

这件事情我们是没有办法办到的。

我们可以使用Feature Transformation,把问题转换为Logistic Regression可以处理的问题。




我们可以把每个Logistic Regression叫做Neural,合起来就可以叫做Neural Network,这就是DeepLearning。

如果本博文对您有帮助,可以赞助支持一波博主~