简单地说,逻辑回归(回归)是一种用于解决二元分类(0或1)问题的机器学习方法,用于估计某事物的可能性。 例如,某个用户购买某种产品的可能性、某个患者患有某种疾病的可能性、某个广告被用户点击的可能性等。 请注意,这里使用的是“可能性”,而不是数学上的“概率”。 回归结果不是数学定义中的概率值,不能直接用作概率值。 结果通常用作与其他特征值的加权和,而不是直接相乘。
那么逻辑回归和线性回归之间有什么关系呢?
逻辑回归( )和线性回归( )都是广义线性模型(模型)。 逻辑回归假设因变量 y 服从伯努利分布,而线性回归假设因变量 y 服从高斯分布。 因此,它与线性回归有很多相似之处。 如果去掉映射函数,逻辑回归算法就是线性回归。 可以说,逻辑回归在理论上是有线性回归支持的,但逻辑回归通过函数引入了非线性因素,因此可以轻松处理0/1分类问题。
假设函数 ( )
首先我们需要引入函数,也称为逻辑函数( ):
其函数曲线如下:
从上图可以看出,函数是一条S形曲线,其值在[0, 1]之间。 在远离0的地方,函数的值会很快接近0或1。这个特性对于解决二元分类问题非常重要。
逻辑回归的假设函数形式如下:
所以:
其中 x 是我们的输入,θ 是我们想要获得的参数。
机器学习模型实际上将决策函数限制在一组条件下,而这组限制条件决定了模型的假设空间。 当然,我们也希望这套约束条件简单合理。 逻辑回归模型所做的假设是:
该函数的含义是给定 x 和 θ 时 y=1 的概率。
这里g(h)就是我们上面提到的函数,对应的决策函数是:
选择0.5作为阈值是一般做法。 在实际应用中,可以根据具体情况选择不同的阈值。 如果识别正例的准确率较高,可以选择较大的阈值。 如果正例的召回率较高,可以选择一个阈值。 较小。
决策边界 ( )
决策边界也称为决策面,是N维空间中用于分隔不同类别样本的平面或曲面。
注意:决策边界是假设函数的属性,由参数决定,而不是由数据集的特征决定。
这里引用Ng课程中的两张图片来解释这个问题:
这里的决策边界是:-3+x_1+x_2=0
这里的决策边界是:-1+x_1^2+x_2^2 = 0
上面两张图很清楚的说明了什么是决策边界。 决策边界实际上是一个方程。 在逻辑回归中,决策边界由 θ^Tx=0 定义。
这里要注意理解假设函数和决策边界函数的区别和联系。 决策边界是假设函数的一个属性,由假设函数的参数 (θ) 确定。
在逻辑回归中,假设函数h=g(z)用于计算样本属于某个类别的可能性; 决策函数 0.5">y^* = 1,如果 P(y=1|x)>0.5 用于计算(给定)样本的类别;决策边界 \theta^Tx=0 是一个方程,用于识别分类函数(模型)的分类边界。
成本函数(Cost) 什么是成本函数?
假设有一个训练样本(x,y),模型为h,参数为θ。 h(\theta) = \theta^Tx (\theta^T 表示 \theta 的转置)。
。 一般来说,任何能够衡量模型预测值h(\theta)与真实值y之间差异的函数都可以称为成本函数C(\theta)。 如果有多个样本,可以将所有代价函数的值进行平均,记为J(\theta)。 因此,很容易推导出成本函数的以下性质:
。 当我们确定了模型h后,接下来我们需要做的就是训练模型的参数θ。 那么模型训练什么时候结束呢? 这个时候还涉及到成本函数。 既然成本函数是用来衡量模型质量的,那么我们的目标当然是得到最好的模型(即与训练样本最匹配的模型)。 因此,训练参数的过程就是不断改变θ以获得更小的J(θ)。 理想情况下,当我们得到成本函数J的最小值时,我们就得到了最优参数θ,记为:
例如,J(\theta)=0 意味着我们的模型完美拟合观测数据,没有任何误差。
。 在优化参数θ的过程中,最常用的方法是梯度下降,其中梯度是成本函数J(\theta)对\, \, ..., \的偏导数。 由于我们需要求偏导数,我们可以得到关于成本函数的另一个性质:
成本函数的常见形式
经过上面的描述,一个好的成本函数需要满足两个最基本的要求:它能够评估模型的准确性,并且对于参数θ是可微的。
。 在线性回归中,最常用的是均方误差(Mean error),即
。 在逻辑回归中,最常用的成本函数是交叉熵(Cross)。 交叉熵是一种常见的成本函数,也用于神经网络中。 以下是《神经网络与深度学习》一书中对交叉熵的解释:
交叉熵是“意外性”的度量(译者注:原文中使用)。 神经元的目标是计算函数 x→y=y(x)。 但我们让它计算函数 x→a=a(x)。 假设我们将 a 视为 y 等于 1 的概率,而 1-a 是 y 等于 0 的概率。那么,交叉熵衡量的是当我们知道 的真实值时,我们的平均“意外”程度y。 当产出符合我们的预期时,我们的“意外”程度相对较低; 当产出不符合我们的预期时,我们的“意外”程度就比较高。
1948年,克劳德·埃尔伍德·香农( )将热力学熵引入信息论,因此又称为香农熵( ),是香农信息量( ,SIC)的期望。 香农信息用来衡量不确定性的大小:一个事件的香农信息等于0,这意味着该事件的发生不会为我们提供任何新的信息。 例如,对于一个确定性事件,发生的概率是1。它不会引起任何意外; 当不可能的事件发生时,香农信息量是无限的,这意味着它为我们提供了无限的新信息,让我们无限惊讶。 更多解释可以在这里找到。
但我们可能会疑问,为什么成本函数要这样定义呢? 下面我简单解释一下:
PS:因为文章里公式太多,编辑的时候就开始卡壳了。 我先在这里写这篇文章。 请看接下来的内容:
逻辑回归 ( ) (2)
:
【机器学习】ML笔记-回归( )
新浪博客功能详解
逻辑回归决策边界--
【机器学习】成本函数(cost)