线性回归 梯度下降原理与基于Python的底层代码实现
创始人
2025-05-31 18:15:34
0

线性回归基础知识可查看该专栏中其他文章。

文章目录

  • 1 梯度下降算法原理
  • 2 一元函数梯度下降示例代码
  • 3 多元函数梯度下降示例代码

1 梯度下降算法原理

梯度下降是一种常用的优化算法,可以用来求解许包括线性回归在内的许多机器学习中的问题。前面讲解了直接使用公式求解θ\thetaθ (最小二乘法的求解推导与基于Python的底层代码实现),但是对于复杂的函数来说,可能较难求出对应的公式,因此需要使用梯度下降。

假设我们要求解的线性回归公式是:

y=β0+β1x1+β2x2+...+βnxn+ϵy = \beta_0 + \beta_1x_1 + \beta_2x_2 + ... + \beta_nx_n + \epsilony=β0​+β1​x1​+β2​x2​+...+βn​xn​+ϵ

其中 yyy 是因变量,βi\beta_iβi​ 是回归系数,xix_ixi​ 是自变量,ϵ\epsilonϵ 是误差项。我们的目标是找到一组回归系数 βi\beta_iβi​,使得模型能够最小化误差。

使用梯度下降算法求解线性回归可以分为以下步骤:

  1. 随机初始化回归系数 βi\beta_iβi​。

  2. 计算模型的预测值 y^\hat{y}y^​:

y^=β0+β1x1+β2x2+...+βnxn\hat{y} = \beta_0 + \beta_1x_1 + \beta_2x_2 + ... + \beta_nx_ny^​=β0​+β1​x1​+β2​x2​+...+βn​xn​

  1. 计算误差(或损失函数):

J(β0,β1,...,βn)=12m∑i=1m(yi−yi^)2J(\beta_0, \beta_1, ..., \beta_n) = \frac{1}{2m}\sum_{i=1}^{m}(y_i - \hat{y_i})^2J(β0​,β1​,...,βn​)=2m1​i=1∑m​(yi​−yi​^​)2

其中 mmm 是样本数量,yiy_iyi​ 是第 iii 个样本的真实值,yi^\hat{y_i}yi​^​ 是对应的预测值。

  1. 计算误差对于每个回归系数的偏导数:

∂J∂βj=1m∑i=1m(yi^−yi)xij\frac{\partial J}{\partial \beta_j} = \frac{1}{m}\sum_{i=1}^{m}(\hat{y_i} - y_i)x_{ij}∂βj​∂J​=m1​i=1∑m​(yi​^​−yi​)xij​

其中 xijx_{ij}xij​ 是第 iii 个样本的第 jjj 个特征值。

  1. 使用梯度下降更新回归系数:

βj=βj−α∂J∂βj\beta_j = \beta_j - \alpha\frac{\partial J}{\partial \beta_j}βj​=βj​−α∂βj​∂J​

其中 α\alphaα 是学习率,用来控制更新的步长。

  1. 重复步骤 2-5多次,直到误差达到某个预定的阈值或者达到预设的迭代次数。

梯度下降算法会不断迭代,直到误差最小化。通过不断更新回归系数,模型逐渐拟合数据,从而得到最终的结果。
在这里插入图片描述

(非常经典的图,已经要盘包浆了)

2 一元函数梯度下降示例代码

  1. 导入此次代码所需的包,设置绘图时正常处理中文字符。
import numpy as np  
import matplotlib as mpl  
import matplotlib.pyplot as plt  mpl.rcParams['font.sans-serif'] = [u'SimHei']  
mpl.rcParams['axes.unicode_minus'] = False
  1. 定义本次要模拟的函数。为了方便起见,这里直接对函数的导数进行了定义。也可根据需要调包求梯度或者自己写一个求偏导的类。
# 一维原始图像  
def f1(x):  return 0.5 * (x - 2) ** 2  
# 导函数  
def h1(x):  return 0.5 * 2 * (x - 2)
  1. 初始化梯度下降中的参数
GD_X = []  
GD_Y = []  
x = 4  
alpha = 0.1  
f_change = 1  
f_current = f1(x)  
GD_X.append(x)  
GD_Y.append(f_current)  
iter_num = 0

此处GD_X与GD_Y两个列表分别用于存储梯度下降的每一步取值,用于后面的画图。x是梯度下降的起点,可设置为随机数。f_change用于存储执行每次循环之后,y的变化值。此处赋值的意义仅在于确保能进入下面的循环而不会报错。iter_num用于记录循环执行的次数。alpha学习率,取值过大容易难以收敛,取值过小容易增加计算量。
4. 梯度下降步骤的循环

while f_change > 1e-10 and iter_num < 1000:iter_num += 1  x = x - alpha * h1(x)  tmp = f1(x)  f_change = np.abs(f_current - tmp)  f_current  = tmp  GD_X.append(x)  GD_Y.append(f_current)

循环结束的标准为:两次循环的y值变化(即f_change)小于1e-10或循环次数大于100。
每次循环,x的变化量都是学习率乘以这一点的梯度。之后计算变化后x对应的y和变化前x对应的外,获得两次y的差值。并将每次运行的结果使用append保存到列表之中。
5. 结果输出

print(u"最终结果为:(%.5f, %.5f)" % (x, f_current))  
print(u"迭代次数:%d" % iter_num)

image.png
大概100次后,我们找到了损失函数最小值所对应的x。
6. 结果绘图

X = np.arange(-2, 6, 0.05)  
Y = np.array(list(map(lambda t: f1(t), X)))  plt.figure(facecolor='w')  
plt.plot(X, Y, 'r-', linewidth=2)  
plt.plot(GD_X, GD_Y, 'bo--', linewidth=2)  
plt.title(f'函数$y=0.5 * (θ - 2)^2$ \n学习率:{alpha:.3f}  最终解:x={x:.3f} y={f_current:.3f}  迭代次数:{iter_num}')  
plt.show()

可以自行尝试不同的起点,不同的学习速率对结果的影响。
在这里插入图片描述
在这里插入图片描述

3 多元函数梯度下降示例代码

当变量数为2时,梯度下降可以使用3维绘图展示。当变量书超过2时,损失函数变为超平面难以展示,因此此处以二元函数为例。

  1. 定义本次要模拟的函数。
# 二元函数定义  
def f2(x, y):  return (x - 2) ** 2 + 2* (y + 1) ** 2  
# 偏导数  
def hx2(x, y):  return 2*(x - 2)  
def hy2(x, y):  return 4*(y + 1)

与一元函数相同,我们对函数的偏导数直接定义,减少非本博客相关的代码。
2. 初始化梯度下降中的参数

GD_X1 = []  
GD_X2 = []  
GD_Y = []  
x1 = 4  
x2 = 4  
alpha = 0.01  
f_change = 1  
f_current = f2(x1, x2)  
GD_X1.append(x1)  
GD_X2.append(x2)  
GD_Y.append(f_current)  
iter_num = 0

这里与一元函数的参数基本相同,只是多了一个用于存储额外维度的listGD_X2。
3. 梯度下降步骤的循环

while f_change > 1e-10 and iter_num < 1000:  iter_num += 1  prex1 = x1  prex2 = x2  x1 = x1 - alpha * hx2(prex1, prex2)  x2 = x2 - alpha * hy2(prex1, prex2)  tmp = f2(x1, x2)  f_change = np.abs(f_current - tmp)  f_current = tmp  GD_X1.append(x1)  GD_X2.append(x2)  GD_Y.append(f_current)  print(u"最终结果为:(%.3f, %.3f, %.3f)" % (x1, x2, f_current))  
print(u"迭代次数:%d" % iter_num)

此处的逻辑与一元函数基本相同。对于每一个x,都使用对应的偏导数乘以学习速率,从而获得新的x值。如果是二元以上的多元函数同理。
运行结果为:
image.png

  1. 绘图
X1 = np.arange(-5, 5, 0.2)  
X2 = np.arange(-5, 5, 0.2)  
X1, X2 = np.meshgrid(X1, X2)  
Y = np.array(list(map(lambda t: f2(t[0], t[1]), zip(X1.flatten(), X2.flatten()))))  
Y.shape = X1.shapefig = plt.figure(facecolor='w')  
ax = Axes3D(fig)  
ax.plot_surface(X1, X2, Y, rstride=1, cstride=1, cmap=plt.cm.jet, alpha=0.8)  
ax.plot(GD_X1, GD_X2, GD_Y, 'ko-')  
ax.set_xlabel('x')  
ax.set_ylabel('y')  
ax.set_zlabel('z')  
plt.show()

对于三维数据,我们使用meshgrid构建了绘图网格,用于绘制函数图像。在绘制完函数图像的基础上,绘制梯度下降每一步的图像。绘制折线图时,ko-代表黑色、圆点、虚线。
(3D图像建议设置为单独显示,方便拖动视角查看)
在这里插入图片描述

实际上,梯度下降的种类也有很多,比如随机梯度下降、批量梯度下降,小批量梯度下降。这些内容将会在下一篇博客中进行讲解。

相关内容

热门资讯

拜城县千佛洞旅游景点特色有哪些... 拜城县千佛洞,位于新疆阿克苏地区拜城县,是丝绸之路上一处重要的佛教艺术遗址。它始建于公元4世纪,唐朝...
恩施旅游攻略5日游景点有哪些,... 出发前刷攻略刷到头秃,看到人均预算500元就能玩转恩施的帖子时,我直接笑出声——这年头旅游哪有这么便...
中山热门景点两日游攻略 中山旅游景点攻略:两天一日游,带你玩转中山! 嘿,计划来中山游玩的小伙伴们!是不是已经迫不及待想要开...
常熟人吃鱼的108种姿势:从科... 一条鲤鱼游出的千年文化密码 当苏州少年金耀星在天津全国烹饪大赛上,用迷你版果汁松鼠桂鱼斩获特金奖时,...
旅游还有哪些不开心的事 旅游中的“闹心”事儿,你遇到过几件? 旅游,本是一场逃离日常琐碎,奔赴诗和远方的美好旅程。然而,现...
陕西金延安端午文旅盛宴点燃文化... 又是一年端阳到,龙舟竞渡粽香飘。节日期间,陕西省延安市金延安旅游度假区将红色演艺与主题教育相结合,精...
去四川旅游攻略旅游团五日游要花... 标题:【我的四川五日游亲测报告:跟着本地导游乐乐玩转四川,花费竟如此实惠!】 四川旅游推荐!当地导游...
全球农创客训练营走进云南以“咖... 央广网北京6月2日消息(记者韩雪莹)据中央广播电视总台中国之声《新闻纵横》报道,一杯咖啡,可以让人头...
15道 旺销特色菜,创意融合 藜蒿炒腊肉 原料: 腊肉(肥三瘦七)300克,鄱阳湖藜蒿300克,韭菜段150克,盐、红辣椒段、蒜...
家里有个会做饭的男人太幸福了,... 姐妹们!你们知道家里有个会做饭的老公是什么体验吗?那就是——每天下班回家都能吃到热腾腾的饭菜,关键还...
原创 5... 姐妹们,今天给你们分享个我家每周必吃的省钱神菜—— 酸辣土豆丝!成本不到5块钱,10分钟出锅,每次炒...
原创 半... 朋友们,今天教你们一个偷懒都能被夸厨神的神仙做法! 只要电饭锅会煮饭,你就能做出甜到粘嘴唇的照烧五花...
原创 R... 曾经风头无两的韩国超级偶像Rain与他的妻子金泰熙已经携手走过七个年头,虽然外界对他们婚后生活的报道...
“龙腾端午·梧现精彩”非遗好市... 6月1日,由梧州市文化广电体育和旅游局主办的“龙腾端午·梧现精彩”非遗好市在梧州市西堤公园持续开展。...
上海海派旗袍文化节开幕,推出3... 静态展览,动态走秀,互动体验……6月1日,“旗韵绽芳华”——6·6上海海派旗袍文化节在张园拉开帷幕。...
华程国旅推出“欧洲循环巴士游” 英国当地时间5月27日下午,华程国旅集团TRIP2EU“欧洲循环巴士游”发布会伦敦站在伦敦千禧酒店举...
原创 6... “来来来,尝尝我们厂的窑鸡,特意给你加的菜!”何家劲笑容满面,将一整盘热腾腾的窑鸡推到黄日华面前。 ...
原创 以... #优质好文激励计划# “以前人人爱吃的小龙虾,为啥现在不火了?内行:4个原因很难改变” 家人们,谁...
吉木萨尔县第三届厦吉文化美食汇... 5月31日,为期3天的“百味醉天山 闽疆共飨宴”昌吉州旅游文化美食节系列活动之吉木萨尔县第三届厦吉文...
去四川旅游攻略当地团五天四晚要... 标题:去四川旅游攻略当地团五天四晚要花多少钱,驴友亲测!跟着乐乐玩转四川 四川旅游推荐!当地导游-乐...