线性回归是一种广泛使用的统计方法,用于建立因变量和一个或多个自变量之间的关系模型。它是通过最小化预测值与实际观测值之间的差异(残差平方和)来找到最佳拟合直线的。
在简单线性回归中,只有一个自变量x和一个因变量y。线性回归试图找到一条直线,使得所有数据点到这条直线的距离(以垂直距离衡量)之和最小。这条直线可以表示为y = a + bx,其中a是截距,b是斜率。
在多元线性回归中,有两个或两个以上的自变量x1, x2, ..., xn和一个因变量y。线性回归试图找到一个超平面,使得所有数据点到这个超平面的距离(以垂直距离衡量)之和最小。这个超平面可以表示为y = a + b1x1 + b2x2 + ... + bnxn,其中a是截距,b1, b2, ..., bn是回归系数。
线性回归的应用非常广泛,包括预测、分类、数据分析等。例如,在市场营销中,可以通过线性回归分析广告投入与销售额的关系;在医学研究中,可以通过线性回归分析吸烟量与肺癌发病率的关系。