回归分析

2025-08-03 09:03:07

本条目存在以下问题,请协助改善本条目或在讨论页针对议题发表看法。

此条目需要扩充。 (2018年11月8日)请协助改善这篇条目,更进一步的信息可能会在讨论页或扩充请求中找到。请在扩充条目后将此模板移除。

此条目需要精通或熟悉相关主题的编者参与及协助编辑。 (2018年11月8日)请邀请适合的人士改善本条目。更多的细节与详情请参见讨论页。

此条目需要补充更多来源。 (2018年11月8日)请协助补充多方面可靠来源以改善这篇条目,无法查证的内容可能会因为异议提出而被移除。致使用者:请搜索一下条目的标题(来源搜索:"回归分析" — 网页、新闻、书籍、学术、图像),以检查网络上是否存在该主题的更多可靠来源(判定指引)。

统计学系列条目回归分析

模型

线性回归

简单线性回归

普通最小二乘法(OLS)

多项式回归

一般线性模型

广义线性模式

离散选择(英语:Discrete choice)

对数几率回归

多项罗吉特(英语:Multinomial logit)

混合罗吉特

波比(英语:Probit model)

多项式波比(英语:Multinomial probit)

排序性模型(英语:Ordered logit)

有序波比(英语:Ordered probit)

泊松回归

等级线性模型

固定效应(英语:Fixed effects model)

随机效应(英语:Random effects model)

混合模型(英语:Mixed model)

非线性回归

非参数

半参数

稳健

分位数回归

保序回归

主成分

最小角

局部(英语:Local regression)

分段

含误差变量(英语:Errors-in-variables models)

估计

最小二乘法

普通最小二乘法

线性

偏最小二乘回归

总体(英语:Total least squares)

广义

加权

非线性

非负(英语:Non-negative least squares)

重复再加权(英语:Iteratively reweighted least squares)

脊回归(岭回归)

LASSO

最小绝对值导数法(英语:Least absolute deviations)

贝叶斯(英语:Bayesian linear regression)

贝叶斯多元

背景

回归模型验证(英语:Regression model validation)

平均响应和预测响应(英语:Mean and predicted response)

误差和残差

拟合优度

学生化残差(英语:Studentized residual)

高斯-马尔可夫定理

概率与统计主题查论编

简单线性回归分析的例子

回归分析(英语:Regression Analysis)是一种统计学上分析数据的方法,目的在于了解两个或多个变数间是否相关、相关方向与强度,并建立数学模型以便观察特定变数来预测研究者感兴趣的变数。更具体的来说,回归分析可以帮助人们了解在只有一个自变量变化时因变量的变化量。一般来说,通过回归分析我们可以由给出的自变量估计因变量的条件期望。

回归分析是建立被解释变数

Y

{\displaystyle Y}

(或称应变数、依变数、反应变数)与解释变数

X

{\displaystyle X}

(或称自变数、独立变数)之间关系的模型。简单线性回归使用一个自变量

X

{\displaystyle X}

,复回归使用超过一个自变量(

X

1

,

X

2

.

.

.

X

i

{\displaystyle X_{1},X_{2}...X_{i}}

)。

起源[编辑]

回归的最早形式是最小二乘法,由1805年的勒让德(Legendre)[1],和1809年的高斯(Gauss)出版[2]。勒让德和高斯都将该方法应用于从天文观测中确定关于太阳的物体的轨道(主要是彗星,但后来是新发现的小行星)的问题。 高斯在1821年发表了最小二乘理论的进一步发展[3],包括高斯-马尔可夫定理的一个版本。

“回归”一词最早由法兰西斯·高尔顿(Francis Galton)所使用[4][5]。他曾对亲子间的身高做研究,发现父母的身高虽然会遗传给子女,但子女的身高却有逐渐“回归到中等(即人的平均值)”的现象。不过现在的回归已经和当初的意义不尽相同。

在1950年代和60年代,经济学家使用机械电子桌面计算器来计算回归。在1970年之前,这种计算方法有时需要长达24小时才能得出结果[6]。

回归分析原理[编辑]

目的在于找出一条最能够代表所有观测资料的函数曲线(回归估计式)。

用此函数代表因变数和自变数之间的关系。

母数估计[编辑]

动差估计(Method of Moment;MOM)

最小二乘法(Ordinary Least Square Estimation;OLSE)

最大似然估计(Maximum Likelihood Estimation;MLE)

回归模型[编辑]

回归模型主要包括以下变量:

未知参数,记为

β

{\displaystyle \beta }

,可以代表一个标量或一个向量。

自变量,

X

{\displaystyle \mathbf {X} }

因变量,

Y

{\displaystyle Y}

回归模型将

Y

{\displaystyle Y}

和一个关于

X

{\displaystyle \mathbf {X} }

β

{\displaystyle \beta }

的函数关联起来。

在不同的应用领域有各自不同的术语代替这里的“自变量”和“因变量”。

Y

f

(

X

,

β

)

{\displaystyle Y\approx f(\mathbf {X} ,{\boldsymbol {\beta }})}

这个估计值通常写作:

E

(

X

|

Y

)

=

f

(

X

,

β

)

{\displaystyle E(X|Y)=f(\mathbf {X} ,{\boldsymbol {\beta }})}

在进行回归分析时,函数

f

{\displaystyle f}

的形式必须预先指定。有时函数

f

{\displaystyle f}

的形式是在对

Y

{\displaystyle Y}

X

{\displaystyle \mathbf {X} }

关系的已有知识上建立的,而不是在数据的基础之上。如果没有这种已有知识,那么就要选择一个灵活和便于回归的

f

{\displaystyle f}

的形式。

假设现在未知向量

β

{\displaystyle \beta }

的维数为k。为了进行回归分析,必须要先有关于

Y

{\displaystyle Y}

的信息:

如果以

(

Y

,

X

)

{\displaystyle (Y,\mathbf {X} )}

的形式给出了

N

{\displaystyle N}

个数据点,当

N

<

k

{\displaystyle N

时,大多数传统的回归分析方法都不能进行,因为数据量不够导致回归模型的系统方程不能完全确定

β

{\displaystyle \beta }

如果恰好有

N

=

k

{\displaystyle N=k}

个数据点,并且函数

f

{\displaystyle f}

的形式是线性的,那么方程

Y

=

f

(

X

,

β

)

{\displaystyle Y=f(\mathbf {X} ,{\boldsymbol {\beta }})}

能精确求解。这相当于解一个有

N

{\displaystyle N}

个未知量和

N

{\displaystyle N}

个方程的方程组。在

X

{\displaystyle \mathbf {X} }

线性无关的情况下,这个方程组有唯一解。但如果

f

{\displaystyle f}

是非线性形式的,解可能有多个或不存在。

实际中

N

>

k

{\displaystyle N>k}

的情况占大多数。这种情况下,有足够的信息用于估计一个与数据最接近的

β

{\displaystyle \beta }

值,这时当回归分析应用于这些数据时,可以看作是解一个关于

β

{\displaystyle \beta }

的超定方程(英语:Overdetermined system)。

在最后一种情况下,回归分析提供了一种完成以下任务的工具:

⒈找出一个未知量

β

{\displaystyle \beta }

的解使因变量

Y

{\displaystyle Y}

的预测值和实际值差别最小(又称最小二乘法)。

⒉在特定统计假设下,回归分析使用数据中的多余信息给出关于因变量

Y

{\displaystyle Y}

和未知量

β

{\displaystyle \beta }

之间的关系。

回归分析的种类[编辑]

简单线性回归[编辑]

简单线性回归(英语:simple linear regression)

应用时机

以单一变数预测

判断两变数之间相关的方向和程度

复回归(或多变量回归)[编辑]

复回归分析(英语:multiple regression analysis)是简单线性回归的一种延伸应用,用以了解一个依变项与两组以上自变项的函数关系。

对数线性回归[编辑]

对数线性回归(英语:Log-linear model)(英语:Log-linear model),是将解释变项(实验设计中的自变项)和反应变项(实验设计中的依变项)都取对数值之后再进行线性回归,所以依据解释变项的数量,可能是对数简单线性回归,也可能是对数复回归。

非线性回归[编辑]

对数几率回归[编辑]

主条目:对数几率回归

对数几率回归(英语:Logistic Regression)

偏回归[编辑]

偏回归(英语:Partial Regression)(英语:Partial Regression)

用于研究单个自变数对因变数的影响,同时控制其他自变数的影响。它通常应用在多元回归模型中,以解决自变数之间存在共线性时的问题,或者用于探索自变数之间的相互作用。

自回归[编辑]

主条目:自回归模型

自回归滑动平均模型[编辑]

主条目:ARMA模型

差分自回归滑动平均模型[编辑]

主条目:ARIMA模型

向量自回归模型[编辑]

主条目:向量自回归模型

参阅[编辑]

概率与统计主题

曲线拟合

估计理论

广义线性模型

多元正态分布

皮尔逊积矩相关系数

信号处理

相关分析

多变量统计

参考资料[编辑]

^ A.M. Legendre. Nouvelles méthodes pour la détermination des orbites des comètes (页面存档备份,存于互联网档案馆), Firmin Didot, Paris, 1805. “Sur la Méthode des moindres quarrés” appears as an appendix.

^ C.F. Gauss. Theoria Motus Corporum Coelestium in Sectionibus Conicis Solem Ambientum. (1809)

^ C.F. Gauss. Theoria combinationis observationum erroribus minimis obnoxiae (页面存档备份,存于互联网档案馆). (1821/1823)

^

Mogull, Robert G. Second-Semester Applied Statistics. Kendall/Hunt Publishing Company. 2004: 59. ISBN 0-7575-1181-3.

^ Galton, Francis. Kinship and Correlation (reprinted 1989). Statistical Science (Institute of Mathematical Statistics). 1989, 4 (2): 80–86. JSTOR 2245330. doi:10.1214/ss/1177012581.

^ Rodney Ramcharan. Regressions: Why Are Economists Obessessed with Them? (页面存档备份,存于互联网档案馆) March 2006. Accessed 2011-12-03.

外部链接[编辑]

解读回归分析的原理及结构

查论编统计学描述统计学连续概率集中趋势

平均数

平方

算术

几何

调和

算术-几何

几何-调和

希罗/平均数不等式

中位数

众数

离散程度

全距

变异系数

百分位数

四分位距

四分位数

标准差

方差

平均差

标准分数

切比雪夫不等式

基尼系数

分布形态(英语:Shape of the distribution)

中心极限定理

偏态

峰态

离散概率

次数(英语:Count data)

列联表

推论统计学和假说检定推论统计学

置信区间

区间估计

显著性差异

元分析

贝叶斯推断

实验设计

总体

抽样

重抽样

刀切法

自助法

交叉验证

重复(英语:Replication (statistics))

区集(英语:Blocking (statistics))

灵敏度和特异度

缺失数据

样本量(英语:Sample size)

标准误

零假设

备择假设

第一类错误与第二类错误

统计功效

效应值

常规估计

贝叶斯推断

区间估计

最大似然估计

最小距离估计(英语:Minimum distance estimation)

矩估计

最大间距

假设检验

Z检验

学生t检验

F检定

卡方检验

Wald检定(英语:Wald test)

曼-惠特尼检定(英语:Mann–Whitney U test)

秩和检验

生存分析

生存函数

乘积极限估计量

对数秩和检定

失效率

危险比例模式

相关及回归分析相关性

干扰因素

皮尔逊积矩相关系数

等级相关(英语:Rank correlation) (斯皮尔曼等级相关系数

肯德等级相关系数(英语:Kendall tau rank correlation coefficient))

自由度

误差和残差

线性回归

线性模型(英语:Linear model)

一般线性模型

广义线性模型

简单线性回归

普通最小二乘法

贝叶斯回归(英语:Bayesian linear regression)

方差分析

协方差分析(英语:Analysis of covariance)

非线性回归

非参数回归模型(英语:Nonparametric regression)

半参数回归模型(英语:Semiparametric regression)

逻辑斯谛回归

统计图形

饼图

条形图

双标图

箱形图

管制图

森林图(英语:Forest plot)

直方图

分位图

趋势图

散点图

茎叶图

雷达图(英语:Radar chart)

示意地图

其他

统计类型(维基数据:Q47103999)

回应过程效度

统计误用

分类

主题

共享资源

专题

词汇表

查论编机器学习同数据挖掘主题基本概念学习 · 图灵测试 · 运算学习论数学模型回归模型 · 人工神经网络(深度学习) · 生成对抗网络 · Transformer模型 · 大语言模型 · 决策树 · 贝氏网路 · 支持向量机 · 关联规则学习学习范式机器学习 · 深度学习 · 迁移学习 · 微调 (深度学习) · 监督学习 · 半监督学习 · 无监督学习 · 强化学习 · Q学习 · 遗传演算法主要应用统计分类 · 表征学习 · 降维 · 聚类分析 · 异常检测相关领域计算科学 · 人工智能 · 通用人工智慧 · 生成式人工智慧 · 提示工程 · 统计学 · 数据科学 · 计算机科学 · 信息与计算科学 · 神经科学 · 认知科学

查论编可微分计算概论

可微分编程

自动微分

张量微积分

信息几何

统计流形

神经形态工程(英语:Neuromorphic engineering)

模式识别

运算学习理论(英语:Computational learning theory)

归纳偏置

概念

梯度下降

SGD(英语:Stochastic gradient descent)

聚类

回归

过拟合

幻觉

对抗(英语:Adversarial machine learning)

注意力

卷积

损失函数

反向传播

激活函数

softmax

sigmoid

ReLU

正则化

数据集

扩散(英语:Diffusion process)

自回归

应用

机器学习

人工神经网络

深度学习

科学计算

人工智能

语言模型

大型语言模型

硬件

TPU

VPU

IPU(英语:Graphcore)

忆阻器

SpiNNaker(英语:SpiNNaker)

软件库

Theano

TensorFlow

Keras

PyTorch

JAX

Flux.jl(英语:Flux (machine-learning framework))

主题

计算机编程

技术

分类

人工神经网络

机器学习

规范控制数据库 国际

FAST

各地

法国

BnF data

德国

以色列

美国

日本

捷克