`

21种回归算法整理

阅读更多
回归分析是预测建模技术的一种形式,它研究因变量(目标)与自变量(预测变量)之间的关系 。该技术用于预测,时间序列建模以及查找变量之间的因果关系。例如,通过回归研究逃课次数与期末成绩的关系。
线性和逻辑回归通常是人们在数据科学中学习的第一个算法。由于它们的流行,许多分析师甚至最终认为它们是回归的唯一形式。参与程度稍高的人都知道它们是所有形式的回归分析中最重要的。
事实是,可以执行无数种形式的回归。每种形式都有其自身的重要性和最适合应用的特定条件。在本文中,将介绍其中的21种回归算法:
1.简单线性回归(Simple Linear Regression )
2.逻辑回归(Logistic regression)
3.套索回归(Lasso Regression) 
4.多元回归(ultivariate Regression)
5.神经网络回归(Neural Network Regression)
6.决策树回归(Decision Tree Regression)
7.岭回归(Ridge Regression)
8.ElasticNet Regression
9.多项式回归(Polynomial Regression)
10.托比特回归(Tobit Regression)
11.逐步回归(Stepwise Regression)
12.分位数回归(Quantile Regression)
13.主成分回归(Principal Components Regression (PCR))
14.偏最小二乘回归(Partial Least Squares (PLS) Regression)
15.支持向量回归(Support Vector Regression)
16.有序回归(Ordinal Regression)
17.泊松回归(Poisson Regression)
18.负二项回归(Negative Binomial Regression)
19.准泊松回归(Quasi Poisson Regression)
20.考克斯回归(Cox Regression)

各回归算法的概要介绍如下:
1.简单线性回归(Simple Linear Regression )
线性回归使用最佳拟合直线(也称为回归线)在因变量(Y)和一个或多个自变量(X)之间建立关系。
它由等式Y = a + b * X + e表示,其中a是截距,b是直线的斜率,e是误差项。该方程式可用于基于给定的预测变量来预测目标变量的值。
2.逻辑回归(Logistic regression)                             
用于查找事件=成功和事件=失败的概率。当因变量本质上是二进制(0/1,True / False,Yes / No)时,我们应该使用逻辑回归。在此,Y的值在0至1的范围内,并且可以由以下等式表示。在线性回归的基础上做归一化处理即可得到逻辑回归

3.套索回归(Lasso Regression)                                
与“岭回归”相似,“套索”(最小绝对收缩和选择算子)也惩罚了回归系数的绝对大小。此外,它能够减少变异性并提高线性回归模型的准确性。看下面的方程式:套索回归与岭回归的不同之处在于,它在惩罚函数中使用绝对值而不是平方。这导致惩罚(或等效地约束估计的绝对值之和)值,这导致某些参数估计精确地变为零。施加的惩罚越大,则估计值进一步缩水至绝对零。这导致从给定的n个变量中选择变量。
4.多变量回归(Multivariate Regression)                       
多元回归是一种用于测量一个以上自变量(预测因子)和一个以上因变量(反应因子)线性相关程度的方法。该方法被广泛用于预测响应变量的行为,该响应变量与预测变量的变化相关联,一旦建立了期望的关系程度。多元回归是一种有监督的机器学习算法,涉及多个数据变量进行分析。多元回归是具有一个因变量和多个自变量的多元回归的扩展。基于自变量的数量,我们试图预测输出。
5.神经网络回归(Neural Network Regression)                   
通过将最后一个激活函数(输出神经元)替换为线性激活函数,可以将输出映射到固定类别之外的各种值。这样,输出不是将输入分类为任何一个类别的概率,而是神经网络将观测值置于其上的连续值。从这个意义上讲,它就像是线性回归的神经网络的补充。

神经网络回归具有非线性(除了复杂性)的优点,可以在神经网络中较早地通过S型和其他非线性激活函数引入神经网络。但是,由于ReLU忽略了负值之间的相对差异,因此过度使用ReLU(整流线性单位)作为激活函数可能意味着该模型倾向于避免输出负值。这可以通过限制ReLU的使用并添加更多负值的适当激活函数来解决,也可以通过在训练之前将数据标准化为严格的正范围来解决。
6.决策树回归(Decision Tree Regression)                      
分类和回归中的决策树非常相似,因为两者都通过构造是/否节点的树来工作。但是,虽然分类结束节点导致单个类值(例如,对于二进制分类问题为1或0),但是回归树以连续值(例如4593.49或10.98)结尾。由于回归的特殊性和高变异性仅作为机器学习任务,因此决策树回归器需要仔细修剪。但是,它进行回归的方式是不规则的-而不是连续地计算值,而是到达设定的最终节点-如果回归器被修剪得太多,则最终节点太少而无法正确地完成其任务。

因此,应该修剪决策树,使其具有最大的自由度(可能的输出回归值-末端节点的数量),但又不够,以至于它太深。如果不进行修剪,由于回归的本质,已经高方差的算法将在过度拟合的复杂性上急剧上升。
7.岭回归(Ridge Regression)                                  
岭回归是一种当数据遭受多重 线性(单独变量高度相关)时使用的技术。在多重 线性中,即使最小二乘估计(OLS)是无偏的,它们的方差也很大,这使观测值偏离了真实值。通过在回归估计中增加一定程度的偏差,岭回归可以减少标准误差。
8.ElasticNet Regression                                       
ElasticNet是Lasso和Ridge回归技术的混合。  事先用L1和L2训练它作为正则化器。当存在多个相互关联的功能时,Elastic-net很有用。套索可能会随机选择其中之一,而弹性网可能会同时选择两者。
在Lasso和Ridge之间进行折衷的一个实际优势是,它允许Elastic-Net在旋转条件下继承Ridge的某些稳定性。
9.多项式回归(Polynomial Regression)                        
如果自变量的幂大于1,则回归方程式是多项式回归方程式。以下方程式表示多项式方程式:

y = a + b * x ^ 2
10.托比特回归(Tobit Regression)                             
当检查存在因变量时,它用于估计变量之间的线性关系。检查是指当我们观察所有观察值的自变量时,但我们仅知道在有??限观察范围内因变量的真实值。某个范围内的depends值报告为单个值。审查的详细说明如下:
当感兴趣的事件在研究结束之前未发生时,将进行权利审查。研究不能在所考虑的研究期结束之前等待受试者的事件。假设您正在建立一个客户损耗模型,其中因变量是二进制的(损耗或仍属于公司)对于那些仍在公司(未损耗)的客户,即使研究结束(2年)也被右删减。
左审查是指在注册之前已经发生了感兴趣的事件。这很少遇到
11.逐步回归(Stepwise Regression)                            
当我们处理多个自变量时,将使用这种形式的回归。在这种技术中,自变量的选择是在自动过程的帮助下完成的,该过程 无需人工干预。

通过观察R-square,t-stats和AIC度量等统计值来识别重要变量,可以实现这一壮举。逐步回归基本上可以通过基于指定条件一次添加/删除一个协变量来拟合回归模型。
12.分位数回归(Quantile Regression)                          
分位数回归是线性回归的扩展,通常在数据中存在异常值,高偏度和异方差的情况下使用它。

在线性回归中,我们预测给定自变量的因变量平均值。由于均值不能描述整个分布,因此对均值建模并不是对因变量和自变量之间关系的完整描述。因此,我们可以使用分位数回归来预测给定自变量的分位数(或百分位数)。
13.主成分回归(Principal Components Regression (PCR))        
当您有许多自变量或数据中存在多重 线性时,PCR是一种广泛使用的回归技术。主成分分析是一种在原始要素高度相关时提取新要素的统计方法。我们在原始功能的帮助下创建新功能,以使新功能不相关。应当指出,PCR不是特征选择技术,而是特征提取技术。我们获得的每个主要成分都是所有功能的函数。因此,在使用主成分时,将无法解释哪个因素在何种程度上影响了因变量。
14.偏最小二乘回归(Partial Least Squares (PLS) Regression)   
当您具有高度相关的自变量时,这是主成分回归的另一种方法。当存在大量自变量时,它也很有用。PLS和PCR之间的区别
两种技术都创建了称为成分的新自变量,这些成分是原始预测变量的线性组合,但是PCR生成的成分用于解释预测变量中观察到的可变性,而根本不考虑响应变量。虽然PLS考虑了因变量,因此通常会导致模型能够以更少的组件拟合因变量。
15.支持向量回归(Support Vector Regression)                  
支持向量回归可以求解线性和非线性模型。SVM使用非线性核函数(例如多项式)来找到非线性模型的最佳解决方案。

SVR的主要思想是使误差最小化,个性化超平面,从而使裕度最大化。
16.序数回归(Ordinal Regression)                             
序数回归用于预测排名值。简而言之,当因变量本质上是序数时,这种类型的回归适用。序数变量示例-调查响应(1至6级),患者对药物剂量的反应(无,轻度,严重)。
17.泊松回归(Poisson Regression)                             
当因变量具有计数数据时, 将使用Poisson回归。
因变量必须满足以下条件-
因变量具有泊松分布。
计数不能为负。
此方法不适用于非整数
18.负二项回归(Negative Binomial Regression)                 
与泊松回归一样,它也处理计数数据。问题是“它与泊松回归有何不同”。答案是负二项式回归不假设方差等于其均值的计数分布。泊松回归假设方差等于其均值。
19.准泊松回归(Quasi Poisson Regression)                     
它是负二项式回归的替代方法。它也可以用于过度分散的计数数据。两种算法都给出相似的结果,但在估计协变量的效果方面存在差异。拟泊松模型的方差是均值的线性函数,而负二项式模型的方差是均值的二次函数。
20.考克斯回归(Cox Regression)                               
适用于事件时间数据。
分享到:
评论

相关推荐

    数学建模十大回归算法

    数学建模十大回归模型算法,精心整理,有助于提高算法分析能力。

    美赛常用模型:种群竞争,层次分析,线性规划,灰色预测,多元回归等算法整理

    1、资源内容:种群竞争,层次分析,线性规划,灰色预测,多元回归等算法整理 2、适用人群:计算机,电子信息工程、数学等专业的学习者,作为美赛备赛“参考资料”参考学习使用。 3、解压说明:本资源需要电脑端使用...

    数学建模matlab常用算法代码整理集合.rar

    数学建模matlab常用算法代码整理的集合,包含神经网络图像分类代码,图论算法软件,小波神经网络预测代码,元胞自动机代码,Dijkstra算法找最短路径代码,Floyd算法求最小距离代码,GRNN的数据预测-基于广义回归神经...

    偏最小二乘算法(Partial Least Squares,PLS)的回归应用

    偏最小二乘算法(Partial Least Squares,PLS)是一种常见的多元线性回归算法,MATLAB在R2008a版本已经加入了PLS算法的实现函数。 该代码把偏最小二乘算法(Partial Least Squares,PLS)的回归应用整理为“读取数据...

    利用梯度下降法实现线性回归的算法及matlab实现_20170515[整理].pdf

    利用梯度下降法实现线性回归的算法及matlab实现_20170515[整理].pdf

    决策树算法原理详解

    【文档说明】 本文是自己整理的一些重点知识点,也是面试中会被问到的知识点 【文档结构】 ...ID3\C4.5\CART分类回归树算法总结 分类树和回归树的区别 决策树优化策略 决策树的剪枝 决策树剪枝过程 附录:

    机器学习算法研究沉淀

    本文整理了机器学习中大多数算法,包括:分类算法、回归算法、聚类算法、推荐系统算法、异常检测算法、关联分析算法,本文从算法介绍、算法优势、参数介绍、调优方法、使用场景、demo示例等6大方面介绍算法的全貌。

    机器学习-线性回归算法

    根据网上资源自己整理的代码,代码有注释,结构清晰易读,有测试代码,带测试数据。并附带可执行程序,你值得拥有。自己也可轻易建工程运行,不依赖任何第三方库。只是一个简单的线性回归

    机器学习面试 逻辑斯特回归整理

    自己在2018秋招期间从牛客网、知乎、百度谷歌等网页整理的关于机器学习、深度学习、计算机基础等等的面试精华问题与解答,部分有因为时间而未解决的问题,大部分问题都给出了答案和参考。

    R语言 随机森林回归

    #前二种算法可以计算缺失数据,但随机森林不行,所以还需将数据进行清洗整理 data(algae) algae [-manyNAs(algae,0.2), ]#占有20%的NA值的行去掉 clean.algae (algae,k=10)#平均值填充NA值 #回归树模型计算 model....

    机器学习常见算法思想梳理

    机器学习常见算法思想梳理,包含决策树、逻辑回归、SVM等常见算法思想梳理。

    国赛美赛数学建模相关算法 MATLAB实现(2018年初整理).zip

    【国赛】【美赛】数学建模相关算法 MATLAB实现、神经网络、图像识别、向量机、目标规划、线性回归、时间序列等等源代码 【国赛】【美赛】数学建模相关算法 MATLAB实现、神经网络、图像识别、向量机、目标规划、线性...

    预测算法讲义及MATLAB程序

    自己收集整理的用MATLAB实现遗传算法程序,包括插值拟合,灰色预测,回归分析,马尔科夫预测,神经网络预测,时间序列算法

    最新最全最易懂自己整理的算法与实例程序讲解.rar

    这是自己整理和编程序的,最新最全最易懂自己整理的算法与实例程序讲解。...算法模型包括对策论文,回归分析,多元分析,模糊算法等等最常用的30种。花费了巨大的时间整理,例程也是编程测试过,绝对能用。

    岭回归与LASSO方法原理1

    岭回归与LASSO方法原理【参考资料】机器学习十大经典算法之岭回归和LASSO回归(学习笔记整理)机器学习方法:回归(二):稀疏与正则约束ridge regre

    基于Logistic回归的零件图像区域提取 (2017年)

    针对机器人自动化生产线中视觉定位零件的问题进行了研究,为了能够快速地在复杂背景中提取出零件图像区域,提出了一种基于Logistic回归的零件图像区域提取的机器视觉算法。首先,在工作场景图像中采集若干正类和负类...

    各种matlab算法代码及模型分类

    此项目为自学数学建模整理的笔记和资料,包括但不限于国赛、研赛及美赛优秀论文,论文排版,按模型分类的论文参考,算法代码,参考书籍,matlab、spss、lingo、latex等各类软件教程...... 算法代码及模型分类,包括...

    机器学习算法综述.doc

    机器学习算法综述,本人花了两天时间整理了监督学习、非监督学习、分类、回归、聚类、降维等经典机器学习算法原理(核心思想,不含公式),优缺点,应用。并且按照论文期刊严格排版。现在分享给大家,绝对全网独家!...

    机器学习&深度学习资料笔记&基本算法实现&资源整理.zip

    机器学习&深度学习资料笔记&基本算法实现&资源整理.zip 0.不调库系列 No free lunch. 线性回归 - logistic回归 - 感知机 - SVM(SMO) - 神经网络 决策树 - Adaboost kNN - 朴素贝叶斯 EM - HMM - 条件随机场 kMeans ...

    偏最小二乘matlab算法及自己整理资料

    自己整理的关于偏最小二乘方面的资料,包括迭代偏最小二乘法NIPALS,高斯核变换,交叉有效性等

Global site tag (gtag.js) - Google Analytics