秦皇岛seo博主拥有多年seo,网络营销推广经验,曾服务于多家中大型企业,众多成功案例,可为您提供专业的网站seo,网络营销推广,网站建设等服务。点击这里给我发消息

10大机器学习算法,看懂你就是数据科学家

交互体验 秦皇岛seo 1310℃ 0评论

想成为数据科学家吗?你必须是一个对新事物有知识和好奇心的人。正因为如此,数据科学家将掌握几乎所有常见的算法,并掌握其中的一种,这样他们就可以快速适应新领域的问题。

今天我们将讨论每个数据技术专家都应该知道的十大机器学习算法。以下是关于通用机器学习算法和快速资源的风暴之旅。你确定吗?大脑燃烧挑战开始:

1.主成分分析/奇异值分解

主成分分析是一种无监督学习方法,用于理解由向量组成的数据集的全局特征。这里,对数据点的协方差模型进行分析,以了解哪些维度(大多数)/数据点(有时)更重要,即它们之间具有较高的方差,但与其他变量相比,协方差较低。

这种思维模式主要用于考虑具有最高特征值的特征向量。此外,奇异值分解本质上是一种计算有序分量的方法,但实现它不需要获得数据点的协方差矩阵。

该算法通过获取降维后的数据点来解决多维度的影响。

库:https://docs . scipy . org/doc/scipy/reference/generated/scipy . linalg . SVD . html

http://sci kit-learn . org/stable/modules/generated/sklearn . declaration . PCA . html
入门教程

2.1最小二乘法和多项式拟合

还记得你在大学里学的数字分析编码吗?通过拟合直线和曲线得到一个方程。现在,你可以在机器学习中使用它们来调整极小的低维数据集的曲线。对于大数据或多维数据集,您可能需要过度拟合,所以不要费心了。普通最小二乘法(OLS)有一个封闭的解,所以你不需要使用复杂的优化技术。

显然,您可以使用此算法来拟合简单的曲线/回归。

库:
http://docs . scipy . org/doc/numpy/reference/generated/numpy . linalg . lstsq . html https://docs . scipy . org/doc/numpy-1 . 10 . 0/reference/generated/numpy . poly it . html

入门教程:
http://lag安盟. Stanford . edu/c4x/humanitiessscience/StatLearning/asset/linear rejection . pdf

2.2约束线性回归

最小二乘法可能受到数据中异常值、虚假维数和噪声的干扰。因此,我们需要使用约束来减少数据集上拟合线的方差。正确的方法是用可控权重拟合线性回归模型。该模型可以使用L1拉索,L2岭回归或他们的混合物(弹性回归)。正则化后,均方损失得到优化。

这些算法用于拟合受约束的回归线,避免过度拟合并从模型中隐藏干涉尺寸。

库:http://sci kit-learn . org/stable/modules/linear _ model . html
入门教程:https://www.youtube.com/watch?v=5asL5Eq2x0A

https://www.youtube.com/watch? v = Jbwscwot 51m

3.K-均值聚类

这是一个无人监督的学习聚类算法,每个人都喜欢。给定一组矢量数据点,我们可以根据它们之间的距离生成数据点组。这是一种期望最大化算法,它反复移动组的中心,然后收集每个组的中心点。该算法的输入是生成的组的数量,它将尝试收集组的迭代次数。

从名称中可以看出,您可以使用该算法在数据集中创建k个聚类。

库:http://sci kit-learn . org/stable/modules/generated/sklearn . cluster . KMeans . html
入门教程:https://www.youtube.com/watch?v=hDmNF9JG3lo

https://www.datascience.com/blog/k-means-clustering

4.逻辑回归

对数回归是一种受约束的线性回归,其结果经历了非线性变换(通常使用sigmoid函数,或者也可以使用tanh),因此输出被限制为+/-类输出(sigmoid中为1和0)。

交叉熵损失采用梯度下降法进行优化。对于初学者,逻辑回归用于分类,而不是回归。你也可以把逻辑回归看作是一层神经网络。逻辑回归采用梯度下降法或BFGS算法进行优化。自然语言处理器通常称之为最大熵分类器。

使用LR来训练分类器非常简单,但是非常强大。

库:http://sci kit-learn . org/stable/modules/generated/sklearn . linear _ model。LogisticRegression.html
入门教程:https://www.youtube.com/watch?v=-la3q9d7AKQ

5.SVM(支持向量机)

SVM(支持向量机)是一个线性模型,类似于线性/逻辑回归。不同的是,它们基于边际损失有不同的函数(支持向量的推导是我见过的最漂亮的数学成果之一,它可与特征值的计算相媲美)。您可以使用优化方法,如B-FGS,甚至是SGD来优化损失函数。

SVMs的另一个创新是在特征工程中使用内核。如果你有很好的领域洞察力,你可以用一个更好的内核替换旧的径向基函数内核,并从中受益。

支持向量机的独特之处在于它可以学习一类分类器

支持向量机可以用来训练分类器(甚至回归函数)。

库:http://sci kit-learn . org/stable/modules/generated/sklearn . SVM . SVC . html
入门教程:https://www.youtube.com/watch?v=eHsErlPJWUU

6.前馈神经网络

这些基本上是多级逻辑回归分类器。许多层权重由非线性分开(SigMOID、TANH、Relu+SULTMax和酷新SELU)。另一个众所周知的名字是多层感知器。前馈神经网络作为一种自动编码器,可以用于分类和无监督特征学习。

前馈神经网络作为一种自动编码器,可以用来训练分类器或提取特征。

库:http://sci kit-learn . org/stable/modules/generated/sklearn . neural _ network。mlpcclassifier . htmlsklearn . neural _ network。mlpcclassifier

http://sci kit-learn . org/stable/modules/generated/sklearn . neural _ network。MLPRegressor.html

http://github . com/keras-team/keras/blob/master/examples/Reuters _ MLP _ relu _ vs _ selu . py
入门教程:
http://www.deeplearningbook.org/contents/mlp.html

http://www.deeplearningbook.org/contents/autoencoders.html

http://www . deep learning book . org/contents/presentation . html

7.con vents(con vents)

目前,世界上几乎所有基于视觉的机器学习成果都是通过卷积神经网络实现的。它们可用于图像分类、目标检测甚至图像分割。

这是Yann Lecun在20世纪80年代末和90年代初发明的,其特征在于卷积层充当分层特征提取器。您也可以在文本(甚至图形)中使用它们。

Convnets用于最高级的图像和文本分类、目标检测和图像分割。

库:
https://developer.nvidia.com/digits

https://github.com/kuangliu/torchcv

https://github.com/chainer/chainercv

https://keras.io/applications/
入门教程

初学者理解指南卷积神经网络

8.递归神经网络

RNN通过在聚合状态下递归使用相同的权重来对序列建模。前提是该序列的输入为0…t…并且在时间t存在来自RNN的t-1步的隐藏层输出

如今,纯RNN很少被使用。取而代之的是,代表序列建模前沿的LSTMs和GRUs与之相对应。

RNN(如果有密切的联系和非线性,现在f通常是LSTMs和GRUs)。在纯RNN,LSTM单元取代了紧密连接层。

RNNs用于完成序列建模任务,如文本分类、机器翻译和语言建模。

图书馆:
https://github.com/tensorflow/models(许多来自谷歌的很酷的自然语言处理研究论文都在这里)

https://github.com/wabyking/TextClassificationBenchmark

http://opennmt.net/
入门教程:
http://cs224d.stanford.edu/

http://www . wild ml . com/category/neural-networks/recurrence-neural-networks/

http://colah.github.io/posts/2015-08-Understanding-LSTMs/

9.条件随机场

CRFS可能是概率图形模型家族中最常用的模型。它们用于序列建模,如神经网络,也可以与神经网络结合使用。在神经机器翻译系统进入CRFs之前,它是最先进的技术,它用许多序列中的小数据集来标记任务。

目前,CRFS仍然优于需要大量数据的无线网络。它们也可以用于其他结构化预测任务,如图像分割。通用报告格式对序列中的每个元素(如一个句子)进行建模,因此序列中某个组件的标签相互影响,但并非所有标签都相互独立。

序列(文本、图像、时间序列、脱氧核糖核酸等。)标有CRFs。

库:https://sklearn-CRF suite . read the docs . io/en/latest/
入门教程:http://blog . echen . me/2012/01/03/introduction-to-conditional-random-field/

10.决策图表

如果我得到一个关于各种水果数据的表格,需要知道哪些是苹果,我会抛出以下问题:

第一个问题:“哪些水果是红色+圆形的?”

用“是”和“否”来区分所有的水果。

然而,所有红色+圆形的水果可能不是苹果,所有的苹果也不会只是红色+圆形。

第二个问题:在所有红色+圆形的水果中,“哪种水果有红色或黄色的特征?”

同时,我也会问,“绿色+圆形水果是什么?”

基于这些问题,我可以准确区分哪些是苹果。

这一系列问题就是决策树。

然而,这是基于我们直觉的决策树。直觉无法处理高维复杂的数据。我们必须通过查看标签数据来自动提出这一系列问题。这就是基于决策树的机器学习技术需要做的。

早期版本,如CART Tree,用于处理简单数据,但是随着数据集的增加,需要更好的算法来平衡方差和偏差。两种常用的决策树算法是随机森林(它在属性的随机子集上构建不同的分类器,并将它们组合成输出)和提升树(它不断训练上层来纠正下层的错误)

决策树可以用来分类(甚至回归)数据点。

librarieshttp://sci kit-learn . org/stable/modules/generated/sklearn . ensemble . randomforestScaler . html

http://sci kit-learn . org/stable/modules/generated/sklearn . ensemble . GradientBoostingCelerant . html

http://xgboost.readthedocs.io/en/latest/

https://catboost.yandex/

入门教程:
http://xgboost.readthedocs.io/en/latest/model.html

https://arxiv.org/abs/1511.05741

https://arxiv.org/abs/1407.7502

http://education . parrotprediction . teachable . com/p/practical-xboost-in-python

TD算法(值得拥有)

如果你还想知道上面的任何一个算法是如何打败像Deepmind Go这样的世界冠军的,很遗憾他们不能。

我们之前讨论的10个算法都是模式识别,不是策略学习。要通过学习策略来解决多步问题,如赢棋或玩雅达利电子游戏,我们需要反复训练,并从奖惩系统中学习。

机器学习技术的这一部分被称为深度强化学习。这一领域的许多成功案例都是整合了修道院或LSTM的感知能力的结果,这些算法被称为时差学习。

有问答学习,SARSA和其他一些变种。这些算法在bellman方程中是非常智能的,Bellman方程可以通过从环境中得到的奖励训练得到损失函数。

这些算法大多用于自动游戏和其他与语言生成和目标检测相关的应用。

相关信息

2018年版20大深度学习论文
分级分类——一种预测成千上万种可能类别的有用方法
人工智能从业者需要应用的10种深度学习方法

这篇文章是由[优盟+]编写的。

转载请注明:老街华纳公司开户-MD62333 » 10大机器学习算法,看懂你就是数据科学家

喜欢 (1)or分享 (0)
发表我的评论
取消评论

表情

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址