本文作者:huangp1489

csdn等级认证考试c4,csdn c4认证

huangp1489 08-12 9
csdn等级认证考试c4,csdn c4认证摘要: 大数据会常用到哪些算法知识?大数据会常用到哪些算法知识?目前大家想要学习大数据或者人工智能的东西,都是听过不少,但是又不知道如何下手,感觉是一个非常模糊、抽象难懂的东西。我常举一个...
  1. 大数据会常用到哪些算法知识?

数据会常用到哪些算法知识

目前大家想要学习大数据或者人工智能的东西,都是听过不少,但是又不知道如何下手,感觉是一个非常模糊、抽象难懂的东西。我常举一个例子:水果大家都听过,但是没见过,你肯定会反驳我,我见过啊:香蕉、苹果、橘子都是水果啊。对,今天今天我们就来聊聊,大数据,聊聊大数据里面的“香蕉”、“苹果”、“橘子”;

如何找到这些“水果”?

我建议最有效的就是去看大数据相关岗位招聘要求简单用近期一个朋友在朋友圈的招聘贴来找“水果”【有兴趣的,赶紧简历砸过去】:

csdn等级认证考试c4,csdn c4认证
(图片来源网络,侵删)

看上图,解释下:

1、2、3这些基础知识就不说了,任何一个计算机相关的同学肯定都知道这些基础能力:计算机原理、数据结构、网络技术信息论 等等。

csdn等级认证考试c4,csdn c4认证
(图片来源网络,侵删)

下面重点讲讲如下核心的“苹果”:

一、机器学习和模式识别:常用的算法,主要有以下几个,工程中很多应用都是从这些基础算法改进整合来的,(想快速了解这些基础算法,推荐一本超薄的书:李航《统计学习方法》,可以用来overview,或者精读都可以):

1、回归算法 2、神经网络 3、SVM(支持向量机) 4、聚类算法 5、降维算法

csdn等级认证考试c4,csdn c4认证
(图片来源网络,侵删)

十大经典算法

Apriori算法:***s://***.toutiao***/i6602129057633010184/

AdaBoost算法(附代码):***s://***.toutiao***/i6602034223387771400/

C4.5算法(附代码):***s://***.toutiao***/i6602461790884332045/

CART算法(附代码):***s://***.toutiao***/i6602016174802731533/

PageRank算法:***s://***.toutiao***/i660203659636***85347/

SVM算法:***s://***.toutiao***/i6602460036063035911/

EM算法:***s://***.toutiao***/i66020490788240***7/

K-邻近算法/kNN(附代码):***s://***.toutiao***/i6602033239240475140/

K-Means算法(附代码):***s://***.toutiao***/i66024609***519147524/

大数据的挖掘是从海量、不完全的、有噪声的、模糊的、随机的大型数据库中发现隐含在其中有价值的、潜在有用的信息和知识的过程,也是一种决策支持过程。

常见算法场景:分类、回归分析、聚类、关联规则、神经网络方法、Web数据挖掘、深度学习 、集成算法等。

一个简单的算法选择技巧:

首当其冲应该选择的就是逻辑回归,如果它的效果不怎么样,那么可以将它的结果作为基准来参考,在基础上与其他算法进行比较

然后试试决策树(随机森林)看看是否可以大幅度提升你的模型性能。即便最后你并没有把它当做为最终模型,你也可以使用随机森林来移除噪声变量,做特征选择;

如果特征的数量和观测样本特别多,那么当***和时间充足时(这个前提很重要),使用SVM不失为一种选择。

算法固然重要,但好的数据却要优于好的算法,设计优良特征是大有裨益的。***如你有一个超大数据集,那么无论你使用哪种算法可能对分类性能都没太大影响(此时就可以根据速度和易用性来进行抉择)。

算法相当于武器,产品相当于持剑者,场景才是目标

所以,不清楚你的目的,如果想学习,那么就从基础的开始。如果是想知道目前那种算法用处最多,NLP自然语言处理确实用处比较多。

文章版权及转载声明

[免责声明]本文来源于网络,不代表本站立场,如转载内容涉及版权等问题,请联系邮箱:83115484@qq.com,我们会予以删除相关文章,保证您的权利。转载请注明出处:http://www.islamicrednecks.com/post/61280.html发布于 08-12

阅读
分享