你真的知道什么是数据挖掘吗?
最近几年,人工智能和大数据火的一塌糊涂,可是这两个高收入岗位的人才缺口依然很大。我国的大数据方面的人才缺口有200多万,每年有一大批已工作的人转行做大数据。前段时间教育部批准250所高校开设数据科学相关专业,更是引起了社会的广泛关注。
大数据和人工智能一样,并不是某个具体岗位的名字。大数据岗位包含了很多岗位,其中被大家讨论最多的就是数据分析、数据挖掘、数据库管理这几个词。而其中数据挖掘和机器学习联系紧密,也是被大家最常提起的,可是你真的知道什么是数据挖掘吗?
数据挖掘从字面意义上会被理解成从数据中挖掘,至于挖掘什么并没有明确指出。维基百科中是这样定义数据挖掘的:
数据挖掘(data mining)是一个跨学科的计算机科学分支。它是用人工智能、机器学习、统计学和数据库的交叉方法在相对较大型的数据集中发现模式的计算过程。数据挖掘过程的总体目标是从一个数据集中提取信息,并将其转换成可理解的结构,以进一步使用。除了原始分析步骤,它还涉及到数据库和数据管理方面、数据预处理、模型与推断方面考量、兴趣度度量、复杂度的考虑,以及发现结构、可视化及在线更新等后处理。数据挖掘是“资料库知识发现”(KDD)的分析步骤。
这样的定义似乎并没有那么一目了然。
首先我们来看看数据挖掘的目的。不熟悉数据挖掘的人喜欢把注意力集中在挖掘数据上,而不曾考虑我们为什么需要挖掘数据。事实上,我们需要从数据中挖掘的是知识和模式。从知识和模式中寻找有价值的信息,利用这些信息来做出更加有利的决策。
数据挖掘虽然挂了个挖掘两个字,并没有挖掘工作那么简单。广义上的数据挖掘一般包括了这么几个步骤:数据清理、数据集成、数据选择、数据变换、数据挖掘、模式评估以及知识表示。
1.数据清理:想象一下,当你拿到一张武汉各高校食堂评分表的时候,你会发现这张表并不是每一格空格都被填满,不是简单计算一下平均值就能得到食堂的总体评分。
你会发现有那么几个空格,也就是缺失值;也许因为某个评分的人来自四川,所以皮一下,给四川火锅打了120分(总分100),这样的数据很明显不能拿来用。数据清理的过程就是把缺失值和异常值统一处理,或舍弃或更改,让其保证统一的规范。
2.数据集成:集成就是把数据合到一起。有的学校的评分表是用excel做的,有的是用问卷表做的,数据集成就是把各种数据源统一成一种格式。
3.数据选择:选择什么呢?选择出我们需要的数据。集成后的表可能包含很多数据,但是我们想做的可能只是某一方面的评价,比如卫生和服务这样软行的方面。这时候我们就要在表中选择出卫生和服务这两项相关的数据来进行分析。
4.数据变换:简单来说就是把现有的数据转换成给容易分析的数据。比如在食堂服务这一方面,包含了回收点的设置方便程度,各窗口服务人员的态度等指标。当我们认为食堂服务这一项不需要太多细致的分析,只想得到一个整体的评价时,对这几个指标的评分取平均值,得到的结果显然更加有利于我们的分析目标。
5.数据挖掘:挖掘的模式有很多种类,常见的有分类、聚类、关联等,这些我会在后续的文章中慢慢介绍。
6.模式评估:指的是根据某种兴趣度度量,识别代表知识的真正有趣的模式。我们在分析数据时可能会分析结果得出理工大东苑食堂和华师桂园食堂(两个食堂隔了几百米)的有很大可能性是同一个人承包的结论,这显然和我们想评价食堂整体水平的目标不一致。
模式评估要做的就是判断哪些结论是我们需要的,根须需要的内容继续分析挖掘更多的信息。
7.知识表示:这个比较容易理解。当我们从数据中得出分析结果时我们需要将这些结果展示给别人看,常见的就是大家经常听到的数据可视化。像我们中学学的折线图、饼图之类的都是数据可视化的形式,我们不常接触的还有热力图、雷达图、矩形树图等。
数据挖掘是一项涉及到很多技术和理论的学科领域,但它并没有那么深奥,一些基础的思想和方法我们可以运用到生活中,大家闲暇时不妨了解了解,毕竟大数据那么火(^_^)
如果你喜欢我的文章,请继续支持我,给我留言点赞。
If you like it,please continue to support me by follow, comment and upvote!
你可以用cn-programming cn 这两个标签呀 现在这些标签就最后一个见过,其他都没见过哈哈
Downvoting a post can decrease pending rewards and make it less visible. Common reasons:
Submit
好久没上steemit了,忘记怎么用标签了,谢谢提醒^_^
Downvoting a post can decrease pending rewards and make it less visible. Common reasons:
Submit