以下为《一个趣味故事告诉你什么是数据挖掘》的无排版文字预览,完整内容请下载
一个趣味故事告诉你什么是数据挖掘?
2017-06-26 10:30
何为数据挖掘?
数据挖掘(Data Mining),就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的“挖掘”有趣知识的过程。
/
先给大家讲一个有趣的故事 "尿布与啤酒"
这是发生在美国沃尔玛连锁店超市的真实案例,这家超市有个有趣的现象:尿布和啤酒赫然摆在一起出售。
虽然很难理解,但是这个奇怪的举措却使尿布和啤酒的销量双双增加了。这一现象一直被商家津津乐道,那么在这个故事的背后又隐藏着怎样的秘密呢?
/
原来沃尔玛为了能够准确了解顾客在其门店的购买习惯,对顾客的购物行为进行购物篮分析,想知道顾客经常一起购买的商品有哪些。沃尔玛集中了其各门店的详细原始交易数据,利用数据挖掘方法对这些数据进行分析和挖掘。
经过大量实际调查和分析,他们发现:在美国,一些年轻的父亲下班后经常要到超市去买婴儿尿布,而他们中有30%~40%的人同时也为自己买一些啤酒。产生这一现象的原因是:美国的太太们常叮嘱她们的丈夫下班后为小孩买尿布,而丈夫们在买尿布后又随手带回了他们喜欢的啤酒。
/
按常规思维,尿布与啤酒风马牛不相及,若不是借助数据挖掘技术对大量交易数据进行挖掘分析, 内容过长,仅展示头部和尾部部分文字预览,全文请查看图片预览。 域的专家交流合作以正确的解读出项目需求。
2. 搜集数据
在***,数据搜集大都是从其他业务系统数据库提取。
3. 预处理数据
预处理数据可主要分为数据准备和数据归约两部分。其中前者包含了缺失值处理、异常值处理、归一化等;后者主要包含维度归约、值归约、以及案例归约。
4. 评估模型
确切来说,这一步就是在不同的模型之间做出选择,找到最优模型。
5. 解释模型
数据挖掘模型在大多数情况下是用来辅助决策的,人们显然不会根据"黑箱模型"来制定决策。如何针对具体环境对模型做出合理解释也是一项非常重要的任务。
数据挖掘的工程架构
“如何开发一个大数据环境下完整的数据挖掘项目?”。这个问题***有自己的答案,这里仅提供一个例子给予参考。
在A公司的数据引擎团队中,主要人员分成A、B、C、D四个大组。这四个大组的分工非常明确,如下图所示:
/
图中的这些个数据引擎架构在一个基于维度建模的云数据仓库之上,并对上层应用提供算法支撑、推荐支撑、可视化支撑等等。
小结
大数据的发展有着广阔的市场与空间,数据挖***在,希望通过这篇文章,可以让大家对数据挖掘有个初步的了解,相信随着技术的发展,我们可以看到更多数据背后的有趣故事。
[文章尾部最后300字内容到此结束,中间部分内容请查看底下的图片预览]请点击下方选择您需要的文档下载。
以上为《一个趣味故事告诉你什么是数据挖掘》的无排版文字预览,完整内容请下载
一个趣味故事告诉你什么是数据挖掘由用户“zop1616657st1”分享发布,转载请注明出处