博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
数据挖掘(Data Mining)和数据分析(Data Analysis)的对比
阅读量:4040 次
发布时间:2019-05-24

本文共 2450 字,大约阅读时间需要 8 分钟。

数据挖掘和数据分析

现在信息世界中,每天生成的数据量呈指数级增长。获取这些数据的过程并不复杂,因为可以使用的方法很多。然而,从这些数据中获取有意义的信息是非常复杂和耗时的。

收集的数据通常存储在数据仓库中,数据仓库是保存从各种来源收集的数据的地方。其中一些来源包括公司数据库、外部来源的数据和内部系统的汇总信息。

对这些数据的分析需要统计分析、简单的查询和报表、更复杂的多维分析和数据挖掘。

数据挖掘和数据分析是商业智能(BI)的子集。BI还集成了数据仓库、在线分析处理和数据库管理系统。

在客户关系管理CRM中,数据挖掘和数据分析都经常被用来分析模式和查询客户数据库。然而,许多人认为数据挖掘和数据分析是一回事。他们相信这两种技术执行相同的任务。本文将重点介绍差异数据挖掘和数据分析。

数据挖掘(Data Mining)

数据挖掘是从大型数据库中提取隐藏的预测数据的过程。这项技术非常强大,有可能帮助公司集中精力处理其数据仓库中最重要的信息。数据挖掘工具有助于预测未来的行为和趋势,这使企业能够做出主动和知识驱动的决策。

数据挖掘提供了自动化和前瞻性的分析,这超出了由回顾性工具提供的对过去事件的分析。数据挖掘工具能够帮助企业快速获得结果和问题的答案。在过去,使用传统方法处理这些问题花费了很多时间。这些工具搜索隐藏模式的数据,这有助于企业获得专家们忽略的预测信息,因为它超出了他们的预期。

数据挖掘的范围

数据挖掘源于在大型数据库中搜索有价值的商业信息与在山区开采有价值的矿脉之间的相似性。这两个过程都需要通过大量的材料或敏锐地搜索材料来发现其价值。数据挖掘技术为IT部门提供了以下能力来创造商机:

  • 趋势和行为的自动预测——它自动化了从大型数据库中查找预测信息的过程。过去需要很长时间才能得到传统答案的问题现在可以很快得到答案。
  • 自动发现以前未知的模式—数据挖掘工具可以轻松地遍历数据库并识别隐藏的模式。大多数情况下,这需要一个一步的过程。

数据分析(Data Analysis)

这是一个用逻辑或统计方法来分析说明、描述、缩小、总结和评估数据的过程。在数据分析中,有几种分析方法可用于从数据中提取归纳建议,并将信号与数据中存在的噪声区分开来。

虽然定性研究中的数据分析在当时可以包括统计程序,但有时分析会成为一个不断重复的过程。这个过程需要几乎同时收集和分析数据。

研究人员分析整个数据收集阶段的观察模式。数据的形式和采取的具体定量方法决定了分析的形式。

数据分析中的注意事项

  • 具备分析数据的必要技能。许多人相信他们受过适当的培训,以帮助他们展示高标准的研究实践。然而,对不良数据分析的无意不当行为会使预期结果无法实现。
  • 无偏推理。数据分析的主要目的是区分所发生的事件是反映准确的效果还是错误的效果。在收集数据或选择分析方法时的偏差增加了得出有偏差推断的可能性。

  数据挖掘 数据分析
定义 数据挖掘是指从大量的数据中,通过统计学、人工智能、机器学习等方法,挖掘出未知的、且有价值的信息和知识的过程。 简单来说,数据分析就是对数据进行分析。专业的说法,数据分析是指根据分析目的,用适当的统计分析方法及工具,对收集来的数据进行处理与分析,提取有价值的信息,发挥数据的作用。
目标 是对数据分析手段后的信息,进行价值化的分析。

是对数据的一种操作手段。或者算法。

针对先验的约束,对数据进行整理、筛选、加工,由此得到信息。

作用 数据挖掘主要侧重解决四类问题:分类、聚类、关联和预测(定量、定性),数据挖掘的重点在寻找未知的模式与规律;如我们常说的数据挖掘案例:啤酒与尿布、安全套与巧克力等,这就是事先未知的,但又是非常有价值的信息。 它主要实现三大作用:现状分析、原因分析、预测分析(定量)。数据分析的目标明确,先做假设,然后通过数据分析来验证假设是否正确,从而得到相应的结论。
方法 主要采用决策树、神经网络、关联规则、聚类分析等统计学、人工智能、机器学习等方法进行挖掘。 主要采用对比分析、分组分析、交叉分析、回归分析等常用分析方法。
结果 输出模型或规则,并且可相应得到模型得分或标签,模型得分如流失概率值、总和得分、相似度、预测值等,标签如高中低价值用户、流失与非流失、信用优良中差等。 数据分析一般都是得到一个指标统计量结果,如总和、平均值等,这些指标数据都需要与业务结合进行解读,才能发挥出数据的价值与作用。

综合起来,数据分析(狭义)与数据挖掘的本质都是一样的,都是从数据里面发现关于业务的知识(有价值的信息),从而帮助业务运营、改进产品以及帮助企业做更好的决策,所以数据分析(狭义)与数据挖掘构成广义的数据分析。

数据分析和数据挖掘,又是甚至是递归的。就是数据分析的结果是信息,这些信息作为数据,由数据去挖掘。而数据挖掘,又使用了数据分析的手段,周而复始。

数据分析和数据挖掘的最大区别

数据分析,是以输入的数据为基础,通过先验的约束,对数据进行处理,但是不以结论何如为调整。例如你需要图像识别,这个属于数据分析。你要分析人脸。数据通过你的先验的方法,就是出来个猫脸。你的数据分析也没有问题。你需要默默的承受结果,并且尊重事实。因此数据分析的重点在于数据的有效性、真实性和先验约束的正确性。

而数据挖掘则不同,数据挖掘是对信息的价值化的获取。价值化自然不考虑数据本身,而是考虑数据是否有价值。由此,一批数据,你尝试对它做不同的价值挖掘。评估,则就是数据挖掘。此时对比数据分析,最大的特点就是,你需要调整你的不同的先验约束,再次对数据进行分析。而先验的约束已经不是针对数据来源自身的特点,例如信噪比处理算法。而是你期望得到的一个有价值的内容,做先验的约束。以观测,数据根据这个约束,是否有正确的反馈。

大数据是互联网的海量数据挖掘,而数据挖掘更多是针对内部企业行业小众化的数据挖掘,数据分析就是进行做出针对性的分析和诊断,大数据需要分析的是趋势和发展,数据挖掘主要发现的是问题和诊断。

转载地址:http://mvvdi.baihongyu.com/

你可能感兴趣的文章
如何通过instant client 来连接数据库以及使用exp/imp?
查看>>
flask +python+vue 监控软件(一)
查看>>
flask +python+vue 监控软件(二)
查看>>
go AES加密解密
查看>>
python AES加密解密,key的长度不受限制
查看>>
oracle 查询sequnce# 在哪个归档备份集下面
查看>>
使用kettle 增量同步mysql到oracle以及oracle到mysql的测试
查看>>
MySQL8.0与MySQL5.7 OLTP 性能测试对比
查看>>
mongodb 分片集群安装搭建测试
查看>>
mycat 连接mongodb
查看>>
rsync 拉取备份文件(支持断点续传)
查看>>
Golang 数据可视化利器 go-echarts ,实际使用
查看>>
mysql 跨机器查询,使用dblink
查看>>
Oracle 12c 开启审计 埋下的坑ORA-00205 ORA-15040
查看>>
mysql5.6.34 升级到mysql5.7.32
查看>>
dba 常用查询
查看>>
Oracle 异机恢复
查看>>
Oracle 12C DG 搭建(RAC-RAC/RAC-单机)
查看>>
Truncate 表之恢复
查看>>
Oracle DG failover 后恢复
查看>>