大数据的具体分析方法

越来越多的应用涉及到大数据,这些大数据的属性,包括数量,速度,多样性等等都是呈现了大数据不断增长的复杂性,所以,普开大数据的分析方法在大数据领域就显得尤为重要,可以说是决定最终信息是否有价值的决定性因素。基于此,大数据分析的方法理论有哪些呢?

操作方法

  • 01

    大数据分析的五个基本方面 PredictiveAnalyticCapabilities(预测性分析能力) 数据挖掘可以让分析员更好的理解数据,而预测性分析可以让分析员根据可视化分析和数据挖掘的结果做出一些预测性的判断。 DataQualityandMasterDataManagement(数据质量和数据管理) 数据质量和数据管理是一些管理方面的最佳实践。通过标准化的流程和工具对数据进行处理可以保证一个预先定义好的高质量的分析结果。 AnalyticVisualizations(可视化分析) 不管是对数据分析专家还是普通用户,数据可视化是数据分析工具最基本的要求。可视化可以直观的展示数据,让数据自己说话,让观众听到结果。 SemanticEngines(语义引擎) 我们知道由于非结构化数据的多样性带来了数据分析的新的挑战,我们需要一系列的工具去解析,提取,分析数据。语义引擎需要被设计成能够从“文档”中智能提取信息。 DataMiningAlgorithms(数据挖掘算法) 可视化是给人看的,数据挖掘就是给机器看的。集群、分割、孤立点分析还有其他的算法让我们深入数据内部,挖掘价值。这些算法不仅要处理大数据的量,也要处理大数据的速度。 假如大数据真的是下一个重要的技术革新的话,我们最好把精力关注在大数据能给我们带来的好处,而不仅仅是挑战。

  • 02

    大数据处理 大数据处理数据时代理念的三大转变:要全体不要抽样,要效率不要绝对精确,要相关不要因果。具体的大数据处理方法其实有很多,但是根据长时间的实践,笔者总结了一个基本的大数据处理流程,并且这个流程应该能够对大家理顺大数据的处理有所帮助。整个处理流程可以概括为四步,分别是采集、导入和预处理、统计和分析,以及挖掘。

  • 03

    采集 大数据的采集是指利用多个数据库来接收发自客户端的数据,并且用户可以通过这些数据库来进行简单的查询和处理工作。比如,电商会使用传统的关系型数据库MySQL和Oracle等来存储每一笔事务数据,除此之外,Redis和MongoDB这样的NoSQL数据库也常用于数据的采集。 在大数据的采集过程中,其主要特点和挑战是并发数高,因为同时有可能会有成千上万的用户来进行访问和操作,比如火车票售票网站和淘宝,它们并发的访问量在峰值时达到上百万,所以需要在采集端部署大量数据库才能支撑。并且如何在这些数据库之间进行负载均衡和分片的确是需要深入的思考和设计。

  • 04

    统计/分析 统计与分析主要利用分布式数据库,或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等,以满足大多数常见的分析需求,在这方面,一些实时性需求会用到EMC的GreenPlum、Oracle的Exadata,以及基MySQL的列式存储Infobright等,而一些批处理,或者基于半结构化数据的需求可以使用Hadoop。统计与分析这部分的主要特点和挑战是分析涉及的数据量大,其对系统资源,特别是I/O会有极大的占用。

  • 05

    导入/预处理 虽然采集端本身会有很多数据库,但是如果要对这些海量数据进行有效的分析,还是应该将这些来自前端的数据导入到一个集中的大型分布式数据库,或者分布式存储集群,并且可以在导入基础上做一些简单的清洗和预处理工作。也有一些用户会在导入时使用来自Twitter的Storm来对数据进行流式计算,来满足部分业务的实时计算需求。导入与预处理过程的特点和挑战主要是导入的数据量大,每秒钟的导入量经常会达到百兆,甚至千兆级别。

  • 06

    挖掘 与前面统计和分析过程不同的是,数据挖掘一般没有什么预先设定好的主题,主要是在现有数据上面进行基于各种算法的计算,从而起到预测的效果,从而实现一些高级别数据分析的需求。比较典型算法有用于聚类的K-Means、用于统计学习的SVM和用于分类的Naive Bayes,主要使用的工具有HadoopMahout等。该过程的特点和挑战主要是用于挖掘的算法很复杂,并且计算涉及的数据量和计算量都很大,还有,常用数据挖掘算法都以单线程为主。

(0)

相关推荐

  • 舆情数据从哪里获取(大数据舆情监测与分析)

    无论是目前最新的舆情信息,还是过去的舆情数据,企业可能都需要收集的范围非常广泛,毕竟网络信息传播的渠道很多.此外,在互联网上的舆情信息数据都是实时更新的,因此信息量也很大.企业很难从大量的数据信息海洋 ...

  • excel对数据进行分类汇总分析

    众所周知,Excel对数据处理的功能非常强大.想要对上千条.上万条数据做分类汇总,则需要依靠数据透视表和分类汇总功能:在数据量适中即小于万条时,对数据透视表又不太熟悉的情况下,可以使用“分类汇总”,对 ...

  • 大数据有什么重要的作用

    现在的社会是一个高速发展的社会,科技发达,信息流通,人们之间的交流越来越密切,生活也越来越方便,大数据就是这个高科技时代的产物. 操作方法 01 数据的收集方式有很多方法,可以根据人们上网主要浏览的网 ...

  • dps灰色关联分析方法和灰色预测方法的应用

    灰色关联分析,从其思想方法上来看,属于几何处理的范畴,其实质是对反映各因素变化特征的数据序列所进行的几何比较.用于度量因素之间关联程度的灰色关联度,就是通过对因素之间的关联曲线的比较而得的.本文以dp ...

  • 小白怎么学习大数据

    大数据时代,你在干什么?大家都知道数据本身并没有什么价值,由于分析方法的存在,使得海量的数据变得如同一座永远开采不完的矿,是金矿还是银矿,得看你怎么分析和怎么利用了,和小编一起来了解一下怎么学习大数据 ...

  • 大数据时代,大数据概念,大数据分析是什么意思?

    世界包含很多难以想象数字化信息变得更多更快......从商业到科学,从政府到艺术,这种影响无处不在,科学家和计算机工程师们给这种现象创造了一个新名词:"大数据". 大数据里面包含很 ...

  • 大数据精准营销|如何牢牢抓住用户的心?

    营销如何像谈恋爱一样,让消费者能够一见钟情.二见倾心.三定终生,实现产品与用户多维度的契合呢? 操作方法 01 人类所有的知识可以分为三个大类:自然科学.社会科学和人文科学.一直以来,营销的科学性正是 ...

  • 大数据时代的数据安全隐私保护解决之道

    数据安全已经成为大数据首先要关注的重点.随着数据量的增加,越来越多企业将自己的数据存储到云端,也正是因为大数据的集中存储,给数据隐私和安全带来了很大挑战. 操作方法 01 保护交易记录和数据存储在存储 ...

  • 常用的U盘数据备份和恢复方法

    U盘在我们的日常生活中用得是越来越多了,但有时U盘很可能会感染病毒或出现这样那样的故障,这样,时刻做好U盘数据备份就变得十分重要了。数据备份的方法有很多,下面就介绍一种常用的U盘数据备份和恢复方法。 ...