大数据分析

      大数据分析是指对规模巨大的数据进行分析 。 大数据可以概括为5个V , 数据量大(Volume)、速度快(Velocity)、类型多(Variety)、价值(Value)、真实性(Veracity) 。 大数据作为时下最火热的IT行业的词汇 , 随之而来的数据仓库、数据安全、数据分析、数据挖掘等等围绕大数据的商业价值的利用逐渐成为行业人士争相追捧的利润焦点 。 随着大数据时代的来临 , 大数据分析也应运而生 。
工具介绍
前端展现
用于展现分析的前端开源工具有JasperSoft , Pentaho , Spagobi , Openi , Birt等等 。
用于展现分析商用分析工具有Style Intelligence、RapidMiner Radoop、Cognos , BO , Microsoft Power BI , Oracle , Microstrategy , QlikView、Tableau 。
国内的有BDP , 国云数据(大数据魔镜) , 思迈特 , FineBI等等 。
数据仓库
有Teradata AsterData , EMC GreenPlum , HP Vertica 等等 。
数据集市
有QlikView、 Tableau 、Style Intelligence等等 。
分析步骤
大数据分析的六个基本方面
1. Analytic Visualizations(可视化分析)
不管是对数据分析专家还是普通用户 , 数据可视化是数据分析工具最基本的要求 。 可视化可以直观的展示数据 , 让数据自己说话 , 让观众听到结果 。
2. Data Mining Algorithms(数据挖掘算法)
可视化是给人看的 , 数据挖掘就是给机器看的 。 集群、分割、孤立点分析还有其他的算法让我们深入数据内部 , 挖掘价值 。 这些算法不仅要处理大数据的量 , 也要处理大数据的速度 。
3. Predictive Analytic Capabilities(预测性分析能力)
数据挖掘可以让分析员更好的理解数据 , 而预测性分析可以让分析员根据可视化分析和数据挖掘的结果做出一些预测性的判断 。
4. Semantic Engines(语义引擎)
我们知道由于非结构化数据的多样性带来了数据分析的新的挑战 , 我们需要一系列的工具去解析 , 提取 , 分析数据 。 语义引擎需要被设计成能够从“文档”中智能提取信息 。
5. Data Quality and Master Data Management(数据质量和数据管理)
数据质量和数据管理是一些管理方面的最佳实践 。 通过标准化的流程和工具对数据进行处理可以保证一个预先定义好的高质量的分析结果 。
假如大数据真的是下一个重要的技术革新的话 , 我们最好把精力关注在大数据能给我们带来的好处 , 而不仅仅是挑战 。
6.数据存储 , 数据仓库
数据仓库是为了便于多维分析和多角度展示数据按特定模式进行存储所建立起来的关系型数据库 。 在商业智能系统的设计中 , 数据仓库的构建是关键 , 是商业智能系统的基础 , 承担对业务系统数据整合的任务 , 为商业智能系统提供数据抽取、转换和加载(ETL) , 并按主题对数据进行查询和访问 , 为联机数据分析和数据挖掘提供数据平台 。
发展状况
开源大数据
1. Hadoop HDFS、Hadoop MapReduce , Hba