大数据分析工具目前,在众多可用于大数据分析的工具中,既有专业的也有非专业的工具,既有昂贵的商业软件也有免费的开源软件.KDNuggets针对798名专业人员,做了一份“过去一年中在实际项目中所用到的大数据、数据挖掘、数据分析软件的调查结果,科多大数据小编选取使用频率最高的前5名进行简单介绍:
1)R(30.7%)
R是开源编程语言和软件环境,被设计用来进行数据挖掘、分析和可视化.在执行计算密集型任务时,在R环境中还可以调用C,C++和Fortran编写的代码.此外,专业用户还可以通过C语言直接调用R对象.R语言是S语言的一种实现.而S语言是由AT&T贝尔实验室开发的一种用来进行数据探索、统计分析、作图的解释型语言.最初S语言的实现版本主要是S-PLUS.但S-PLUS是一个商业软件,相比之下开源的R语言更受欢迎.R不仅在软件类中名列第一,在2012年KDNuggets的另一份调查“过去一年中在数据挖掘分析中所使用的设计语言”中,R语言击败了SQL和Java,同样荣登榜首.在R语言盛行的大环境下,各大数据库厂商如Teradata和Oracle,都发布了与R语言相关的产品.可以说R语言是学习大数据必要掌握的语言。
2)Excel(29.8%)
Excel是微软的Office办公软件的核心组件之一,提供了强大的数据处理、统计分析和辅助决策等功能.在安装Excel的时候,一些具有强大功能的分析数据的扩展插件也被集成了,但是这些插件需要用户的启用才能被使用,这其中就包含了分析工具库(AnlyasisToolPak)和规划求解向导项(SolverAdd-in)等插件.Excel也是前5名中唯一的商业软件,其他软件都是开源的.
3)Rapid-IRapidminer(26.7%)
Rapidminer是用于数据挖掘、机器学习、预测分析的开源软件,在2011年KDnuggets的调查中,它比R的使用率还高,位于第一位.RapidMiner提供的数据挖掘和机器学习程序包括:数据加载和转换(ETL)、数据预处理和可视化、建模、评估和部署.数据挖掘的流程是以XML文件加以描述,并通过一个图形用户界面显示出来.RapidMiner是由Java编程语言编写的,其中还集成了Weka的学习器和评估方法,并可以与R语言进行协同工作.Rapidminer中的功能均是通过连接各类算子(operataor)形成流程(process)来实现的,整个流程可以看做是工厂车间的生产线,输入原始数据,输入出模型结果.算子可以看作是执行某种具体功能的函数,不同算子有不同的输入输出特性.
4)KNMINE(21.8%)
KNIME(konstanzinformationminer)是一个用户友好、智能的、并有丰富功能的开源数据集成、数据处理、数据分析和数据勘探平台.它提供可视化的方式创建数据流或数据通道,可选择性地运行一些或全部的分析步骤,最终输出研究结果、模型以及可交互的视图.KNIME由Java写成,其通过插件的方式来提供更多的功能.通过插件用户可以为文件、图片和时间序列加入处理模块,并可以集成到其他开源项目中,比如:R语言,Weka.KNIME是通过工作流来控制数据的集成、清洗、转换、过滤,再到统计、数据挖掘,最后是数据的可视化.整个开发都在可视化的环境下进行,通过简单的拖曳和设置就可以完成一个流程的开发.KNIME被设计成一种模块化的、易于扩展的框架.它的处理单元和数据容器之间没有依赖性,这使得它们更加适应分布式环境及独立开发.另外,对KNIME进行扩展也是比较容易的事情.开发人员可以很轻松地扩展KNIME的各种类型的结点、视图等.这个软件一般的大数据培训班没有教学,国内想要用这个基本只能靠自学。
5)WekaPentaho(14.8%)
Weka的全名是怀卡托智能分析环境(waikatoenvironmentforknowledgeanalysis),是一款免费的非商业化的基于Java环境下开源的机器学习以及数据挖掘软件.Weka提供的功能有数据处理,特征选择、分类、回归、聚类、关联规则\可视化等.而Pentaho则是世界上最流行的开源商务智能软件.它是一个基于Java平台的商业智能(businessintelligence,BI)套件,之所以说是套件是因为它包括一个Webserver平台和几个工具软件:报表、分析\图表\数据集成\数据挖掘等,可以说包括了商务智能的各个方面.在Pentaho中集成了Weka的数据处理算法,可以直接调用.
需要说明的是,虽然KDNuggets的调查是针对大数据,但是上述5种数据分析工具,并非全是针对大数据而设计的.例如excel,在大数据出现之前,就已经用于数据分析,但excel是极好的大数据分析入门的工具,
留言与评论(共有 0 条评论) |