成为了|10个最佳的大数据处理编程语言( 二 )


业界普遍认为Julia过于晦涩难懂 。 但数据骇客在谈到它取代R和Python的潜力时会不由得眉飞色舞 。 Julia是一种高层次的 , 极度快速的表达性语言 。 它比R语言快 , 比Python更可扩展 , 且相当简单易学 。
“它正在一步步成长 。 最终 , 使用Julia , 你就能够办到任何用R和Python可以做到的事情 , ”Butler说 。
但是至今为止 , 年轻人对Julia依然犹豫不前 。 Julia数据社区还处于早期阶段 , 要能够和R语言和Python竞争 , 它还需要添加更多的软件包和工具 。
“它还很年轻 , 但它正在掀起浪潮并且非常有前途 , ”Driscoll说 。

成为了|10个最佳的大数据处理编程语言
文章图片

JAVA Java , 以及基于Java的框架 , 被发现俨然成为了硅谷最大的那些高科技公司的骨骼支架 。“如果你去看Twitter , LinkedIn和Facebook , 那么你会发现 , Java是它们所有数据工程基础设施的基础语言 , ”Driscoll说 。
Java不能提供R和Python同样质量的可视化 , 并且它并非统计建模的最佳选择 。 但是 , 如果你移动到过去的原型制作并需要建立大型系统 , 那么Java往往是你的最佳选择 。
hadoop 和 Hive 一群基于Java的工具被开发出来以满足数据处理的巨大需求 。 Hadoop作为首选的基于Java的框架用于批处理数据已经点燃了大家的热情 。 Hadoop比其他一些处理工具慢 , 但它出奇的准确 , 因此被广泛用于后端分析 。 它和Hive——一个基于查询并且运行在顶部的框架可以很好地结对工作 。
Scala Scala是另一种基于Java的语言 , 并且和Java相同的是 , 它正日益成为大规模机器学习 , 或构建高层次算法的工具 。 它富有表现力 , 并且还能够构建健壮的系统 。
“Java就像是建造时的钢铁 , 而Scala则像黏土 , 因为你之后可以将之放入窑内转变成钢铁 , ”Driscoll说 。
Kafka 和 Storm 那么 , 当你需要快速实时的分析时又该怎么办呢?Kafka会成为你的好朋友 。 它大概5年前就已经出现了 , 但是直到最近才成为流处理的流行框架 。
Kafka , 诞生于LinkedIn内部 , 是一个超快速的查询消息系统 。 Kafka的缺点?好吧 , 它太快了 。 在实时操作时会导致自身出错 , 并且偶尔地会遗漏东西 。
“有精度和速度之间有一个权衡 , ”Driscoll说 ,“因此 , 硅谷所有的大型高科技公司都会使用两条管道:Kafka或Storm用于实时处理 , 然后Hadoop用于批处理系统 , 此时虽然是缓慢的但超级准确 。 ”
Storm是用Scala编写的另一个框架 , 它在硅谷中因为流处理而受到了大量的青睐 。 它被Twitter纳入其中 , 勿庸置疑的 , 这样一来 , Twitter就能在快速事件处理中得到巨大的裨益 。
鼓励奖 MatLab MatLab一直以来长盛不衰 , 尽管它要价不菲 , 但它仍然被广泛使用在一些非常特殊的领域:研究密集型机器学习 , 信号处理 , 图像识别 , 仅举几例 。
Octave Octave和MatLab非常相似 , 但它是免费的 。 不过 , 它在学术性信号处理圈子之外很少见到 。
GO GO是另一个正在掀起浪潮的后起之秀 。 它由Google开发 , 从C语言松散地派生 , 并在构建健壮基础设施上 , 正在赢得竞争对手 , 例如Java和Python的份额 。