云技术简单理解,大数据和云计算有什么关系?

在对大数据与云计算的关系理解之前云技术简单理解,我们需要对这两个概念分别进行了解 。
大数据指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯,简单理解就是海量数据的高效处理 。
云计算就是硬件资源的虚拟化,云计算相当于我们的计算机和操作系统,将大量的硬件资源虚拟化后再进行分配使用 。
本质上看,云计算强调的是计算,而数据则是计算的对象,二者是动与静的关系,但大数据需要处理数据的能力,比如数据获取、清洁、转换、统计等等,而云计算为大数据处理提供了一个很好的平台,是唯一可行的大数据处理方式,二者是静中有动,动中有静 。云计算是基础设施,大数据可以使用云计算的存储能力来保存数据,计算能力来进行运算 。云计算需要大数据,大数据需要云计算,云计算能为大数据提供强大的存储和计算能力,能够更加迅速地处理大数据的丰富信息,并更方便地提供服务;而来自大数据的业务需求,能为云计算的实施找到更多更好的实际应用,大数据与云计算相结合,二者相辅相成,相得益彰,互相都能发挥最大的优势,为社会创造出更大的贡献 。
说到阿里云的技术有多强,我觉得今年拿奖拿到手软应该算是其实力强劲的一大证明了吧 。

云技术简单理解,大数据和云计算有什么关系?

文章插图

云技术简单理解,大数据和云计算有什么关系?

文章插图
我特意查阅了资料,阿里云简直是被国际权威机构和组织夸了个遍 。
云技术简单理解,大数据和云计算有什么关系?

文章插图

云技术简单理解,大数据和云计算有什么关系?

文章插图
此前,Gartner发布了一份中国企业AI案例研究报告 。大赞阿里云推动AI技术子在各行业真正落地,给世界提供了重要经验 。
云技术简单理解,大数据和云计算有什么关系?

文章插图

云技术简单理解,大数据和云计算有什么关系?

文章插图
随后,阿里云又被Forrester评为“国际数字化转型专家”,成为中国唯一入选的服务厂商 。
而后Gartner又公布了2018年全球数据库魔力象限评选结果,同样也是有史以来首次有中国科技企业入选该榜,此番阿里云被纳入“远见者象限” 。
同时,在近期Forrester宣布的2018年全球云数据仓库报告中,阿里云云数据仓库平台,
竟然赶超微软,与Teradata、Genpact等资历丰富的美国服务厂商一同上榜 。
这些第三方权威机构的评奖赞誉足以说明阿里云在国际上的影响力,以及技术的强大 。
再来看产品本身,阿里云的ET大脑在全球来看都是耀眼的自研科技,落地城市、工业、农业等各大领域,不断带来积极影响 。
譬如城市大脑覆盖杭州共420平方公里,相当于65个西湖大小,可实时指挥200多名交警,不仅调节拥堵情况,还能让消防队实现智能救火 。而工业大脑也让中策橡胶、天合光能等制造业龙头企业增创上千万的效益 。
此外,阿里云不久前在英国成功开服,成为首个覆盖美国、英国、德国、日本和中国全球最大五个云计算市场的中国厂商,它的全球化进程也代表了其技术实力受到了世界范围的认可 。
我想,这些足以说明阿里云的实力到底有多强了 。
云存储的几十年发展历程,其计算架构模型,也从Scale Up走向Scale Out 。但是展望未来数字世界的海量需求,目前流行的模型还能够持续满足吗?本文通过对云存储历史的回顾,及对Scale Up和Scale Out两种扩展模型的诠释,来揭开云存储的未来模式 。
1. 云存储及其历史
简而言之,云存储(cloud storage)就是将数字内容安全的存储在服务器上,从而任何连接互联网的设备可以方便的获取 。首先让我们简单回顾一下云存储的历史 。
云存储的早期雏形要回溯到上个世纪的90年代,也就是互联网泡沫时期(dot-com boom),当时有许多家公司,例如EVault, NetMass, Arkeia和CommVault等等[1]均提供在线数据备份服务,当然它们绝大部分也随着互联网泡沫的破碎而烟消云散了 。少数幸存下来的有一家叫Veritas NetBackup最后也被Symantec收购,现在依旧提供Symantec NetBackup的在线存储服务 。
而真正让大家耳熟能详的云存储是2006年由Amazon提供的AWS S3云存储服务,其最具有革命意义的变革是,提出了即买即用(pay-per-use)的价格模型,使得云存储的使用像水电一样可计算衡量 。从此云存储以S3为标准一路绝尘,我们所熟悉的大厂,比如Netflix, Pinterest, Dropbox也是S3的顾客 。尾随的Microsoft和Google也于2010年分别发布了类似的Azure Blob Storage和Google Storage的存储服务 。
云存储真正发展的十几年中,见证了移动互联网的崛起,大数据的生机勃发,人工智能的再次复兴,并能够展望到未来物联网,无人驾驶及各类机器人自动化的世界 。海量数据的产生,存储,分析,预测及应用,快速以正反馈循环方式,推进着人类社会向数字世界大步迈进 。所以,为了适应数据存储新的需求,各家云存储产品的应用场景及价格模型,已从单一向多元发展,比如AWS S3就有Standard,Intelligent-Tiering,Standard-IA,One Zone-IA,Glacier和Glacier Deep Archive六类存储产品来满足各类使用场景,我会在未来的文章里针对性的细讲一下 。而本文重点所探讨的是,目前云存储的基础架构体系是否能够适应未来数据存储的要求和挑战?为了回答这个问题,让我们先简单回顾一下计算机体系架构里的Scale Up和Scale Out扩展模型 。
2. Scale Up和Scale Out?
Scale Up又称为垂直扩展(scale vertically)[2],意为在单节点上添加资源,如CPU,内存和存储,在纵向上扩展从而获得更多计算或存储能力;Scale Up初期能够快速达到升级目的,操作起来相对比较简单,但随着计算或存储的要求越来越高,硬件资源的添加可能已经达到极限,不仅单节点的造价非常昂贵,维护成本很高,而且更容易留下单点故障的隐患 。传统的RAID(Redundant Array of Inexpensive Disks)存储就是此种模式 。
Scale Out又称为水平扩展(scale horizontally)[2],意为在分布式环境下,通过添加节点计算或存储资源,在横向上满足更多的计算存储需求;随着计算和存储单位价格的降低和效率的提升,使用低端的商用(commodity)系统,利用分布式技术可以搭建起“超级计算”中心,以及后来衍生出来的私有或公有云平台解决方案 。虽然分布式系统会带来一定程度上的软件复杂度和管理困难,但由软件定义的计算和存储解决方案,能够以较低的价格和较高的鲁棒性,优雅的解决了海量增长的计算存储需求,也是目前云平台的主流技术 。但它就一定能够承载未来的更加海量的需求吗?云存储的未来是什么?方向是向左还是向右?
3. 未来向左还是向右?
话说天下大势, 分久必合, 合久必分,事物发展的规律似乎从来就没有什么绝对 。当下,云平台内部似乎已完全是Scale Out模式了,但当我们把镜头再拉远一点,从云平台在全球部署的每一个可用区来看,整体上它又是一个Scale Up模型,不是吗?单点投入巨大,耗费能源,使用成本高昂 。而相反,随着强大的计算,存储和带宽能力能够进入寻常家庭、工作和生活等边缘节点,资源闲置或者不均衡使用也变得越来越明显 。
那么,是否能够将这些边缘节点的计算存储能力结合起来,组成一个真正意义上的Scale Out平台,提供人们日益增长的计算存储需求?
可否将浪费或者不对等的资源重新组合,提供一个更加节能环保的绿色Scale Out平台?
可否摒弃中心化的单点故障和数据安全隐患,真正做到廉价高效,零数据泄露的Scale Out平台?
答案是应该可以而且必须可以!
纵观云存储平台的发展历史,从单节点的Scale Up模式走向可用区内部的Scale Out模式,又从内部的Scale Out模式走向整体上相对的Scale Up模式 。而未来数字世界的海量计算和存储需求的满足,一定需要真正意义上的全球Scale Out模型,那就是把边缘节点和半中心化节点高效且系统的组织起来,减少浪费,提高效率,节省成本,去除中心 。将天空中几块为数不多的白云,变成漫天遍布的朵朵白云,让人们自由定价、自由选择、自由组合 。
挑战虽然巨大,但未来很美好,让我们一起努力迎接云存储的明天!
[1]: History of Online Storage
[2]: Wiki Scalability
文章作者:Bruce Lee(总架构师)
转载请注明出处
如果有关于PPIO的交流,可以通过下面的方式联系我:
加我微信,注意备注来源
【云技术简单理解,大数据和云计算有什么关系?】wechat:omnigeeker