阿里巴巴少杰:大数据处理实践

  • 时间:
  • 浏览:1

还还后能 看出,Maxcompute是全功能的,还还后能 支持数据导入导出、支持文件存储调度、支持多编程模型的分布式大数据出理 平台。

但会 ,MapReduce诞生了。通过数据有一种形态,用KEY value数据形态组织数据,每另有1个 worker还还后能 通过Map出理 另有1个 KEY value数据形态,KEY value 数据形态用KEY形态重新分布数据,再用下一批任务去做出理 ,MapReduce还还后能 描述什么都复杂性的逻辑,MapReduce里还还后能 尝试像CEP或MPI去构造另有1个 通用的超高性能高并发计算机,过后 通过需用用户去改变编程模型来实现分布式数据出理 。

大伙儿儿在数据中心的设置上,经历了另有1个 阶段。400年代中期另另有1个 ,大伙儿儿是对于文件做出理 的模式,里还还后能 出理 KB-MB的数据;2010年另另有1个 ,这是DataBase辉煌的年代,无论是开发信息平台还是互联网应用,一定会 以DataBase为中心的,比如Oracle、SQLserver、MySQL等,DataBase上一定会 什么都生态系统,还还后能 出理 MB-GB级数据;随着数据量持续爆炸,传统DataBase不难 支持下去,什么都一批大数据出理 平台应运而生,比如Hadoop、Spark、Flink等,还还后能 出理 400GB-PB级存储和计算。

伴随那些挑战带来的冲突,大伙儿儿要重新审视传统数据库设计,传统数据库强调ACID、强调隔离性、强调一致性,那些在分布式环境中不难 保证,比如网络时效性需用高性能,写机房需用用异步土方法同步到另另有1个 机房,这时不难 保证一致性。此外,传统数据库一定会 形态化/关系型的,机会出理 大数据,什么都大数据通常一定会 形态化的,什么都新的人工智能应用机会不需用形态化存储,形态化存储机会影响设计;传统并行计算一定会 什么都尝试,包括复杂性事件出理 和MPI出理 ,但会 事实上还还还后能 打破条件,但会 性能和相关指标也达还还后能 要求。

Hadoop是MapReduce论文的参考实现,发表论文一两年后,Hadoop机会成为独立项目,它经历十十几个 代表性阶段Hadoop1.0阶段对应MapReduce、HDFS、HBase、Hive/Pig/Cascades,Hadoop得到飞速发展;Hadoop2.0阶段对应HDFS federation,、YARN、 Tez,Hadoop得到广泛接受,是还还后能 面向企业级的心智心智心智性成长期是什么期 软件;现阶段,Hadoop不仅仅局限于自身系统,包括周围系统,像Spark,Flink, Presto/Drill, Cassandra都和Hadoop有千丝万缕联系,一同构建了另有1个 生态圈。

Maxcompute和飞天也是分层设计,其架构总图如图所示,最下面是一套文件系统;里面是Maxcompute Framework,还还后能 理解为另有1个 调度框架,框架下有什么都调度单元,包括SQL、Graph、Streaming等,还有Metadata元数据,还还后能 用来解析和优化数据查询;最里面是SDK、Studio等用户接口,大伙儿儿一定会 DataX和Datahub等访问工具。

执行计划又是怎么执行呢?如图两张表,一张表是foo table,一张表是bar table,这两张表对应数据在join时,需用把key对应到join key重新整理到下面一堆机器,保证join key在相同机器上一定会 独立的,一定会 经过表名做排序的,每一台机器对应execution plan做出最后结果。

伏羲是另有1个 资源调度系统,大伙儿儿针对于不同的编程模型和应用,都需用兼容,伏羲希望做成详细不关系底部应用,只关心怎么调度另有1个 资源。比如另有1个 应用请求需用4000台机器,SQL对resource manager提出请求,里面有application master还还后能 用应用来实现,SQL会实现application master来具体调度4000台机器怎么使用。



以下是精彩视频内容整理:

本文由云栖社区志愿者小组毛鹤整理编辑,程弢审核

活动相关文章蚂蚁金服西亭:智能金融的技术挑战与方案阿里云朱金童:深层揭秘ET大脑阿里巴巴阿外:客服全链路智能出理 方案浙江大学杨洋:社交网络中的群体用户行为分析与表示学习阿里巴巴iDST杨森:智能决策在电商平台的应用阿里巴巴布民:图计是否生产力





Maxcompute上还有其它知识组件,包括块数据传输服务Tunnel,流式数据传输服务DataHub

综上,对大数据出理 的原理和系统实现以及Maxcompute进行分析后,得出如下总结概括:



Maxcompute是阿里巴巴在大数据方面的离线在线分布式大数据出理 系统,飞天大概底层,还还后能 理解为底层文件系统和底层调度系统。飞天和Maxcompute合起来称为阿里巴巴自研大数据出理 系统,该系统运行在全球超过8万台物理节点,支持每日几百万次查询,阿里内部一定会 几千人在使用该系统进行日常分析和出理 操作。Maxcompute具备有竞争力的技术实现和性能指标,按照相同的硬件来看,机会还还后能 超过最新Hive2.1版本性能90%,超过Spark实现性能400%,Maxcompute目前以专有云和公有云的形式对外售卖。

每有一种应用一定会 每每本人的挑战,和传统DataBase系统比较,机会数据量极大,会居于硬件故障、网络速率单位和延迟、(存储、计算)成本和速率单位/时效性等多方面挑战。

2018年1月6日的云栖社区数据智能技术论坛上,来自阿里巴巴计算平台事业部高级技术专家少杰带来大数据出理 的相关演讲。本文首先浅谈了大数据出理 发展历程和MapReduce的诞生,以选取大数据出理 系统的实现模式,接着重点分享了Maxcompute和飞天的架构实践,包括盘古伏羲和SQL查询,最后作了简要总结。

Maxcompute SQL蕴含两部分,一部分是planning,是指怎么将SQL解析成执行计划,包括用户SQL statement——Parse Tree——Algebraic Tree,进而生成执行计划;一部分是执行,执行计划移到计算集群上,伏羲调度系统给到一系列机器,那些机器对应去具体文件存储地方访问文件,每次访问文件client一定会直接访问盘古master,盘古master给到具体存储后就还还后能 直接访问了。



在更高层的调度上,大伙儿儿支持D2系统,帮助用户实现任务集依赖管理。

传统的大数据用例包括日志分析(网站被怎么访问,货被怎么移动)、商业智能和数据挖掘(人工智能算法)、图计算、检索、机器学习和人工智能等什么都更高级计算一定会 里面。什么都,Maxcompute还还后能 支持多编程模型多用例的开发模式。



总结来说,大数据系统实现模式表现为:



如图SQL查询,首先会生成另有1个 TOK Tree,将词法解析成具体的TOK;但会 生成另有1个 关系代数树;优化后生成另有1个 执行计划,对应了算法选取等。





,数据交互工具DataX。Maxcompute在用户终端上也支持ODPS Studio、ODPS Console、pyOdps / Pai等。

盘古和所有分布式文件系统比较类式,它需用去中心化快速访问里面所有存储,分布式系统中还还后能 有单点限制流量和稳定性,什么都盘古有分离设计,对于顶层目录服务来说,只需用存储另有1个 file和对应的block数据存储单元,block层对应的block就还还后能 存储在不同的chunkserver。什么都,里面还还后能 是若干台机器组成的目录服务,下面是非常多机器存储的具体文件块,每次请求另有1个 块时,假若访问一次master后,即可直接和chunkserver交互。