ALC Beijing 博客

ALC Beijing 博客

介绍 Apache 之道,推广开源项目,传播开源精神,让更多的本土开发者近距离了解 ASF 以及开源文化!

12 Oct 2020

追赶与创新 —— Apache 中国路演2020在 COSCon'2020(技术篇)

引言

没有什么好说的,从分布式系统到调度器,再到可观察性,以及数据可视化,当然还有消息队列,大数据处理、IoT。

让更多的人知道项目,才可能从这些人中转化为用户,用户中可能筛选出贡献者,进而形成良性循环,这大概是所有开源项目的期望。

以下技术内容,因为缺少对比,仅仅在此给大家罗列出来目前在本土所分享的关于技术议题,没有逻辑、没有分类、没有主线,唯一的相似之处就是这些项目是捐赠给了Apache软件基金会,以Apache之道的方式在运作,技术水平如何,解决了用户什么问题,请详细阅读。或者来COSCon的现场聆听。

项目在生产环境中的落地

本次分享首先会介绍DolphinScheduler社区的发展情况,然后会介绍我们当时为何要重复造轮子再造大数据任务调度,DolphinScheduler整体的设计思想、考量以及DolphinScheduler的特性和能力,接下来会介绍DolphinScheduler架构的变迁过程。#在此次分享中我也会讲述我们在做大数据任务调度时遇到的挑战和积累下来的经验,也会分享一些用户案例和使用场景,最后会分享一下开源的历程

此次分享主要介绍Apache Skywalking 在小米信息技术部的应用,包括并且不限于Apache Skywalking 在小米新零售、商城、门店等10多个业务的应用以及整体部署架构(中国大陆、俄罗斯、新加坡等机房部署)、在小米如何处理每日新增数亿trace segment以及相关优化配置、Apache Skywalking 告警模块如何跟小米内部告警平台打通等二次开发内容、小米对Apache Skywalking 开源社区的一点贡献。

作为Apache顶级项目的ShardingSphere,将会在最新发布版本中迈向从分布式数据库中间件生态圈到分布式数据库的转型。#已在GitHub上收获12k+ Star的开源人气项目将进一步根据用户需求和应用场景,在这个数据库化的过程中全力打造更为简单、丰富、一体化、可插拔的分布式数据库产品体系,从而为用户提供最简单易用、功能强大、性能稳定的分布式数据库化产品。本次分享将为详细阐述数据库化的产品特性、架构体系、极简落地方案实践等核心内容。

自从2017年成为国内首个中间件Apache开源顶级项目以来,Apache RocketMQ 以高性能、低延迟和高可靠的消息发布与订阅服务成为各厂商业务消息的首选。进入云原生时代,Apache RocketMQ也在悄然成为云原生时代的通信基础设施。本次演讲将结合Apache RocketMQ开源历程,介绍在云原生时代 RocketMQ核心竞争力、最新的技术进展、开源社区生态以及未来展望。

Apache Kylin 4.0 Alpha版本日前已经发布,它是Apache Kylin 4的第一个早期预览版本,是继Kylin 3之后的一个重大架构升级版本,采用Parquet这种真正的列式存储来代替HBase存储,提升文件扫描性能;同时重新实现了基于Spark的构建引擎和查询引擎,使得计算和存储分离变为可能,更加适应云原生的技术趋势。本次演讲嘉宾张智超将从架构升级,原理讲解,重大特性等几个方面来介绍Apache Kylin 4.0。

Apache Doris(Incubating)是一款支持对海量数据进行快速分析的 MPP 数据库。Doris 自设计之初,就秉承着极简运维、高效可靠、易学易用的原则,为用户提供全面而高效的海量数据分析能力。自 2018 年底进入 Apache 孵化器后,Doris 已经发布了 5 个大版本,接收了来自社区 100 多位开发者的贡献,并在多家互联网头部企业和垂直领域企业落地和应用。本次演讲主要包含 Doris 的发展历程、系统架构、主要特性和应用案例四个部分,帮助听众对 Doris 有一个全面而具象的认识。最后,陈明雨会介绍 Doris 社区目前的发展情况,希望能够帮助开发者更方便快捷的加入开源社区。

定制化Operator模式在面向Kubernetes的云化平台建构中变得越来越流行。Apache SkyWalking社区已经开始尝试使用Operator模式去构建基于Kubernetes平台的PaaS云组件。本次分享给将会给听众带来该项目的初衷,实现与未来演进等相关内容。分享的内容包含:#1. 项目动机与设计理念#2. 核心功能展示,包含SkyWalking核心组件的发布,更新与维护。#3. 观测ServiceMesh,包含于Istio的自动集成。#4. 目前的工作进展和对未来的规划。

ElasticJob 在 2015 年首次面世,经历多年的开源历程,于 2020年5月28日 正式成为 Apache ShardingSphere 旗下子项目。#ElasticJob 是一款服务于任务分片的分布式调度中间件,在加入 Apache 软件基金会之后,它的设计理念,整体架构和功能都进一步的完善和升级,并且已经发布了第一个 Apache 版本 - 3.0.0-alpha。#本次分享在简短回顾 ElasticJob 的发展历史后,将着重介绍其 3.x 版本的功能和设计理念的转变,以及和 Apache ShardingSphere 的结合点。

RocketMQ作为有状态的分布式消息服务,如何在云原生时代下做到极简运维管控,是一个极具挑战和价值的问题。本次演讲主要介绍RocketMQ Operator相关的背景知识、技术原理以及如何使用它在Kubernetes上进行RocketMQ集群的部署和管理。

Apache Pulsar是下一代云原生消息平台,Apache Pulsar 从雅虎开源,在2018年9月毕业成为Apache基金会的顶级项目。#Apace Pulsar从2012年诞生时就前瞻性地采用了存储计算分离、分层分片的云原生架构,极大减轻了了用户在消息系统中遇到的扩展和运维的困难。#本次演讲将深入介绍 Pulsar 的云原生的特性和架构优势,以及在全面云原生时代 Pulsar 的最新技术进展。

T3 出行是一家基于车联网驱动的网约车平台,拥有海量且丰富的数据源。为此在很早就基于Apache Hudi构建了企业级的数据湖。但数据湖从外界摄取的数据源绝大部分都是原始数据,而为了使原始数据变得更有业务价值和分析价值,T3出行 需要对数据进行ETL等进行脱敏。这时为了解决低延迟、高效的数据加工,最初引入了Easy Scheduler(DolphinScheduler前身),在使用过程中发现了不少问题。随着DolphinScheduler加入Apache孵化器进行孵化并快速迭代,T3出行也随之升级到了DolphinScheduler并围绕它打造了一个企业级的大数据调度管理平台。这次分享T3出行将会对基于Apache DolphinScheduler支撑数据湖上低延迟数据加工的实践进行介绍。

工业物联网数据的主体是机器产生的时序数据,是工业互联网的原矿。与其他大数据不同,其具有高通量、低质量、弱模式、查询分析复杂等特点。Apache IoTDB是从中国高校发起的,经过多年迭代,在多个工业生产系统中经过验证的新一代工业物联网数据库管理系统,目前已成为Apache顶级项目。本报告将详细介绍工业物联网中的挑战,Apache IoTDB的基本概念和特性,并简单介绍基于Apache IoTDB的相关实际案例,帮助听众了解如何基于Apache IoT生态,解决工业物联网数据应用需求。

随着数据可视化需求的不断增长以及对可视化理论理解的逐渐加深,数据可视化工具在近年来发生了很大的转变。最初,可视化的需求主要集中在使用静态的图表展现数据,以帮助用户更直观地理解数据。后来,交互性的可视化工具被用作加强用户对数据关系理解的手段。现在,可视化工具另一个很重要的功能是帮助讲好一个故事。我们期望可视化工具能够帮助用户探索并思考数据背后的故事,并且由此受到启发甚至在之后影响自己的行为。在这个分享中,我们会介绍 Apache ECharts (incubating) 一路的研发改进,并且探讨现代的可视化工具的探索方向。

主讲嘉宾介绍

羡辙

是著名开源可视化产品 Apache ECharts (incubating) 的 PPMC 成员和核心贡献者之一。除此之外,也是活跃的开源社区贡献者。在 GitHub(id:Ovilia)上,她开源了多款有趣的可视化作品,比如老派像素风的个人主页、每天收获不同字体故事的「2019 字体日历」App、解答「为什么你的女神总缺一支口红」的口红可视化作品、将声音用手绘效果表现的音频可视化作品等等。

黄向东

博士,清华大学软件学院助理研究员。研究方向为大数据系统架构与时间序列数据管理技术。他是Apache IoTDB项目的初始源码提交者之一,同时也是Apache IoTDB 项目 VP。

杨华/赵玉威

T3 出行大数据平台负责人。Apache Hudi committer & PMC member。Apache Kylin committer 及 Flink Cube 引擎作者。Apache Flink 国内早期布道者及活跃贡献者。前腾讯高级工程师,曾主导 Flink 框架在腾讯从落地到支撑日均近 20 万亿消息的处理规模。曾连续两年受邀在QCon全球开发者大会上进行技术分享。

翟佳

StreamNative的联合创始人兼CTO。是开源项目Apache Pulsar和Apache BookKeeper的PMC成员和Committer。主要从事分布式、消息系统、流存储、文件系统等相关的设计和开发。曾就职于EMC,先后是统一存储平台和实时处理平台的技术负责人。

刘睿

Apache开源社区贡献者,Apache RocketMQ committer, Apache IoTDB PMC,阿里巴巴研发工程师,硕士毕业于清华大学,主要工作和研究方向涉及云原生时代下的消息中间件,时序数据库,分布式系统。曾作为讲师多次在RocketMQ、IoTDB社区及其他开源活动中进行分享。

金融通

Apache RocketMQ PMC Member,阿里巴巴研发工程师,对分布式消息系统等有深刻理解。作为讲师曾在Apache RocketMQ社区和其他开源活动中进行过多次分享。

张智超

目前就职于上海跬智信息技术有限公司(Kyligence)开源组,参与了Apache Kylin和Apache CarbonData等开源项目。

陈明雨

百度资深研发工程师,负责Apache Doris(Incubating) 设计研发工作。同时维护Doris在百度内部超过千台的部署规模,为超过200个业务线提供稳定可靠的数据分析服务。#6年分布式系统研发经验,一直专注于分布式可扩展分析型数据库领域,主导参与了ApacheDoris从百度开源到进入Apache孵化器的全过程,同时也是ApacheDoris的PPMC成员。