基于Flink+Hive构建流批一体准实时数仓 | InfoQ 公开课
公司内部已经有一套 Hive 离线数仓,如今业务对实时性提出了更高的需求,但又不希望在 Hive 之外从头新建一套实时数仓、导致重复开发,怎么办?8 月 10 日 晚上 20:00,阿里巴巴技术专家李劲松现身 InfoQ《公开课》直播间,详细介绍如何借助 Flink 解决 Hive 流批一体准实时数仓的难题,实现更高效、合理的资源配置。
如何看直播?
扫描下方二维码进入直播群。不仅可以收看直播,还可以获得本次直播的 PPT,并且可以与其他志趣相投的小伙伴共同论道。群里福利抽奖、专家答疑、资料下载等诸多福利等着你。
更多福利
直播结束后,我们将进行福利抽奖!届时将在直播交流群中抽出三名幸运观众,为每人分别赠送《数据科学与大数据分析》书籍一本!敬请期待哦~
讲师及主题介绍
主题:基于 Flink+Hive 构建流批一体准实时数仓
基于 Hive 的离线数仓往往是企业大数据生产系统中不可缺少的一环。Hive 数仓有很高的成熟度和稳定性,但由于它是离线的,延时很大。在一些对延时要求比较高的场景,需要另外搭建基于 Flink 的实时数仓,将链路延时降低到秒级。但是一套离线数仓加一套实时数仓的架构会带来超过两倍的资源消耗,甚至 导致重复 开发。
想要搭建流式链路就必须得抛弃现有的 Hive 数仓吗?并不是, 借助 Flink 可以 实现已有的 Hive 离线数仓准实时化 。本次 InfoQ 公开课,将分析当前离线数仓实时化的难点,详解 Flink 如何解决 Hive 流批一体准实时数仓的难题,实现更高效、合理的资源配置。
直播大纲
离线数仓实时化的难点
Lambda 架构,成本较高
使用第三方工具和调度工具的难点
数据湖,新技术尝鲜不容易
Flink on Hive 准实时方案准实时数据摄入,Flink 如何做到准实时数据落地、精确语义
准实时消费,Flink 如何用流的方式消费 Hive 表
维表关联,Flink 以流的方式关联维表
基于 Flink 构建 Hive 流批一体准实时数仓应用实践案例需求
基于 Flink 的实时数据摄入案例
基于 Flink 搭建实时 Pipeline 案例
听众受益 了解流批一体数仓的构建和难点
了解 Hive 实时化的思路和发展
了解 Flink 相关技术思路
适合人群 正在探索和建设 流批一体 Hive 实时化数仓的同学。
讲师介绍 李劲松 ,花名之信,阿里巴巴技术专家, Apache Flink Committer 。2014 年起 专注于 阿里内部 Galaxy 流 计算框架;2017 年起开始 Flink 研发,主要专注于 Batch 计算 、 数 据结 构 与类型。
??点击【阅读原文】预约精彩直播
阅读原文
网站开发网络凭借多年的网站建设经验,坚持以“帮助中小企业实现网络营销化”为宗旨,累计为4000多家客户提供品质建站服务,得到了客户的一致好评。如果您有网站建设、网站改版、域名注册、主机空间、手机网站建设、网站备案等方面的需求...
请立即点击咨询我们或拨打咨询热线:13245491521 13245491521 ,我们会详细为你一一解答你心中的疑难。 项目经理在线