#冲刺创作新星#小桥流水人家,流式数据Apache Kylin也接得住! 原创

急需吃饭的小谢
发布于 2022-10-9 22:32
浏览
0收藏

小桥流水人家,流式数据Apache Kylin也接得住!

坚持原创,写好每一篇文章

我们都知道Apache Kylin的数据来源是一种是来自Hive数据仓库,这样的数据源我们采用的是增量构建,而来自消息队列的数据源采用的是流式构建。

流式构建

所谓流式构建就是数据像流水一样,源源不断,实时数据。构建流式数据的Cube和其他的数据的Cube没有什么不同,分区的时候一般按照时间来分区。Apache Kylin的流式构建可以制定定时任务来进行构建数据。

请求路径

Apache Kylin在进行流式构建的时候,对于流式构建的请求是路径为http://localhost:7070/kylin/api/cubes/{cube_name}/build2,为put请求,参数有需要构建的Cube名称,构建数据的起止点。当然,我们还可以使用图形界面中的菜单操作来进行构建,原理都是一样,菜单中的构建也是调用这个REST请求,我们要透过现象看本质,理解它的本质对我们理解更有帮助。

与其他构建的区别

对于流式构建的原理和hive这样的数据源没有什么区别,它的原理是将消息队列这样的数据源转成相同格式的json数据,再把这些json数据放入临时表中,构建的数据将保存到HDFS中。

总结

这篇文章我们讲了Apache Kylin流式构建的内容,整体和其他的数据源的构建没有多大的区别,使用流式构建一般来自kafka这样的消息队列,kafka的高可用性和扩展性就不用多说了,它的高效让kafka在处理实时数据的时候不可或缺。Apache Kylin的流式构建的原理就是将数据包装成json格式放入临时表中来存储,流式构建还支持通过定时任务来定时构建Cube。流式构建没有多少内容需要讲述,它一般使用时间维度来统计数据。Apache Kylin做的不只是这些,还有对Spark的支持,我们以后将将将Apache Kylin与Spark是怎么进行整合的。

❤️ 感谢大家

如果你觉得这篇内容对你挺有有帮助的话:

  1. 欢迎关注我❤️,点赞👍🏻,评论🤤,转发🙏
  2. 关注盼盼小课堂,定期为你推送好文,还有群聊不定期抽奖活动,可以畅所欲言,与大神们一起交流,一起学习。
  3. 有不当之处欢迎批评指正。

©著作权归作者所有,如需转载,请注明出处,否则将追究法律责任
分类
2
收藏
回复
举报
回复
    相关推荐