引言点亮⭐️Star·照亮开源之路https:github.comapacheincubatorseatunnel为什么说CDC是SeaTunnel平台中的一个重要功能特性?今天这篇文章跟大家分享一下CDC是什么?目前市面上的CDC工具现有的痛点有哪些?SeaTunnel面对这些痛点设计的架构目标是什么?另外包括社区的展望和目前在做的一些事情。总体来说,市面上已经有这么多CDC工具了,我们为什么还要重复去造一个轮子?带着这个疑问,我先给大家简要介绍下CDC是什么!CDC的...
2023-01-04 20:57:03 8870浏览 2点赞 0回复 0收藏
点亮⭐️Star·照亮开源之路https:github.comapacheincubatorseatunnel讲师简介周利旺天翼云大数据开发工程师在11月26日,ApacheSeaTunnel&APISIX联合Meetup期间,天翼云科技大数据开发工程师周利旺给大家分享了天翼云数据集成平台引入SeaTunnel过程中的一些探索实践,希望对大家有所帮助!天翼云数据集成平台基于ApacheNifi二次封装而成,但是对于一些特定的需求ApacheNifi不能够很好地满足,因此需要引入第三方的数据集成...
2022-12-26 16:01:32 7425浏览 7点赞 3回复 5收藏
大数据、物联网(IoT)、软件即服务(SaaS)、云活动等正在导致世界上现有的数据源数量以及数据量呈爆炸性增长,但这些数据大部分都收集并存储在数据孤岛或独立的数据存储空间中。数据集成是将这些独立的数据整合到一起,以产生更高的数据价值和更丰富的数据洞见的过程。对于数据集成平台,很多团队都会选择开源的技术工具,从而降低重复造轮子的成本,SeaTunnel确实拥有着丰富的插件及生态,甚至对二次开发和拓展也特别友好,但...
2022-12-09 17:35:12 3047浏览 0点赞 0回复 0收藏
大数据时代下,数据开发治理成为企业数据资产管理、提升数据质量、数据智能应用等过程的关键。数据开发治理成功与否,关系着实现能否实现企业数据价值的最大化。数据集成与API网关是决定控制数据治理开发成果质量的两把“钥匙”。其中,数据集成把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,从而为企业提供全面的数据共享;API网关是与实际后端服务或数据连接的流量管理器,并针对API调用应用策略、身份验证...
2022-11-21 18:03:12 2944浏览 0点赞 0回复 0收藏
点亮⭐️Star·照亮开源之路https:github.comapacheincubatorseatunnel本月初,SeaTunnel同步计算引擎STE2.3.0beta2(commitid7393c47)在社区的共同努力之下正式发布。与此同时,社区对大家期待的性能指标进行了测试。为了让大家对测试结果有一个更直观的概念,我们采用了对比测试的方法。熟悉数据集成领域的人应该了解,DataX是目前数据开源同步引擎里,性能较好的同步工具之一,这次SeaTunnel做对比的对象,正是这款目前在...
2022-11-16 11:33:21 8159浏览 4点赞 1回复 1收藏
点亮⭐️Star·照亮开源之路https:github.comapacheincubatorseatunnel讲师简介毕博马蜂窝数据工程师在10月15日,ApacheSeaTunnel&IoTDB联合Meetup期间,马蜂窝网数据工程师毕博给大家介绍了SeaTunnel的基本原理和相关企业实践思考、马蜂窝大数据开发调度平台典型场景下的痛点和优化思考,并分享了个人参与社区贡献的实践经验,希望同时能帮助大家快速了解SeaTunnel及参与社区建设的路径和技巧。✦SeaTunnel的技术原理简介...
2022-11-04 11:57:57 9921浏览 4点赞 2回复 2收藏
点亮⭐️Star·照亮开源之路https:github.comapacheincubatorseatunnel编辑:盛夏腾讯微保大数据团队讲师简介汪洋Shopee数据基础架构团队Spark应用程序开发专家在ApacheSeaTunnel(Incubating)&Shopee联合Meetup期间,Shopee数据基础架构团队Spark应用程序开发专家汪洋讨论了Shopee其为何选择ApacheSeaTunnel作为他们的新数据集成框架以及如何将SeaTunnel集成到他们的数据管道中。01我们面临的问题1.1现状Shopee是一家电子商务公...
2022-10-21 16:38:33 1.5w浏览 4点赞 1回复 1收藏
点亮⭐️Star·照亮开源之路版本更新今天,ApacheSeaTunnel(Incubating)2.2.0beta版本正式发布。新版本对ConnectorAPI进行了重构,将连接器与引擎解偶,同时社区基于新API完成了大量连接器的接入,并修复了上个版本中存在的使用性问题,提高了版本稳定性和使用效率。本文将为大家介绍ApacheSeaTunnel(Incubating)2.2.0beta版本更新的具体内容。ReleaseNote:https:github.comapacheincubatorseatunnelblob2.2.0betareleasenote.m...
2022-10-10 17:18:49 6258浏览 2点赞 0回复 0收藏
核心概念整个SeaTunnel设计的核心是利用设计模式中的控制翻转或者叫依赖注入,主要概括为以下两点:1.上层不依赖底层,两者都依赖抽象2.流程代码与业务逻辑应该分离对于整个数据处理过程,大致可以分为以下几个流程:输入转换输出,对于更复杂的数据处理,实质上也是这几种行为的组合:内核原理SeaTunnel将数据处理的各种行为抽象成Plugin,并使用SPI技术进行动态注册,设计思路保证了框架的灵活扩展,在以上理论基础上,数据的...
2022-10-09 10:07:13 7559浏览 8点赞 3回复 2收藏
点亮⭐️Star·照亮开源之路GitHub:[https:github.comapacheincubatorseatunnel](https:github.comapacheincubatorseatunnel)目录本文转载自AdobeeChen的博客CSDN博客,看看是否有你感兴趣的吧!如有出错,请多指正。一、启动脚本解析二、源码解析01入口02execute()核心方法1.其中BaseSource、BaseTransform、BaseSink都是接口、都实现Plugin接口。他们的实现类就是对应的插件类型2.execute()方法向下走,创建一个执行环境。3...
2022-10-08 14:19:08 6159浏览 0点赞 0回复 0收藏
点亮⭐️Star·照亮开源之路GitHub:https:github.comapacheincubatorseatunnel随着SeaTunnel在全球范围内获得认可,这个项目正在吸引着越来越多的海外贡献者贡献开源。其中,来自韩国最大的互联网企业Kakao集团的大数据平台工程师NamgungChan(南宫灿)最近在「SeaTunnelConnector接入激励计划」中为SeaTunnel贡献了Neo4jSinkConnector。在对话中,我们了解到了SeaTunnel为何对他有吸引力,以及他关于SeaTunnel应该如何在韩国...
2022-09-20 15:31:24 5119浏览 0点赞 0回复 0收藏
点亮⭐️Star·照亮开源之路GitHub:https:github.comapacheincubatorseatunnel无论是甲方还是乙方,我们在采集数据进行数仓模型建设时,企业的ERP一旦切换到SAP系统中,就会遇到较高的安全挑战、技术门槛和产品壁垒。安全挑战问题在于:传统数仓模式离线接入SAPHANA,对于多集团公司又涉及到数据权限和隔离等安全问题,一般集团大型企业不太会开放HANA数据库进行接入,同时SAP的业务表逻辑也比较复杂;技术门槛在于:我们要有...
2022-09-09 18:37:16 6204浏览 1点赞 0回复 0收藏
优秀的数据集成能力能帮助企业最大限度挖掘数据价值,同时解决企业内部数据团队各系统口径不统一、数据交互难、缺乏统一的数据集成平台等痛点问题。而SeaTunnel不仅在Spark和Flink之上运行,同时还支持多种数据源,拥有丰富的插件体系,在大数据众多的开源项目中,ApacheSeaTunnel这颗冉冉升起的新星,这次将带来什么重磅分享呢?9月24日14:00,我们将联合Shopee开启首场海外Meetup(纯英文演讲),让我们一起走进领航电商平...
2022-09-09 09:53:42 3584浏览 0点赞 0回复 0收藏
点亮⭐️Star·照亮开源之路GitHub:https:github.comapacheincubatorseatunnel在7月24日ApacheSeaTunnel(Incubating)&ApacheDoris联合Meetup上,一个普通的社区贡献者狄杰,给大家带来的演讲主题是SeaTunnel的服务化之路,主要是和大家聊一下,SeaTunnel如何从一个数据集成组件演化成企业级的服务。今天的分享主要分为四个部分:服务化的初衷与价值服务的整体架构社区的当前进展Roadmap为什么要做服务化?从2019年开始,社区对...
2022-08-01 22:16:07 6858浏览 1点赞 0回复 1收藏
随着大数据时代的来临,数据的处理对企业的技术团队挑战越来越高,数据在同步时能否支持各种数据源?应对海量的增量数据实例如何拥有更好的性能?数据聚合平台是否能开箱即用方便二次开发?应对数据采集多场景和工具的是否具备良好的拓展性等,都是数据开发工程师关心的切实痛点问题,而对于企业来说,海量数据如何更好更快的分析应用,数据如何驱动业务更好的发展,成为相当重要的一环。而庞大的数据增量以及业务多变的数据分...
2022-07-11 17:37:04 6218浏览 3点赞 0回复 0收藏
ApacheSeaTunnel(Incubating)社区线上Meetup讲师&议题正式对外征集啦!疫情之下,社区举办的线上交流活动依然热火朝天。在此我们诚心向社区广大用户发起邀请,借你之力让社区更加强大,帮助到更多的人!社区重于代码,社区会记住每一位为之做出贡献的讲师!如果您想贡献您的想法、分享您的经验、锻炼演讲能力,可以在滑到下方扫描二维码报名,我们将在7个工作日内联系您,在此之前您可以了解分享嘉宾在Meetup中的收获。01Apac...
2022-07-07 13:24:37 5955浏览 1点赞 0回复 1收藏
这次在6月Meetup为大家带来的是Scaleph基于ApacheSeaTunnel(Incubating)的数据集成介绍,希望你有所收获。本次演讲主要包括五个部分:1.关于Scaleph2.Scaleph架构&功能简介3.SeaTunnel社区贡献4.系统演示5.开发计划王奇ApacheSeaTunnelContributor搜索推荐工程师,大数据Java开发01Scaleph的缘起我最早是从事搜索推荐工作,在团队里面负责维护Dump系统,主要是为我们的搜索引擎提供喂数据的功能,先给大家介绍在维护过程中主要...
2022-07-05 13:57:01 1.3w浏览 1点赞 0回复 0收藏
当今许多企业都有着技术架构的DataOps程度不够、二次开发成本高、迁移成本高、集群部署混乱等情况,团队在技术选型之后发现并不适合自己的需求,但是迁移成本和难度又比较大,甚至前团队还留下了不少坑,企业自有的开发能力又比较有限,导致后面的小伙伴上手难度高体验差。俗话说“工具选得好,下班回家早;调度用得对,半夜安心睡”,面对各种难点和痛点:如何有效地评估数据调度工具?如何平滑的过渡到ApacheDolphinScheduler...
2022-05-25 10:53:54 6847浏览 1点赞 0回复 0收藏
02Master启动流程2.1MasterServer的启动在正式开始前,笔者想先鼓励一下大家。我们知道启动Master其实就是启动MasterServer,本质上与其他SpringBoot项目相似,即启动里面的main函数。但想要开始实操前,肯定有不少的人,尤其是初学者会突然发现这里面有十多个由bean注入的autowired。被多个bean的注入搞到一头雾水,甚至感觉一脸懵逼的不是少数。但笔者就想说是,这些其实都是吓唬你们的,不用害怕,接下来将带领你们把这些bea...
2022-05-19 17:37:55 6784浏览 2点赞 0回复 0收藏