Amoro是一个构建在ApacheIceberg等开放数据湖表格之上的湖仓管理系统,由网易数帆大数据团队发起开源,提供了一套可插拔的数据自优化机制和管理服务,旨在为用户带来开箱即用的湖仓使用体验。本文来自思科WebEx数据平台SoftwareEngineer白旭,分享Amoro在思科云原生湖仓场景的实践。01Amoro在WebexCiscoWebexproductsprovidecapabilitiesincludingonlinemeetings,teammessagingandfilesharing.Thesuiteisconsideredaleadingcoll...
2023-11-20 15:15:42 3488浏览 0点赞 0回复 0收藏
ApacheKyuubi\[1\]是一个分布式多租户的SQL网关,主要功能为接受用户的通过JDBCREST等协议提交的SQL并根据多租户隔离策略路由给其管理的SQL引擎执行。在最新的Kyuubi1.8版本,KyuubiFlinkEngine迁移到FlinkSQLGateway(下简称FSG)API之上并支持FlinkApplication模式,这让我们能借助Kyuubi快速部署生产可用的分布式FlinkSQL网关。为什么需要Kyuubi相信不少读者首先会想到的问题是,Flink已经提供SQLGateway,为什么还需要引入K...
2023-10-18 09:53:36 6132浏览 1点赞 0回复 0收藏
Elasticsearch在生产环境中有广泛的应用,本文介绍一种方法,基于网易数帆开源的Curve文件存储,实现Elasticsearch存储成本、性能、容量和运维方面的显著提升。ES使用CurveFS的四大收益1.CurveFS提供的成本优势为了高可靠,ES如果使用本地盘的话一般会使用两副本,也就是说存储1PB数据需要2PB的物理空间。但是如果使用CurveFS,由于CurveFS的后端可以对接S3,所以可以利用对象存储提供的EC能力,既保证了可靠性,又可以减少副本...
2023-01-12 13:49:51 6454浏览 7点赞 2回复 6收藏
Loggie萌芽于网易严选业务的实际需求,成长于严选与数帆的长期共建,持续发展于网易数帆与网易传媒、中国工商银行的紧密协作。广泛的生态,使得项目能够基于业务需求不断完善、成熟。目前已经开源:https:github.comloggieiologgie1.背景严选日志平台初期,使用filebeat采集云内日志,用flume采集云外日志。期间经历了一段痛苦的运维排障时期,被问的最多的几个问题:某条日志为何没有采集?某条日志为何重复采集了?能否将漏采...
2023-01-11 15:06:36 7861浏览 6点赞 6回复 5收藏
背景扬州万方科技股份有限公司主要从事通信、计算机和服务器、智能车辆、基础软件等产品的科研生产,是国家高新技术企业、专精特新小巨人企业、国家火炬计划承担单位。业务介绍申威处理器是在国家“核高基”重大专项支持下、由国家高性能集成电路(上海)设计中心自主研发,采用自主指令集,具有完全自主知识产权的处理器系列。当前主流的申威3231处理器是基于第三代“申威64”二次优化版核心的国产高性能多核处理器,主要面向...
2022-12-30 15:51:33 3611浏览 2点赞 0回复 0收藏
2022年12月22日,Apache软件基金会(ASF)官方宣布ApacheKyuubi正式毕业,成为顶级项目(TLP)。ApacheKyuubi是一个分布式和多租户网关,用于在数据仓库和湖仓上提供无服务器SQL。项目最初由网易数帆开发并于2018年开源,2021年6月捐赠Apache基金会,经过1年多的孵化于2022年11月通过投票,在12月顺利毕业,成为Apache基金会顶级开源项目!ApacheKyuubi简介ApacheKyuubi在各种现代计算框架之上建立了分布式SQL查询引擎,例如Apa...
2022-12-29 16:18:13 5035浏览 1点赞 0回复 0收藏
Curve是云原生计算基金会(CNCF)Sandbox项目,是网易数帆发起开源的高性能、易运维、云原生的分布式存储系统。为了让大家更容易使用以及了解Curve,我们期望接下来通过系列应用实践文章,以专题的形式向大家展示Curve。本篇文章是Curve块存储应用实践的第一篇,该系列文章包括:Curve块存储应用实践一部曲之iSCSICurve块存储应用实践二部曲之nbdCurve块存储应用实践三部曲之云主机Curve块存储应用实践四部曲之云原生数据库Curve块...
2022-12-02 14:13:20 7120浏览 5点赞 4回复 3收藏
伴随着国家产业升级的推进和云原生技术成熟,多点DMALL大数据技术也经历了从存算一体到存算分离的架构调整变迁。本文将从引入Kyuubi实现统一SQLProxy的角度讲述这一探索实践的历程。多点DMALL成立于2015年,提供一站式全渠道数字零售解决方案DMALLOS,目前已与130+连锁零售企业、近1000家品牌达成合作,覆盖5个国家和地区。作为一站式全渠道数字零售解决方案服务商,多点DMALL通过数字化解构重构零售产业,提供端到端的商业SaaS...
2022-11-25 12:19:17 7207浏览 8点赞 6回复 3收藏
业务背景创云融达是一家以海量数据的存管用为核心,以企业级私有云建设能力为基础,并提供数据资产和数据中台产品和解决方案的高新技术企业。近年来,为了优化人们纳税缴费的服务体验,各省市税务系统逐步构建了面向税务办事大厅的各种创新型智慧设备和智慧应用,如办税一体机,智慧税务大屏,语音辅助设备、以及业务流程辅助AI机器人等。极大便利人们税业务体验的同时也对IT集成和IT基础设施提出了更高的要求。创云融达承建了...
2022-11-24 17:08:07 2452浏览 1点赞 0回复 0收藏
网易传媒大数据实际业务中,存在着大量的准实时计算需求场景,业务方对于数据的实效性要求一般是分钟级;这种场景下,用传统的离线数仓方案不能满足用户在实效性方面的要求,而使用全链路的实时计算方案又会带来较高的资源占用。基于对开源数据湖方案的调研,我们注意到了网易数帆开源的基于ApacheIceberg构建的Arctic数据湖解决方案。Arctic能相对较好地支持与服务于流批混用的场景,其开放的叠加式架构,可以帮助我们非常平滑...
2022-11-09 10:32:09 6787浏览 7点赞 4回复 5收藏
01背景介绍近几年随着B站业务高速发展,数据量不断增加,离线计算集群规模从最初的两百台发展到目前近万台,从单机房发展到多机房架构。在离线计算引擎上目前我们主要使用Spark、Presto、Hive。架构图如下所示,我们的BI、ADHOC以及DQC服务都是通过自研的Dispatcher路由服务来实现统一SQL调度,Dispatcher会结合查询SQL语法特征、读HDFS量以及当前引擎的负载情况,动态地选择当前最佳计算引擎执行任务。如果用户SQL失败了会做引...
2022-10-27 17:42:57 1.1w浏览 1点赞 0回复 0收藏
背景随着大数据业务的发展,基于Hive的数仓体系逐渐难以满足日益增长的业务需求,一方面已有很大体量的用户,但是在实时性,功能性上严重缺失;另一方面Hudi,Iceberg这类系统在事务性,快照管理上带来巨大提升,但是对已经存在的Hive用户有较大的迁移成本,并且难以满足流式计算毫秒级延迟的需求。为了满足网易内外部客户对于流批一体业务的需求,网易数帆基于ApacheIceberg研发了新一代流式湖仓,相较于Hudi,Iceberg等传统湖...
2022-10-26 10:01:14 7858浏览 6点赞 5回复 5收藏
多租户可视化K8s管理平台KubeCube([https:kubecube.io](https:kubecube.io))近日迎来了新版本的发布,新版本增加了K8s版本转化、HNCGA版本适配、审计信息国际化、warden主动上报模式,为集群和项目设置Ingress域名后缀等特性,也修复了若干已知问题,详见[ChangeLog](https:github.comkubecubeioKubeCubeblobreleasev1.4docschangelog.md)。该版本中最主要的特性是VersionConversion能力的支持,使得接入KubeCube的用户无需感知...
2022-10-20 16:23:54 7948浏览 1点赞 0回复 1收藏
本文章将结合网易数帆的工作实践,分享如何基于Kubernetes实现在离线业务的混合部署,在不影响在线业务的前提下,将CPU利用率提高到50%以上,大幅降低企业数据中心成本。1引言服务器资源利用率较低,IT基础设施的总拥有成本(TCO)逐年上涨,一直是困扰很多企业的难题。统计数据显示,数据中心成本中服务器采购成本占比超过50%,而全球服务器平均资源利用率不到20%,造成了巨大的IT基础设施成本浪费。而在网易集团内部,传媒、...
2022-10-17 15:04:18 1.6w浏览 5点赞 4回复 2收藏
在IstioCon2022上,网易数帆资深架构师方志恒从企业生产落地实践的视角分享了多年Istio实践经验,介绍了Istio数据模型,xDS和Istio推送的关系,网易数帆遇到的性能问题和优化的经验,以及一些相关的Tips。数据模型从推送的角度,Istio所做的事情,以做菜的过程类比,大致分为以下几个部分:首先是“备菜”。Istio会对接、转换、聚合各种服务注册中心,将不同的服务模型的数据统一转换为Istio内部的服务模型数据。早期的Istio实...
2022-10-14 15:34:33 6721浏览 0点赞 0回复 0收藏
在云原生社区近日主办的ServiceMeshSummit2022服务网格峰会上,网易数帆云原生技术专家方志恒分享了轻舟服务网格无侵入增强Istio的经验,本文据此次分享整理,介绍了对无侵入和实现的思考,轻舟服务网格演进过程中的扩展增强,以及这些扩展增强和无侵入的关系。这里“无侵入”强调的是对服务网格基础设施本身的无侵入,而不是只有对业务的无侵入,后者是服务网格本身的定位所要考虑的内容。服务网格维护中的无侵入关于无侵入,...
2022-10-14 15:31:15 5766浏览 0点赞 0回复 0收藏
本文将主要介绍NDHImpala的物化视图实现。接上篇,前两篇分别讲了执行引擎和虚拟数仓,它们是让一个SQL又快又好地执行的关键。但如果某些SQL过于复杂,比如多张大表进行Join并有大量的聚合类操作,那么再优秀的执行引擎也无法保证能够秒级执行完成,虚拟数仓的弹性扩展能力也很难及时跟上,这正是物化视图能够发挥作用的场景。1物化视图简介在计算机领域,物化视图是一个数据库对象,结构化保存了一个SQL查询的结果...
2022-10-12 15:51:46 8613浏览 4点赞 3回复 4收藏
本文是网易副总裁、网易杭州研究院执行院长、网易数帆总经理汪源在ArchSummit全球架构师峰会的演讲实录,分享对数据分析技术相关的趋势的观察和思考。文末附演讲PPT下载。当前在数据分析领域新的名词和新的方向是非常多的,所以有很多的客户比较困惑:有这么多的新方法、新趋势,我看得眼花缭乱,怎么办?我提炼出我认为最主要的三条主线,这些主线都是在发展过程中,当前并没有非常高的成熟度,但是我觉得是最值得关注的。数据...
2022-10-08 15:28:53 7130浏览 3点赞 0回复 2收藏
导读:今天分享的主题是《Kyuubi在小米大数据平台的应用实践》,主要分为四部分内容:Kyuubi在小米的落地过程打造易用和高可用的Kyuubi服务基于kyuubi的改进kyuubi的一些新特性在业务场景的应用01Kyuubi在小米的落地过程第一个主题:关于Kyuubi在小米的大数据平台落地过程和实施路径的分享。1\.背景介绍先介绍一下背景,小米的大数据体系在不断更新和迭代,随着业务架构、组织架构和技术架构的调整,内部大数据平台逐渐出现一些...
2022-09-02 15:27:38 1.1w浏览 1点赞 1回复 1收藏
本文主要介绍网易数帆NDH在Impala上实现的虚拟数仓特性,包括资源分组、水平扩展、混合分组和分时复用等功能,可以灵活配置集群资源、均衡节点负载、提高查询并发,并充分利用节点资源。对于高性能分析型数仓,除了需要有优秀的执行引擎能够让查询尽快完成外,还需避免因为查询间的相互干扰导致查询性能下降的问题,比如对计算和IO资源的竞争等。上节提到Impala可以通过资源池来进行计算资源的管理。但在使用时发现光有资源池还...
2022-08-22 10:31:13 1.1w浏览 4点赞 3回复 3收藏