在AI与本土化双重浪潮之下,服务器操作系统正迎来历史性变革。由阿里云联合InfoQ打造的直播IP栏目《AI进化论:智算时代操作系统的破局之路》,以云、AI、安全等技术与服务器操作系统如何融合演进为主线,聚焦服务器操作系统在智算时代的进化之路,特邀学术权威、行业专家、客户代表围绕原生智能、原生安全、软硬协同等热点议题展开深度对话。截至目前,已直播三期,线上观看人次达20万+。《AI进化论:智算时代操作系统的破局之...
2025-09-02 13:55:23 768浏览 0点赞 0回复 0收藏
背景近期,大量用户反馈系统在运行过程中出现CPU利用率与系统负载(load)突发性飙升,甚至引发系统短时卡顿(持续数秒至数十秒)的问题;对于业务来说,轻则导致几百毫秒的抖动,重则连机器都无法ssh上去。经分析发现,此类异常现象普遍存在一个显著特征:均发生在系统内存占用率接近阈值(90%95%)时。用户就发出了灵魂拷问:“水位这么高了,为什么内核不触发OOM杀掉一些进程来释放内存?"“我宁愿内核OOM把我业务进程杀了,...
2025-08-27 18:04:19 1470浏览 0点赞 0回复 0收藏
背景在云计算日益增长与业务大规模上云的背景下,网络的高质量通讯则是维护业务高效运行的重要保障。数据包丢失(PacketLoss)作为现代网络架构中的核心挑战,可能引发多维度的业务风险:在业务部署阶段或运行过程中,丢包现象轻则导致通信中断、数据传输异常,造成业务逻辑执行偏差;重则触发运维系统中的健康检查失败、Ping不通及拒绝服务等连锁故障。近期有客户在新区域部署业务集群时遭遇严重网络丢包问题,导致业务部署...
2025-08-06 13:33:23 2002浏览 0点赞 0回复 0收藏
背景操作系统运维常常遇到以下问题:1.问题定界浪费大量人力:当业务出现问题时,客户在不清楚是操作系统问题还是业务问题时,往往会拉上所有相关团队一起排查,浪费人力。2.问题定位时间长:通过操作系统指标排查业务问题时,运维人员需要从大量的指标中查找具体原因,浪费大量时间。3.问题现场丢失:等到真正开始排查问题的根本原因时,往往已经错过了最佳时机,现场信息已经丢失,使得问题更难解决。为了应对上述问题,阿里...
2025-07-03 16:27:57 5813浏览 0点赞 0回复 0收藏
近日,阿里云技术专家于国瑞和阿里云高级工程师马丁受邀参加云原生计算基金会(CNCF)ConfidentialContainers(简称CoCo)项目社区线上会议,分享了《PeerPods技术方案在阿里云上的落地和实践》。会上,两位技术专家全面介绍了PeerPods在阿里云ACK上的技术落地方案,并与现场嘉宾深度探讨了PeerPods在重塑云原生机密计算形态方面的创新架构。根据可信执行环境(TEE)保护的Kubernetes资源粒度,目前主流的云原生融合机密计算的...
2025-06-25 17:39:46 2942浏览 0点赞 0回复 0收藏
近日,阿里云高级技术专家马腾受邀参加在上海举办的2025全球开发者先锋大会(GDC),分享了主题《新技术新方案:产业共建大模型时代下的Mooncake》的演讲,重点聚焦开源大模型的技术演进、产业实践与商业转化三大维度。会上,他详细介绍了阿里云在开源项目Mooncake大模型存储架构上的最新贡献,展示了开源项目Mooncake如何通过共享KVCache来以存换算,优化大模型推理效率,从而提升整体AI系统的效率和可靠性。现场嘉宾通过多维...
2025-05-30 13:51:29 5153浏览 0点赞 0回复 0收藏
在云计算环境中,Kubernetes(K8s)集群与容器化部署已成为行业标准化实践,但同时也对运维体系及可观测性提出了显著挑战:一方面,主流监控工具(如NodeExporter、cAdvisor和Datadog)虽能提供系统级与容器级的基础指标,却难以覆盖操作系统深层次问题(如调度延迟、内存回收延迟、TCP重传率等),而引入增强型指标又面临操作系统知识门槛高、分析复杂度大的难题;另一方面,传统监控体系在告警触发或问题发生时往往缺乏完整的...
2025-05-30 13:49:58 2222浏览 0点赞 0回复 0收藏
注:Sysom是操作系统控制台的运维组件。背景进程热点某个进程或进程中的某些部分(如函数、代码段、线程等)占用大量系统资源(如CPU时间、内存、磁盘IO等),或者执行频率非常高,从而成为系统性能瓶颈或资源消耗的重点区域。它是性能分析和优化中的一个重要概念,帮助开发者和运维人员快速定位系统中的关键问题区域。进程热点追踪是性能分析中的关键概念,通过性能分析工具和可视化手段(如火焰图),可以快速定位系统中的性...
2025-05-30 13:48:09 1903浏览 0点赞 0回复 0收藏
背景在云计算和容器化部署环境中,云原生容器化已成为行业标准,带来高效部署和成本控制优势的同时,也伴随新的挑战:●资源管理复杂:动态环境使传统排查方法难以应对。●透明度不足:容器引擎层不透明导致内存问题难以定位,如内存泄漏。●性能问题:高负载场景下内存占用高、抖动等问题影响系统稳定性。●传统方法局限:监控排查耗时低效,隐性问题难以发现,增加运维成本。通过操作系统内存全景功能,可一键扫描诊断,提升...
2025-05-30 13:46:00 3184浏览 0点赞 0回复 0收藏