
可观测性与AI:双引擎驱动IT系统迈向自动化与智能 原创
在 IT 领域,可观测性指的是通过 IT 系统的外部输出,我们能够推断出其内部状态的程度,这一特性对于现代软件的运行、维护以及优化工作至关重要。
同样的,在 IT 领域,AI 代表 IT 系统所展现出的智能水平,AI 的目标是让 IT 系统执行需要人类智能才能完成的任务。
因此,可观测性是 IT 系统的一种内在性质,而 AI 则是 IT 系统的一种外在能力。拥有可观测性的 IT 系统,无论其复杂度高低,通常都能保持稳定的运行状态。而具备 AI 能力的 IT 系统,则可应对和解决一些需要人类智慧参与的复杂问题。
AI 与可观测性的共生关系
AI 为什么需要可观测性
AI 为什么需要可观测性,是因为承载 AI 的 IT 系统需要可观测性来保障其稳定运行。可观测性为什么需要 AI,是因为 AI 可以比人类更高效的进行从观测数据到系统状态的推测。
AI训练需要可观测性1-1
这是一个典型的 AI 训练系统,其处理流程包括数据的准备、验证、提取;模型的训练、评估、验证,以及推理服务。与这个系统互动的人员包括工程师、科学家、产品经理等。当这个系统的复杂度达到一定程度时,尤其是训练 LLM 等大模型时,系统的稳定性就变得至关重要。而保障 AI 训练的稳定性,加快训练速度,提高训练效率,都需要这个 AI 训练系统具备可观测性。
AI训练需要可观测性1-2
通过分析 AI 训练系统的外部输出,比如指标、日志、追踪、元数据等,即可实现对 AI 训练系统中每个组件内部运行状态的掌控,进而保障整个系统的稳定性和效率。通过构建 AI 系统的可观测性,可以让工程师、科学家、产品经理们围绕运行数据而非系统本身对AI训练过程进行优化,从而大大提升团队的工作效率。
虽然 AI 训练是眼下大家关心的问题,但实际上只训练不推理是无法创造价值的,更无法支撑起整个 AI 产业链的运行。
AI推理更需要可观测性
根据红杉资本 David Cahn 的分析,2024 年预计 Nvidia 的收入将达到 1500 亿美金,那么相关的 AI 基础设施投入将达到 3000 亿美金。如果相关投资回报要达到软件行业的平均水平,即 50% 的利润率,那么全球的 AI 服务的相关营收至少要达到 6000 亿美金。AI 服务的营收,绝大部分来自推理服务。由于推理服务将面向数以亿计的终端客户而非模型训练时的 AI 科学家,因此其服务质量将直接与营收挂钩,也就是与 6000 亿美金挂钩。
试想一下,如果大家在使用 ChatGPT 的过程中时断时续,还会为其支付每月 20 美金的订阅费吗?如果使用 AI 视频生成服务,有时需要等待 1 分钟,有时需要等待 1 小时,那还会选择这家服务商吗?
AI可观测性市场现状
再从另一个视角看 6000 亿美金的魔力。在 AI 可观测性的市场中,已经出现了千军万马奔向前的壮观景象。从数百亿美金市值的 Datadog、Dynatrace 到 Cisco、IBM、Nvidia 等大厂,再到 WhyLabs、Arize、Fiddler 等初创公司,不可谓不热闹。
云杉的新一代产品也积极参与其中,其开源版本已于 2023 年 入选 CNCF 在大模型可观测性(LLM Observability)领域的 Landscape。并在 2024 年 1 月 10 日登上 YC 的 Hacker News 首页,目前已经在全球诸多互联网公司和开发者中得到了广泛的应用。
可观测性为什么需要 AI
复杂 IT 系统产生的可观测性数据量,将远高于业务和基础设施的监控数据量。如图所示,仅仅一次简单的业务调用所产生的数据就如此复杂,涉及到网络、系统、进程、函数等一系列操作,这样的数据每天产生数以亿计,自然不能仅依靠人工的可视化分析,而是需要基于 AI 的自动化分析才能充分发掘其中的价值。
IT 系统之所以需要可观测性,其目的不只是增强监控能力,而是要实现 IT 系统的自动化。云杉坚信未来的 IT 系统是高度自动化的,就像工厂的自动装配、汽车的自动驾驶、火箭的自动回收一样。
可观测性产品的自动化更需要AI
如图所示,可观测性和 AI 均是 IT 系统实现自动化运营的重要组成部分。可观测性产品采集数据,并以此推测出 IT 系统的内部状态。AI 则根据 IT 系统的内部状态产生控制策略,并以此实现 IT 系统的业务目标。没有 AI 产生的控制策略,IT 系统的自动化闭环则无法实现。
AI 在可观测性中的创新应用
DeepFlow与AI:AI 推理中使用 DeepFlow 定位性能瓶颈
DeepFlow定位性能瓶颈1-1
AI 推理中,常常会遇到各种原因不明确的性能问题。若不能尽快定位性能瓶颈,就不能解决 AI 推理服务的用户体验问题,进而导致大量的用户流失乃至营收损失。如图所示,通过 DeepFlow 可以快速定位推理瓶颈存在于一个特定的异步调用之中,而造成这个异步调用慢的原因则是 GPU 之间的数据拷贝频繁。因此解决的办法是减少数据拷贝或者干脆把多个小 GPU 卡换成一块儿大 GPU 卡。
DeepFlow定位性能瓶颈1-2
比性能问题更严重的是 AI 推理服务的中断。若用户在等待 10 分钟后发现之前的视频生成被异常中断,一定会非常愤怒。因此,精准定位中断原因,并快速改善 AI 推理服务,是可观测性的重要作用。
例如推理服务显存溢出(OOM)是一种棘手的故障,不仅会导致大面积推理请求失败,而且服务重启之后通常难以快速复现高显存用量的场景,故障隐患得不到消除。如图所示,通过 DeepFlow 可以快速定位推理服务申请显存的 Top 函数调用栈,包括梯度计算和前向传播等等。解决方法包括利用梯度累积、减少中间变量、优化 Batch Size 等。
DeepFlow与AI:DeepFlow 使用 AI 提升 10 倍的故障定位效率
DeepFlow使用AI提升10倍的故障定位效率
DeepFlow 除了可以解决 AI 系统的可观测性问题,也可以利用 AI 来解决可观测性产品易用性问题。对于一个典型的云原生应用,其产生的可观测性数据是非常复杂的,绝非普通运维工程师能轻松应对。如图所示,即使是很有经验的 SRE 工程师,面对这样的复杂场景,也往往需要数分钟乃至数小时才能完成故障排查。DeepFlow 通过引入 AI 分析技术,可以将复杂问题的诊断时间从数小时缩短到数秒钟。智能分析的结果不仅仅包含故障原因的分析,也给出了如何处理故障的建议及措施,为实现 IT 系统自动化运营提供了有力的保障。
可观测性与 AI 的未来:迈向新的 IT 纪元
所以,通过以上例子就不难理解这句话了:可观测性是 IT 系统的一种内在性质,而 AI 则是 IT 系统的一种外在能力。
可以说,可观测性是 IT 系统深藏的稳健基因,它赋予系统无论多么错综复杂,都能安然运行的内在力量。而 AI,则是 IT 系统外展的智慧之光,以其独特的赋能,解决那些需要人类思维才能攻克的难题。当可观测性与 AI 相结合,它们共同推动 IT 系统运营效率的提升,引导企业迈向自动化与智能运营的新阶段。
