Invalid input. Special characters are not supported.
“推理”曾只是训练之后默默跟进的后续环节,甚至常常被当作事后补充。但一切似乎在一夜之间改变。如今,推理已成为 AI 基础设施的重头戏,而存储也正逐渐成为备受关注的焦点。
每当您向聊天机器人提问、生成图像或运行 Copilot 协作的任务时,推理都在背后发挥着作用。这些操作不像训练过程那样可预测、可重复。推理按需实时进行,并且完全由用户行为驱动。其过程也因此变得更加复杂,更难优化。
想象一下在交通高峰期穿梭于繁忙都市。每位司机都有各自的目的地,交通状况也瞬息万变。您需要根据当前路况实时做出决策,调整路线以避开拥堵,高效抵达目的地。这种不可预测性和对快速调整的需求,恰好反映了 AI 推理的随机性。您的每一次交互都会触发一组独特的进程与计算,这要求系统具备出色的性能和响应能力。
推理 = IOPS
现实情况是:与训练工作负载不同,推理工作负载并非直线运行。它们会循环往复、不断优化和重新处理。这意味着每次交互都会触发大量的读取、写入和查找操作。因此每秒读写操作次数 (IOPS) 会快速累积。推理不仅需要高容量,还需要高性能支撑。虽然算力总是占据头条,但实际上是存储系统在持续“喂养这头巨兽”。
随着模型规模扩大(以近实时方式服务于像您这样的数十亿用户),基础设施承受的压力呈指数级增长。AI 创新必须以光速推进,但其总体的速度最终取决于速度最慢的环节。
Meta 首席 AI 科学家 Yann LeCun 道破关键:“AI 基础设施的成本大部分都来自推理:为数十亿人提供 AI 助手服务。”
这种规模直接转化为对速度更快、响应更快的存储系统的需求:不仅要具备高容量,还要能够实现高 IOPS。推理应用所驱动的并发 I/O 吞吐量可达传统 CPU 计算应用的数百甚至数千倍。
推理 = IOPS
美光正在实际部署中见证这一转变。运行大语言模型 (LLM) 和其他推理密集型工作负载的客户,正在寻求在不可预测的负载下降低尾延迟、提升响应速度的方法。
这正是美光 9550 等硬盘以及新一代 PCIe 6.0 NVMe SSD 大显身手的领域。它们并非通用存储设备,而是专为 AI 推理等数据密集型、低延迟环境而量身打造。
推理 = IOPS
NVIDIA 的黄仁勋最近指出:“由于代理型 AI 和推理能力的发展,如今我们的计算量需求已达到去年此时预测值的 100 倍。”
不仅仅是模型要变得更智能,整个技术栈的基础设施都需要同步进化。而这一维护需求同样涵盖存储,尤其在那些需要跨越多 GPU 集群、加速器及多级内存进行 AI 推理的系统中。
随着用例的扩展(聊天机器人、搜索、Copilot 以及边缘嵌入式 AI 等),整个 I/O 管道正面临重新评估。如果存储无法跟上速度,那么即使计算构造再快又有何意义?
推理 = IOPS
推理的时代已然来临,推动了对 IOPS 的需求——而美光正在引领这一时代潮流。