作者:Stefan Mandl,西部数据全球销售与市场营销副总裁

多年来,算力一直是 AI基础设施讨论中的决定性指标。随着各类组织不断突破性能极限,处理能力、内存吞吐量、互连速度、功率密度等各项指标均实现了显著提升。当行业面临的紧迫挑战是训练大规模模型,并将 AI 从实验阶段推向实际应用时,这种关注是合乎情理的。
然而,随着 AI 在中国及亚太地区的应用日趋成熟, 算力与数据之间的结构性差距正变得愈发关键。训练固然重要,但 AI 发展的下一阶段将不仅取决于企业能够部署多少算力,更取决于随着时间的推移,AI 系统将消耗、生成、保留和复用多少数据。而当 AI 进入生产和推理阶段以驱动业务价值,这种差异将愈发显著 。AI 不仅在使用数据,还在持续创造新数据——从上下文、元数据到输出结果、历史记录,以及许多企业为了治理合规、模型优化或未来使用而希望保留的运行衍生数据。
不同的AI工作负载对存储分层也存在着不同的需求,涵盖从数据摄取、训练到推理和长期留存的各个阶段,因为在每个阶段,系统对性能、容量和成本的要求都有着本质的区别。一旦推理开始,这种分歧就更加明显:算力的扩展可能呈阶段性波动,但数据的增长却永不停歇。
久而久之,AI 生产环境的运作方式将越来越呈现出数据系统的特征,而非纯粹的算力系统,因为数据的积累开始决定这些系统如何扩展、运行并交付价值。这一点在亚太地区尤为关键,因为该地区的AI应用正在规模扩张、成本压力、能源限制与监管复杂性的多重因素交织下加速演进。
中国及亚太区的 AI 数据规模持续扩大
亚太地区的增长势头是有目共睹的。德勤的一份报告显示,该地区有望成为全球下一个数据中心枢纽——预计到2030年,数据中心投资将达到约8,000亿美元。
同时, AI 基础设施的规划十分复杂。这里汇集了高速增长的数字经济体、拥有成熟基础设施的市场以及新兴的 AI 原生环境,且各地的优先事项不尽相同。例如在中国十四届全国人大四次会议经济记者会中,与会的国家发改委领导表示,将深化“人工智能+”行动,赋能千行百业、服务千家万户,并预测“十五五”末 AI 相关产业规模将增长到10万亿元以上。 为实现这一远大的愿景,企业需要确保数据其基础设施能够承载不断增长的 AI 工作负载。
因此,AI 的真正瓶颈已经逐渐从爆发式的算力,转向了如何经济高效地大规模管理数据。随着 AI 环境的扩大,企业必须支持数据全生命周期的分层管理:热数据需要闪存以实现快速访问、间歇性使用的温数据以及需要长期存储的冷数据则可以利用 HDD 的经济性。将所有数据集中在单一的高性能存储层,在小规模下或许可行,但随着数据量的增长,这在效率和经济上都将难以为继。
从实际应用角度来看,亚太地区的 AI 增长不仅会对算力部署施加压力,还会对支撑 AI 长期可持续、经济高效运行所需的底层数据架构提出更高要求。这就是为何底层架构现在与原始速度同等重要。在讨论扩展时,关键在于可用性、持久性、韧性,以及长期留存和管理数据的经济性。现在真正重要的是:当数据量激增、工作负载变化以及成本压力加剧时,底层架构能否跟上步伐。
AI的长期成本考量
随着 AI 步入持久且持续生成数据的阶段,其长期成本将不仅由算力决定,还取决于企业如何长期高效地保留和管理数据。在大规模应用中,总体拥有成本(TCO)由存储成本、功耗、散热设备以及管理激增数据的运营负担共同决定。
这正是可持续性与基础设施设计密不可分的原因所在。问题不仅在于如何为算力供电,还在于如何将 AI 构建为能高效利用容量、能源和物理空间的数据系统——涵盖从数据摄取、训练到推理和长期留存的各个环节。并非所有数据都需要存储在同一性能层级。将存储资源与工作负载需求相匹配,可以让企业在数据全周期内更高效地利用容量、能源、散热和物理空间。
对于基础设施决策者而言,这意味着从一开始就将可持续性和TCO设计作为设计优先级进行考量。在系统投产前,关于数据留存、分层、持久性和可用性的初始假设,在投产后都会产生长期影响;一旦进入大规模阶段,再回头来调整的代价将极其高昂。那些从数据全生命周期角度出发进行构建的企业,将能更好地以经济可持续且具备运营韧性的方式实现 AI 扩展。
AI 的下一阶段将由架构定义
行业正在跨越仅关注芯片、基准测试和模型峰值性能的阶段。下一阶段将由架构选择来塑造,这决定了在应用规模扩大时,系统能否保持经济可行性、适应性和可持续性。
这意味着需要思考更棘手的问题,例如:应该保留多少数据?留存多长时间?哪些工作负载需要强大的性能,哪些不需要?企业应如何在访问便捷性、韧性、治理和成本之间取得平衡?这些不再是次要问题,而是决定 AI 能否以商业可行且可长久运营的方式实现扩展的核心要素。
AI 领域的下一批赢家,将不仅仅是那些部署了最多算力的企业,更是那些理解AI系统长期运作规律,并基于“AI不仅创造智能,同时也创造数据”这一现实进行构建的企业。在大规模应用下,数据即系统。