AI下半场:当智能体走向具身,如何打破数据飞轮的存储壁垒?
在 AI 下半场,算力崇拜正逐渐回归理性,如何让智能体(Agent)拥有长效记忆、如何让具身智能(Embodied AI)走出实验室,成为了行业共同探索的命题。2026 年 6 月 5 日,在国家会议中心举办的 Agent Infra 专场媒体深度沟通会上,腾讯云存储总经理陈峥与灵生科技合伙人、世界模型训练负责人蒋玉骅博士,围绕大模型落地、具身智能数据痛点及 AI 下半场的存储重构,谈了自己的观点。
AI 的下半场,从算力崇拜到长效记忆
伴随着大模型技术的演进,关于 AI 上半场与下半场边界的讨论愈发激烈。作为国内率先提出世界动作模型(WAM)并践行的前沿 AI 企业,灵生科技合伙人蒋玉骅博士认为,当前 AI 的发展周期依然由 Scaling Law(尺度定律)主导。但传统大模型的 Scaling Law 正在逼近计算与模型的边界,相比之下,具身智能所依赖的世界模型(World Model),其 Scaling Law 的探索才刚刚开始。目前工业界与学术界的世界模型规模普遍在 10B(百亿参数)以下,数据和模型的双向驱动将是下半场的硬核主线。
从 AI 基础设施(Infra)的视角来看,腾讯云存储总经理陈峥则提出了一个根本性的范式转移:AI 上半场解决的是算力问题,即 Agent 能跑多快;而下半场的绝对核心是 Context(上下文),即智能体能不能记得住、找得到。
陈峥表示,过去行业对单点算力过度崇拜,而忽视了作为大脑记忆体的存储。随着算力瓶颈在一定程度上得到缓解,数据存储与算力的均衡发展成为了必然。腾讯云存储也因此完成了三级跳的演进:从最初解决非结构化数据成本与可靠性的通用存储阶段,到加速大模型 GPU 吞吐的 AIGC 时代,再到如今全面满足智能体上下文存储记忆的 Agent Bucket(智能体存储桶)时代。
具身智能的现实痛点
当企业将大模型应用向具身智能、机器人领域落地时,迎面撞上的最大暗礁就是数据。蒋玉骅坦言,灵生科技在训练世界模型时遇到了极大的存储挑战。具身智能的数据特性与传统大模型有着天壤之别:LLM(大语言模型)的数据多是整齐的 JSONL 格式,而具身智能的数据极度碎片化,由海量的图片、音视频小文件组成。从图片到视频,再到跨本体的各种机械臂、灵巧手动作数据,存储空间呈几何级数暴涨,面临严重的碎片化及检索难题。
在这种高频读写、碎片化的场景下,传统的存储方案极易引发 CPU 加载瓶颈。很多时候,模型训练的瓶颈并不在 GPU 的存储上,而是 CPU 卡在海量碎片数据的读取和预处理上,导致昂贵的 GPU 资源陷入空转。
此外,由于具身智能面对的是更开放、更动态的三维物理世界,目前行业的数据仍处于极度稀缺状态,类似于 LLM 的 GPT-3 阶段。为了构建完整的数据飞轮,灵生科技打造了自有的数采工厂,通过无本体数据(如 UMI 和 EGO 第一视角数据)与跨本体数据实行双向驱动:一方面通过稳定渠道的数据采集帮公司训练出更好的世界模型;另一方面利用世界模型辅助数据筛选与质量提高,甚至产生由世界模型生成的、优于仿真数据的 EGO 或 UMI 数据。然而,这套复杂的数据飞轮闭环,对底层的吞吐时延和流式加载提出了近乎严苛的要求。
全栈式 Agent Infra,腾讯云的组合拳回应
针对具身智能和企业级 Agent 表现出的高并发、低时延及数据安全诉求,腾讯云在业界率先打出了一套全栈原生 AI Infra 的组合拳。
为了保证 GPU 不空转,腾讯云在产品侧进行了提前演进,底层统一采用对象存储 COS,并配合分布式缓存技术,将训练所需的音视图文数据及时、流式地预热到算力 GPU 所在的设备或端点上,打通了边 - 端 - 云的数据采集与反哺链路。蒋玉骅对此给出了极高的评价:借助腾讯云的 Agent Bucket 及流式视频加载机制,灵生科技能够将不必要的时延降到最低,完美克服了数据加载的瓶颈,真正把 GPU 的资源跑满了,这对预训练的效率和训练效率而言至关重要。
腾讯云推出的独特能力 ——Agent Runtime(运行态),陈峥对此做了深度拆解,指出 Agent Runtime 其实是一个运行态的集合概念,其底层由四大核心产品体系支撑。第一是 Agent 沙箱,依托腾讯云底座,实现了业界领先的 60 毫秒极速拉起能力;第二是 Agent Bucket,引入了 Space(空间)概念,能够为 C 端客户提供亿级用户空间,且空间之间权限完全隔离,攻克了智能体长周期运行带来的负载暴增与隐私治理问题;第三是 Agent Memory(长效记忆),结合向量存储桶,将最近的热点数据存于向量数据库,长期偏低频访问或需要历史归档的记忆则放在 COS 向量桶中,当用户进行自然语言输入时,系统自动拆解并进行向量与标量检索,帮智能体串联历史记忆;第四是 Agent 安全,提供专门的鉴权与票据管控体系,规范智能体的合法访问权限。
陈峥强调,这套东西不是单点切入,而是以智能体套件的形式在腾讯的微信、QQ 以及最新的 WorkBuddy 等海量业务中经过了规模化验证。比如 WorkBuddy 最新上线的空间项目协作功能,就是基于 Agent Bucket 实现的团队和个人云空间协作,满足多智能体环境下的高并发与隐私隔离。
行业思考
针对近期硬件设备和存储架构价格上涨的现实,以及具身智能泼冷水的言论,两位嘉宾给出了冷思考与破局之道。
陈峥认为,硬件由于产能周期原因价格上涨确是事实,在短期内产能很难扩大的情况下,企业更应通过精细化的数据冷热分层治理来控制成本。腾讯云通过提供 SSD 高性能桶、HDD 标准存储、低频存储、归档存储,以及在国内首家推出磁带存储,实现了数据的智能流动。用户的极热数据在 SSD,逐步降到 HDD,半年或一年没访问的数据降到磁带。一旦冷数据在某段时间被重新激活,又可无缝从磁带读取出来。这种极致的分层流转和数据治理,能帮具身智能客户将整体存储成本降到最低。
蒋玉骅则分享了灵生科技的双段式成本控制法:在需要大规模、多元化数据的预训练阶段,采用低成本、低精度的云端冷存储,通过 DataLoader 在临近训练时再流式下载到本地;而在需要人工密集标注的后训练(Alignment)阶段,虽然数据精度高、成本贵,但量级非常小(通常只需几十到上百条),从而在整体上兼顾了普惠成本与数据精度。对于市场上拿具身智能对比自动驾驶并唱衰的观点,蒋玉骅保持乐观:具身智能拥有大量人类示范和无本体数据,随着数据金字塔的膨胀,原生具身训练正在展现出 LLM 发展早期的类似爆发曲线。
针对近期科技巨头李飞飞提出的世界模型概念被滥用的行业热点,蒋玉骅也给出了独到见解。他指出,李飞飞所指的滥用主要针对游戏领域用户给出动作方向键指令后生成未来画面的传统定义。而灵生科技所训练的世界模型有着本质升级,主要分为两种:一种是 WAM(世界动作模型),输入位姿,直接输出智能体的决策、此时此刻的动作以及对未来视频的预测,负责机器人的泛化大脑决策;另一种是 AWM,输入当前的动作与状态,输出未来的图像,用于数据飞轮的打分与筛选。在真实的家庭或工业具身场景中,机器人是不可能收到精确的方向键动作指令的,它们接收的是自然语言。因此,不依赖已有权重、从随机初始化开始的原生具身训练,才是具身智能真正的未来。
谈及具身智能是否迎来爆发临界点时,蒋玉骅表示极有可能,但这将是一个细水长流、模型与训练方法不断涌现的长期持续增长过程,而非颠覆性爆发后归于沉寂。
AI 下半场的号角已经吹响。当自动驾驶已经积累了数个 PB 的数据,具身智能正在一个更复杂的动态三维世界中,以更快的数据进化速度向前狂奔。正如腾讯云陈峥所言,数据光存着只是死的资产,只有通过强大的 Infra 层进行多模态理解与高效检索,把数据真正用起来,数据的飞轮才能转化为商业落地的巨大价值。在这场关于算力、存储与记忆的博弈中,全栈式的技术服务商与前沿 AI 企业的深度绑定,正在为整个具身智能行业夯实最坚固的底座。
---------------------
不保证以上内容的准确性和真实性。市场有风险,投资交易需谨慎。所涉标的不做任何推荐,据此投资交易,风险自担。
科记汇,资深财经科技媒体人创办,财经科技报道先锋,年阅读观看量数亿。设有财经科技媒体人社群。研究重大财经动态、企业家精神、商业文明发展历程,报道大型企业、上市公司、创业公司关键发展节点。内容同步数十家网络平台。欢迎提供报道线索和采访机会。