发布时间:2025-09-30 15:27:38 来源:北京新闻网 作者:科技
9月23日,智元机器人正式宣布开源其通用具身基座大模型GO-1(Genie Operator-1),该模型鉴于Vision-Language-Latent-Action(ViLLA)架构打造,变成全球首个采用这一先进架构并免费向研发者开放的具身智能模型。此举有望大幅减少产业技术门槛,促进具身智能技术的普及与进展。
GO-1所采用的ViLLA架构在常规Vision-Language-Action(VLA)基本上引入隐式动作标记,有效弥合了图像-文本输入与机器人动作实施之间的语义差距。该架构包含三层协同机制:VLM多模态领会层鉴于InternVL-2B构建,支撑多视角视觉、力觉和语言消息的融合领会;Latent Planner经过预测隐式动作标记达成对复杂任务的高层规划;Action Expert则依托扩散模型生成高频率、高精度的持久动作序列,保证机器人实施的细腻控制。
为支撑研发者高效应用GO-1,智元机器人同步推出Genie Studio一站式研发系统,给予从数字采集、治理、训练与微调,到仿真评测和真机部署的全流程工具链。该系统集成Video Training方案和统一训练框架,支撑一键编译与部署,显著提升研发效率。
尽管GO-1鉴于AgiBot G1机器人数字开展预训练,但其在松灵机器人、方舟机器人、Franka机械臂等多种异构本体上均经过验证,体现出优秀的跨系统适应性。在Genie Sim和Libero等仿真环境中,GO-1也展现出领先的性能。经过集成通用LeRobot数字格式,该模型可支撑更多类型机器人的数字采集、微调与部署。
目前,GO-1模型代码与相干资产已在GitHub和Huggingface系统发布,研发者可免费获取并应用该模型,开启具身智能的应用探索与革新实践。
随便看看