上海发布人形机器人通用"大脑" 首个大模型发布

2025年03月11日09:29 |

小字号

上海发布人形机器人通用“大脑”

■“机器人能够在不同场景中执行多种任务，而不需要针对每个新任务重新训练，也不再局限于预设程序，能够理解自然语言指令，并具备一定推理能力”

本报记者俞陶然查睿

如何让人形机器人拥有智慧“大脑”？昨天，上海智元新创技术有限公司发布了自主研发的第一代通用具身智能基座模型——智元启元大模型GO-1（Genie Operator-1）。这是全国首个通用具身基座大模型，已部署到智元研发的多款机器人本体中。

据介绍，GO-1首创ViLLA架构，让人形机器人可以利用人类视频学习各种技能，还能在极少数据甚至零样本下，使机器人适应不同场景和任务，从而降低具身智能研发门槛，让机器人持续进化。

十几年前，机器人就可以“擦桌子”“拉小提琴”，这似乎不是什么新鲜事。但这类机器人只是在完成预设程序，并不代表机器人具备自主完成任务的能力，或者说并不真正具备智能。如今，随着具身智能的不断演化，聪明的机器人已完成“从单一任务到多种任务”“从封闭环境到开放世界”“从预设程序到指令泛化”的三层进化。

“目前，机器人能够在不同场景中执行多种任务，而不需要针对每个新任务重新训练，也不再局限于预设程序，能够理解自然语言指令，并具备一定推理能力。”智元机器人研究院执行院长、具身业务部总裁姚卯青表示，一旦机器人“能听懂人话”，就可以在商业、工业、家庭等多领域发挥更大的作用。

去年底，智元联合上海人工智能实验室、国家地方共建人形机器人创新中心和上海库帕思科技公司，发布了基于全域真实场景的百万真机数据集开源项目“AgiBot世界”。这个数据集覆盖100多种真实场景，其中家居场景占40%，餐饮和工业场景各占20%，商超和办公场景各占10%。基于“AgiBot世界”数据集，智元开发了启元大模型，让人形机器人拥有可不断进化的“大脑”。

姚卯青介绍，为增强机器人“大脑”的泛化能力，智元提出了ViLLA这一创新性架构。启元大模型就是基于ViLLA架构开发，由多模态大模型和混合专家组成。其中，多模态大模型可利用互联网上的海量图文数据，让人形机器人获得通用场景感知和语言理解能力，从而能理解外部世界、周边环境以及用户发出的各种指令。

“通过ViLLA创新性架构，我们在5种不同复杂度的任务上测试了GO-1大模型。与已有最优模型对比，GO-1的成功率处于领先水平，将平均成功率提高了32%。”姚卯青介绍，在这些测试任务中，启元大模型在倒水、清理桌面、补充饮料这3个任务上的表现尤为突出。

作为通用具身基座大模型，GO-1不再被机器人的具体型号、适用场景束缚。姚卯青表示，GO-1大模型可以帮机器人完成全面的“基础教育”和“职业教育”，天然能适应新的场景，快速学习新的操作。

（来源：解放日报）

(责编：严远、轩召强)

分享让更多人看到

人民日报报系

旗下网站

上海发布人形机器人通用"大脑" 首个大模型发布

客户端下载

热门排行