15 天on MSN
在探索具身智能领域的道路上,如何将视觉语言基础模型(VLMs)应用于机器人以实现通用操作,一直是科研人员关注的焦点。这一目标的实现面临两大核心挑战:VLMs缺乏精确的3D理解能力,以及难以输出低层次的机器人动作。 传统的VLMs主要通过对比学习范式训练,以2D图像和文本作为输入,这限制了它们在3D空间中的理解和应用能力。同时,尽管将VLMs在机器人数据上进行微调以构建视觉-语言-动作(VLA)模型 ...
15 天
来自MSN提升机器人3D操作能力 北京大学与智元机器人联合实验室发布OmniManip【提升机器人3D操作能力 北京大学与智元机器人联合实验室发布OmniManip】《科创板日报》23日讯,北大携手智元机器⼈团队提出OmniManip架构,基于以对象为中心的3D交互基元,将VLM的高层次推理能力转化为机器人的低层次高精度动作。针对大模型幻觉问题和真实环境操作的不确定性OmniManip引入了VLM规划和机器人执行的双闭环系统设计,实现了操作性能突破。OmniManip作为⼀种免训练 ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果