刚刚,稚晖君又一重磅技术发布!
扫描二维码
随时随地手机看文章
今天(3月10日),由稚晖君创立的智元机器人正式发布了首个通用具身基座模型——启元大模型(Genie Operator-1),并创新性地提出了Vision-Language-Latent-Action(ViLLA)架构。这一发布标志着具身智能技术向通用化、开放化、智能化方向迈出了重要一步,为机器人行业带来了革命性的突破。
两大创新:颠覆技术变革
据了解,启元大模型的核心在于其独特的ViLLA架构,该架构由多模态大模型(VLM)和混合专家系统(MoE)组成。其中,VLM通过海量互联网图文数据,赋予机器人通用场景感知和语言理解能力;MoE则通过隐式规划器(Latent Planner)和动作专家(Action Expert)模块,分别实现动作理解和精细动作执行。
而ViLLA架构的创新之处在于其能够利用人类视频和跨本体操作数据进行学习,显著提升了机器人的泛化能力。例如,在“倒水”、“清理桌面”、“补充饮料”等任务中,启元大模型的表现尤为突出,任务成功率比现有最优模型提高了32%。这种小样本快速泛化的能力,使得机器人能够快速适应新任务和新环境,降低了具身智能的研发门槛。
(图片来源:新浪微博)
应用场景:赋能千行百业
启元大模型的发布不仅是一次技术突破,更开启了具身智能在多个领域的应用潜力。例如,在家庭场景中,机器人可以通过学习人类视频,完成诸如挂衣服、插花、除尘等复杂任务;在商业场景中,机器人能够为会议递送饮料、为员工刷卡开门;在工业场景中,机器人可以高效执行生产线上的精细操作。
此外,启元大模型还具备“一脑多形”的特点,即通用机器人策略模型能够在不同机器人形态之间迁移,快速适配到不同本体。这种灵活性使得启元大模型不仅适用于智元机器人自身的产品线,还可以部署到其他企业和科研团队开发的机器人中,推动具身智能技术的普及和应用。
(智元机器人服务场景)
总之,启元大模型的发布不仅是一次技术突破,更是具身智能行业发展的里程碑。可以预见,随着2025年《政府工作报告》首次明确提及“具身智能”与“智能机器人”,这一领域迎来了政策与产业的双重利好。未来,具身智能将在服务业、工业制造、医疗等领域发挥越来越大的作用。