Code as Policies:面向体现控制的语言模型程序

Code as Policies,通过LLMs实现机器人行为策略的自动生成,提升机器人执行任务的准确性和效率。
clickgpt_line.png_noView
介绍

"Code as Policies" 项目展示了如何将训练有素的大语言模型(LLMs)应用于编写机器人策略代码。这些模型能够根据自然语言命令,生成具体的控制策略代码,从而直接驱动机器人行动。

github_ai_big_model_code_policies_1

关键特性:

  1. 功能表达与反馈循环:策略代码可表达处理感知输出(如对象探测器)的函数或反馈循环,并参数化控制原语API。
  2. 代码生成与应用:通过给定示例语言命令和相应的策略代码,LLMs能够接受新命令并自动重组API调用以生成新的策略代码。
  3. 空间几何推理与泛化能力:使用经典逻辑结构和引用第三方库(如NumPy、Shapely)进行算术运算,使模型不仅展示出空间几何推理能力,还能根据上下文泛化新指令并给出精确的参数值。

研究成果和应用:

  • 反应式策略与路径基策略:研究介绍了语言模型生成程序(LMPs)如何表示反应式策略(例如阻抗控制器)和基于路径的策略(如基于视觉的拾取和放置,轨迹控制),并在多个真实机器人平台上进行了演示。
  • 分层代码生成:通过递归定义未定义函数的方式,可以编写更复杂的代码,同时提高解决 HumanEval 基准测试中39.8%问题的能力。

实验视频和生成的代码:

提供了实验视频和生成的代码示例,展示了语音和基于语音的机器人界面如何交互。代码的自动生成和逻辑展示了机器人如何理解和执行具体任务。

github_ai_big_model_code_policies_2

桌面操作:积木与碗
  • 选择命令:用户可以从视频中选择特定命令,模型将自动生成相应的策略代码来执行任务。
  • 代码示例:展示了如何将红色积木放到最右边的碗的左侧,并动态生成了用于定位和移动积木的代码。
付费
AI爆文训练营
图文变现友好赛道,低门槛、高上限,教你从0到1做个赚钱的公众号!
立即查看
躺着赚钱
¥149/年
何老师陪你做副业
这里聚焦AI副业、个人IP、自媒体运营、写作、赚钱案例。不哔哔,只分享有价值的副业项目。
立即查看
AI赚钱案例
限免
DeepSeek进阶教程
带你全面掌握DeepSeek应用技巧。提升工作、学习效率
立即查看
100万人学过
免费
Monica AI
Monica AI满血复活DeepSeek【免费】,提升您的聊天、搜索、写作和编程体验。
立即查看
一站式 AI 助手
云服务
腾讯云
综合性的云计算服务平台,现已接入DeepSeek,提供多样化的云解决方案
立即查看
高效可靠
云服务
阿里云
全球领先的云计算与数据服务平台,提供云服务器、存储、数据库、安全等多种服务
立即查看
多样化
编程学习
免费领取编程学习资料