江西做网站找谁网站支付接口怎么做

当前位置: 首页 > news >正文

江西做网站找谁,网站支付接口怎么做,网页美工软件,网站后台登陆图片作者#xff1a;Lik Hang Kenny Wong, Xueyang Kang, Kaixin Bai, Jianwei Zhang 单位#xff1a;香港城市大学计算机科学系#xff0c;澳大利亚墨尔本大学工程与信息技术学院#xff0c;德国慕尼黑工业大学#xff0c;比利时鲁汶大学电气工程#xff08;ESAT#xff0… 作者Lik Hang Kenny Wong, Xueyang Kang, Kaixin Bai, Jianwei Zhang 单位香港城市大学计算机科学系澳大利亚墨尔本大学工程与信息技术学院德国慕尼黑工业大学比利时鲁汶大学电气工程ESAT中心德国汉堡大学信息学系、德国Agile Robots公司 论文标题A Survey of Robotic Navigation and Manipulation with Physics Simulators in the Era of Embodied AI 论文链接https://arxiv.org/pdf/2505.01458
主要贡献 提供了具身智能Embodied AI中导航和操作任务的全面综述重点关注物理模拟器的作用。 分析了物理模拟器的特性探讨了它们如何通过精确的物理建模和逼真的渲染缩小模拟与现实之间的差距。 提供了基准数据集、评估指标、模拟平台和最新方法的资源帮助研究人员选择合适的工具。 深入分析了导航和操作任务的特点包括任务类型、模拟器、数据集、评估指标和方法。
研究背景 具身智能涉及机器人通过传感器和动作与物理环境互动。导航和操作是EAI的核心能力这些任务需要机器人感知、理解并与其环境互动。 学习方法的挑战基于学习的方法如强化学习和模仿学习在训练导航和操作代理方面显示出巨大潜力但收集真实世界数据成本高昂尤其是考虑到机器人设计或传感器的多样性。 模拟器的作用模拟器通过提供成本效益高且可扩展的解决方案使机器人能够在大型和多样化的数据集上高效训练从而解决了真实世界数据收集的难题。然而sim-to-real方法面临着模拟与现实环境之间的差距包括物理动态和视觉渲染的差异。
导航 模拟器 导航模拟器是训练机器人导航能力的关键工具它们通过模拟真实环境来减少在真实世界中训练的高成本和复杂性。 根据支持的环境类型导航模拟器可以分为三类室内模拟器、室外模拟器和通用模拟器。这 些模拟器在视觉和物理仿真方面各有特点以应对模拟到现实sim-to-real转移中的挑战。 室内模拟器 Matterport3D Simulator利用真实世界扫描数据提供高保真视觉效果但缺乏物理引擎仅支持离散的视点间导航。 Habitat-Sim基于Bullet物理引擎支持刚体动力学能够处理碰撞检测和机器人运动。它还集成了RGB-D传感器噪声模型以提高视觉仿真与真实世界的相似性。 AI2-THOR使用Unity3D的物理引擎支持逼真的碰撞检测和运动。它还采用了基于物理的渲染PBR技术通过材质和光照的随机化来增强视觉仿真与真实世界的一致性。 iGibson结合了PBR和双向反射分布函数BRDF模型能够模拟真实世界的光照效果并通过领域随机化技术进一步缩小视觉sim-to-real差距。
室外模拟器 CARLA专注于自动驾驶场景使用PhysX引擎提供逼真的物理仿真和光线追踪渲染支持车辆动力学和交通模拟。 AirSim为无人机导航提供支持集成了IMU和GPS等传感器模型以模拟真实世界条件。它使用定制的物理引擎优化了碰撞检测和运动效率。
通用模拟器 ThreeDWorld基于Unity3D支持刚体、软体和流体动力学。它使用PhysX引擎和高动态范围图像HDRI照明技术提供高保真视觉效果。 Isaac Sim由NVIDIA开发利用RTX技术进行光线追踪渲染提供精确的物理仿真。它支持强化学习和模仿学习适用于从仓库到户外的各种场景。
基准数据集 为了在模拟器中训练和评估导航代理研究人员开发了多种基准数据集。 这些数据集分为目标驱动导航数据集和任务驱动导航数据集涵盖了从简单的点到点导航到复杂的视觉-语言导航任务。 目标驱动导航数据集 iGibson提供100多个场景和27,000个物体描述支持RGB、深度和分割数据。 ION基于AI2-THOR提供600个场景专注于实例级目标导航。 HM3D包含1,000个场景提供高保真3D环境支持点目标导航。 HM3D-OVON扩展了HM3D支持开放词汇目标导航挑战代理导航到未见过的物体类别。 MultiON要求代理按顺序导航到多个目标测试其记忆和规划能力。 DivScene提供4,614个场景和81种场景类型支持多样化的室内导航任务。
任务驱动导航数据集 Room-to-Room (R2R)基于Matterport3D数据集要求代理根据自然语言指令进行导航。 VLN-CE在连续环境中进行视觉-语言导航提供4,475个轨迹。 VLN-CE-Isaac为四足机器人定制的视觉-语言导航数据集包含1,077个轨迹。 ALFRED包含120个场景、8,000个演示和25,000个指令要求代理完成基于步骤的家庭任务。 DialFRED扩展了ALFRED允许通过对话进行澄清。 TEACh包含120个场景和3,047个会话要求代理在执行任务时进行对话。 VNLA提供90个场景和94,798个训练任务要求代理在探索环境中回答问题。 REVERIE要求代理在真实室内环境中根据视觉引用表达进行导航。 A-EQA要求代理在探索环境中回答开放词汇问题。 Robo-VLN包含90个场景和3,177个轨迹支持视觉-语言导航任务。 LHPR-VLN包含216个场景和3,260个任务提供视觉-语言导航的基准。
评估指标 评估导航代理的性能需要根据任务类型选择合适的指标。 这些指标从简单的成功率到复杂的路径对齐度和指令遵循度都有涉及。
目标驱动导航任务 成功率Success Rate, SR衡量代理成功到达目标的比例。 路径长度加权成功率Success weighted by Path Length, SPL结合成功率和路径效率惩罚低效路径。 实例定位成功率Instance-Localization Success Rate, ILSR要求代理不仅接近目标物体还要正确识别目标物体。
任务驱动导航任务 路径覆盖加权长度分数Coverage weighted by Length Score, CLS评估预测路径与参考路径的空间覆盖和长度匹配度。 归一化动态时间规整Normalized Dynamic Time Warping, nDTW考虑空间对齐和动作序列生成与参考路径的相似度分数。 独立成功率Independent Success Rate, ISR独立评估复杂指令中每个子任务的完成情况。 EQA效率EQA Efficiency结合答案正确性和探索效率鼓励代理通过较短路径获取准确信息。 指令违反率Instruction Violation Rate, IVR评估代理遵守人类设定的安全规则的能力。
方法 导航方法可以根据代理如何构建记忆分为显式记忆和隐式记忆两大类。 显式记忆方法依赖于明确的数据结构来表示环境而隐式记忆方法则利用学习到的编码和预训练知识进行决策。
显式记忆 基于度量的地图方法 将环境离散化为网格、点云、体素或网格以构建地图用于路径规划等下游任务。 例如Fu等人使用占用网格地图计算到目标位置的最短路径。 基于图的方法 将环境的拓扑结构或对象之间的空间关系抽象为图其中关键观察到的地标如门道、交叉口作为节点可通行路径作为边。 例如Savinov等人提出的Semi-Parametric Topological MemorySPTM基于CNN编码当前和目标图像到节点特征并基于相似性分数规划路径。
隐式记忆 基于潜在表示的方法Latent Representation-Based Methods 将观察序列和动作编码为潜在向量直接用于推断导航动作。 例如Zhu等人开发的基于对话的导航系统使用跨模态注意力学习联合视觉-文本嵌入并通过LSTM处理这些嵌入以推断动作。 基于基础模型的方法Foundation Model-Based Methods 利用大型预训练模型如大型语言模型或视觉-语言模型来编码场景和语言指令利用其预训练知识进行导航决策。 例如NavGPT依赖于GPT-4的文本推理能力来解释当前场景并选择动作。 基于世界模型的方法World Model-Based Methods 学习预测未来环境状态如视频序列或潜在动态以指导导航。 例如Bar等人训练的Navigation World ModelNWM是一个视频扩散模型用于生成潜在的未来帧以评估导航路径。
操作 操作任务 操作任务在机器人学中具有重要意义其复杂性因任务类型和所需硬件而异。论文将操作任务按复杂性和所需自由度DoFs进行分类并详细讨论了以下几类关键任务 抓取 这是最基本的操作任务通常涉及将物体从一个位置移动到另一个位置。 抓取任务可以分为平面抓取3个自由度和全3D抓取6个自由度包括x、y、z位置和roll、pitch、yaw旋转。 全3D抓取需要机器人手臂具有更高的自由度以便有效协调抓取任意姿态的物体。 灵巧操作 使用多指手进行操作通常涉及三个或更多手指。这类任务需要精确的手指协调以处理复杂的接触动态例如扭转魔方或旋转笔。 这需要模拟器能够准确模拟多点接触、摩擦力和碰撞力。 柔顺物体操作 涉及处理柔软材料如布料或绳索。与刚体不同柔顺物体的形状会因外力而改变这使得任务状态空间变得高度动态和复杂。 例如打结或折叠衣物需要实时监测物体的几何变形并根据材料属性如弹性、摩擦力进行精确控制。 移动操作 涉及将操作臂安装在具有导航能力的移动平台上如轮式机器人、四足机器人或人形机器人。 这类任务要求机器人既能导航又能操作物体例如机器人需要导航到厨房打开抽屉并拿起杯子。 开放世界操作 处理未结构化和动态环境中的新物体如在杂乱环境中捡起未见过的物品。 这要求机器人能够从有限的训练数据中泛化并适应新的物体、材料或条件。 脆弱物体操作 处理易碎物品如鸡蛋或浆果需要精确的力控制和小心处理以避免损坏物体。 通常使用由橡胶、硅胶或碳纤维等材料制成的软体机器人夹持器并通过气动、液压或腱驱动系统控制手指运动以确保压力均匀分布。 双臂操作 使用双臂系统进行操作例如组装乐高积木这需要超出单臂能力范围的协调。
物理引擎和模拟器 为了有效训练操作代理模拟器必须能够模拟逼真的物理动态和视觉效果。论文详细讨论了经典物理引擎和可微分物理引擎并比较了它们在模拟物理动态和视觉保真度方面的能力。 经典物理引擎和模拟器 Gazebo与机器人操作系统ROS紧密集成支持多种物理引擎如DART、ODE、Bullet主要用于刚体动力学模拟。它使用OGRE进行视觉渲染缺乏光线追踪或逼真渲染能力。 PyBullet基于Bullet物理引擎专注于速度和效率提供GPU加速和连续碰撞检测。它使用OpenGL进行光栅化渲染无法进行光线追踪或深度噪声模拟限制了其缩小视觉sim-to-real差距的能力。 MuJoCo优先考虑接触动力学的精度适用于灵巧操作能够模拟多关节系统动力学和稳定的摩擦丰富交互。它使用OpenGL进行光栅化渲染缺乏硬件加速的实时光线追踪限制了视觉保真度。 Isaac Sim由NVIDIA开发利用PhysX引擎进行物理模拟并支持GPU加速的光栅化和实时光线追踪以创建具有精确光照和反射的逼真环境。 SAPIEN支持GPU加速光栅化和实时光线追踪提供逼真的视觉效果并支持深度噪声模拟以增强视觉保真度。 CoppeliaSim提供灵活性支持多种物理引擎如MuJoCo、Bullet、ODE、Newton、Vortex能够模拟刚体、软体和布料动力学。它缺乏GPU加速限制了效率。 可微分物理引擎和模拟器 Dojo通过将接触模拟表述为优化问题提供平滑的可微分梯度适用于操作目标的运动学优化。 DiffTaichi一种可微分编程语言通过将多个计算阶段合并为一个CUDA内核来最大化GPU利用率加速模拟。 Genesis基于DiffTaichi构建的开源模拟器完全优化用于可微分模拟支持基于梯度的神经网络控制器优化并实现比现有GPU加速模拟器快10到80倍的模拟速度同时不牺牲物理保真度。它还包括一个光线追踪系统用于逼真渲染和从自然语言生成多模态数据的生成引擎。 基准数据集 为了推动操作任务的发展研究人员开发了多种基准数据集这些数据集对于增强代理在多样化任务、环境和机器人平台上的泛化能力至关重要。论文将这些基准数据集根据它们支持的操作任务类型进行了分类并提供了以下详细信息 刚体操作基准 Meta-World提供50个不同的刚体操作环境用于训练代理掌握多种基本技能并在测试时泛化到新任务。 RLBench包含100个任务旨在训练代理掌握多种基本技能并在测试时泛化到新任务。 柔顺物体操作基准 SoftGym包含10个模拟环境如倒水、折叠布料、拉直绳子等专注于柔顺物体的操作。 Plasticinelab利用DiffTaichi系统进行可微分软体模拟专注于柔顺物体的操作。 GRIP一个综合基准包含1200个物体包括柔顺物体与软体和刚体夹持器的交互基于高保真的IPC模拟器提供详细的模拟数据。 移动操作基准 OVMM在AI Habitat模拟器中包含200个人工编写的交互式3D场景涉及7892个物体和150个类别专注于移动物体的任务。 Behavior-1k基于Omnigibson模拟器由Nvidia PhysX 5驱动包含多达1000个家庭活动需要集成导航和操作策略。 ManiSkill-Hab专注于家庭环境中的长期操作任务如“整理房屋”、“准备杂货”和“布置餐桌”。 BRMData提供10个家庭任务需要代理使用安装在移动平台上的双臂完成。 语言条件操作基准 CALVIN提供34个长期任务每个任务都配有特定的多步骤指令如“抓住抽屉把手并打开它”或“按下按钮关闭灯”。 RoboTwin利用大型语言模型LLM生成操作环境和任务物体从演示视频中重建。 RoboMind提供55000个真实演示轨迹涵盖279个任务和61个物体支持多种机器人体现形式。 DROID一个大规模数据集包含76000个真实演示轨迹相当于350小时的交互数据涵盖564个场景和86个任务。 多机器人体现集成数据集 Open X-Embodiment使用来自22种机器人类型的数据训练X机器人策略展示了527种技能跨越160266个任务是最大的开源真实机器人数据集。 视觉感知数据集 GraspNet-1 Billion旨在增强抓取和感知任务如6D姿态估计和分割。它包含97280张图像每张图像都标注了精确的6D物体姿态和抓取点涵盖88个物体提供超过11亿个抓取姿态。
方法 操作任务的成功执行依赖于准确的环境感知和有效的控制策略。研究主要集中在两个方向感知表示和策略学习。 感知表示 感知是机器人操作的基础所需3D空间细节的级别因任务复杂性而异。感知表示方法可以根据粒度分为以下几类 体素图表示将3D空间离散化为占用网格每个体素表示相应的坐标x, y, z是否被占用。例如VoxPoser和VoxAct-B将体素网格与视觉-语言模型VLM集成以支持操作任务。 基于对象的表示 6D姿态估计预测场景中物体的位置和方向。例如Pix2Pose使用像素级坐标回归从RGB图像中估计3D坐标而FoundationPose提供了一个统一框架用于6D姿态估计和物体跟踪。 抓取提议基于视觉输入生成抓取点。例如GraspSPlats通过显式高斯绘制提高抓取选择的效率和准确性。 等变表示 SO(3)等变表示确保当输入3D点云旋转时学习到的表示也会以相同的方式旋转。例如向量神经元网络VNNs通过扩展神经元到3D向量并应用线性变换来实现SO(3)等变性。 SE(3)等变表示包括旋转和平移变换使模型能够泛化到场景中不同位置和方向的物体。例如神经描述场NDFs产生从3D物体坐标到描述符的连续SE(3)映射。 SIM(3)等变表示进一步考虑尺度变换使模型能够操作不同大小的物体。例如EFEM引入了基于符号距离函数SDF编码器-解码器的SIM(3)等变形状先验学习。 视觉-触觉感知触觉传感器使机器人能够感知摩擦和表面纹理从而在视觉遮挡的情况下准确估计物体的姿势和形状。例如NeuralFeels和DIGIT 360将视觉和触觉集成到多指机器人手中增强空间感知能力。
策略学习 策略学习是操作任务的核心涉及基于当前状态和先前动作生成下一个动作的策略。策略学习方法主要分为以下几类 强化学习 无模型强化学习直接通过试错优化策略无需构建环境的显式模型。例如OpenAI使用近端策略优化PPO与LSTM基础策略网络进行灵巧操作通过与MuJoCo的大量交互来训练策略。 基于模型的强化学习构建状态模型用于规划和决策。例如Nagabandi等人提出了一种基于模型的RL方法使用神经网络近似状态转移分布作为模型预测控制MPC中的动态模型进行在线规划。 模仿学习 行为克隆通过模仿专家演示来训练策略。例如在MOMART框架中使用BC训练移动操作任务的策略。 动作分块与Transformer通过Transformer网络生成一系列动作并通过衰减参数对重叠动作块进行加权平均以确定最终动作。 从人类视频学习通过将人类姿势从视频中重新定位到机器人姿势来扩展演示数据集。 扩散策略利用去噪扩散概率模型DDPM通过逆转多步噪声过程来生成操作任务的动作数据。例如RDT-1B将扩散策略的输出动作空间推广到与不同机器人硬件平台兼容增强了知识的可转移性。 视觉-语言模型 利用VLMs进行移动操作例如EMMA将视觉观察转换为文本描述并使用LLM生成动作描述。 视觉-语言-行动模型 RT-1将动作标记化为与语言相同的格式并从指令和观察中输出一系列动作。 RT-2结合了PaLM-E从互联网规模数据中学习的高级语义理解和RT-1从小规模机器人演示中学习的低级控制使VLM能够直接从复杂指令生成低级动作。 RT-H引入了语言-运动层次结构学习两个基于VLM的策略用于语言查询和动作查询。 OpenVLART-X的开源版本用于通用机器人控制。
结论与未来工作 结论 物理模拟器在具身智能中发挥着关键作用通过精确的物理建模和逼真的渲染缩小了模拟与现实之间的差距。 导航和操作任务取得了显著进展特别是在数据驱动方法的推动下。 从2020年到2022年大规模数据集的引入使得通过模仿学习实现更好的模型泛化成为可能。 从2022年开始基础模型、世界模型和视觉-语言-行动VLA模型的兴起标志着另一个飞跃。 未来工作 提高学习效率开发能够快速适应新任务的算法和系统创新减少每个任务所需的数据量。 持续学习使具身代理能够适应动态环境同时保留先验知识特别是在视觉-语言导航VLN中。 神经常微分方程建模具身AI任务中的连续动态如液体倾倒。 评估指标改进开发更全面的评估指标如能量效率和轨迹平滑度以更全面地评估具身AI性能。