网站怎样绕过360认证做自己网站做站长
- 作者: 五速梦信息网
- 时间: 2026年03月21日 07:19
当前位置: 首页 > news >正文
网站怎样绕过360认证,做自己网站做站长,电影网站做静态是不是好一些,网线制作规范论文链接#xff1a;https://arxiv.org/pdf/2312.14150 代码链接#xff1a;https://github.com/OpenDriveLab/DriveLM 解决了什么问题#xff1f; 当前#xff0c;自动驾驶方案的性能仍然不足。一个必要条件就是泛化能力#xff0c;需要模型能处理未经训练的场景或不熟…论文链接https://arxiv.org/pdf/2312.14150 代码链接https://github.com/OpenDriveLab/DriveLM 解决了什么问题 当前自动驾驶方案的性能仍然不足。一个必要条件就是泛化能力需要模型能处理未经训练的场景或不熟悉的传感器配置。其次时这些模型要能和人类用户做交互例如欧盟法规要求部署模型具有可解释性。此外人类司机驾驶并不是基于几何结构准确的 BEV 表示这和今天的自动驾驶模型不同。人类司机会隐式地进行目标感知、预测和规划称作 P 1 − 3 P{1-3} P1−3粗略地识别和定位到关键目标然后是推理它们可能的运动再将这些信息聚合为驾驶动作。 同时视觉语言模型最近取得了显著成效它们具有多项优势。首先VLMs 基于大规模互联网数据训练具有理解世界的基本能力可能提升自动驾驶规划的泛化能力。事实上VLMs 的泛化能力已经在简单的机器人任务上得到了验证。其次将语言表示作为输入和输出模型能更好地和人类用户做交互这与当前方案所使用的轨迹或者边框不同。最后VLMs 能够凭借逻辑推理以多步骤的方式做决策。尽管VLMs 以多个步骤做推理但它是端到端可微的架构这是目前自动驾驶所希望得到的。 最近的一些工作尝试将 VLMs 应用到自动驾驶主要分为两类场景级 VQA、单个目标级的 VQA。场景级的 VQA 是通过一个或两个支持理由来描述驾驶行为比如 “车辆在向右变道因为这样做是安全的。” 单个目标级的 VQA 通过一系列形式为“什么-哪个-哪里-如何-为什么”的问答构建自车对单个目标响应的理解。例如“自车停下来是因为有一个穿白色衬衫的行人正在自车前方的十字路口过马路而自车不想撞到行人”。这两种范式都没有提供合适的代理任务来模仿人类 P 1 − 3 P{1-3} P1−3 的推理过程人类在推理时会考虑多个目标并针对每个目标做多步骤的推理。因此如下图所示作者提出了一个新的任务以及相应的数据集和基线模型架构以更好地模拟人类的推理过程。这个新任务旨在通过考虑多个对象和多步骤推理来更全面地理解和模拟自动驾驶中的决策过程。 任务GVQA 图视觉问答任务以有向图的形式将 P 1 − 3 P_{1-3} P1−3 推理表示为一系列的问答对。它和之前提到的 VQA 任务的关键差异就是它能利用问答对之间的逻辑关系来指导回答的过程。GVQA 也包括动作和运动规划的问题并有相关的评价指标。 数据集 DriveLM-nuScenes 和 DriveLM-CARLA 包括标注好的问答对以图的形式组织通过逻辑推理将图像和驾驶行为联系起来。与当前的基准相比它们在每一帧都提供了更丰富的文本标注如下图所示。此外作为DriveLM-CARLA的一个组成部分作者构建了PDM-Lite这是第一个用于CARLA Leaderboard 2.0的基于规则的专家算法。作者将这些训练数据和具有挑战性的测试数据配对用于评测模型在零样本泛化方面的表现。 基线 DriveLM-Agent 使用了一个轨迹分词器可以用于任意一个通用的 VLM它与图提示机制耦合该机制对逻辑关系建模该机制通过将逻辑依赖关系建模为上下文输入来为视觉语言模型提供信息。这意味着模型不仅考虑单个对象还考虑对象之间的关系和交互。结合轨迹分词器和图提示机制DriveLM-Agent提出了一种简单的方法论使得通用的视觉语言模型能够有效地被改造用于端到端的自动驾驶系统。 提出了什么方法 本文研究了如何将互联网数据集上训练的视觉语言模型结合到端到端自动驾驶系统去使用提升泛化能力并能和人类用户做交互。尽管最近的一些方法通过单轮的视觉问答将 VLMs 应用到驾驶场景但人类司机会在做决策时经历多个步骤。人类司机首先会定位关键物体然后估计物体之间的交互最后采取行动。作者提出了一个名为 Graph VQA 的任务通过感知、预测和规划问答对来模拟图结构的推理从而获得一个适合模仿人类推理过程的代理任务。本文基于 nuScenes 和 CARLA 数据集构建了 DriveLM-Data 数据集提出了一个基于 VLM 的基线方法 DriveLM-Agent用于同时执行 Graph VQA 和端到端驾驶。实验表明Graph VQA 提供了一个用于推理驾驶场景的简单的框架DriveLM-Data 为这项任务提供了一个具有挑战性的基准。DriveLM-Agent 在端到端自动驾驶方面的表现能和最先进的驾驶方案相媲美特别时在未经训练的传感器配置上进行零样本评测时其优势尤为明显。 实验结果显示DriveLM上的GVQA任务具有挑战性当前的方法只能获得中等分数。这表明要实现强大的问答性能可能需要更好地建模逻辑依赖关系。尽管DriveLM-Agent的架构不是针对特定任务开发的但在开放循环规划设置下测试时其性能与最先进的驾驶特定模型相媲美。使用图结构可以改善零样本泛化能力使得DriveLM-Agent在仅在nuScenes数据上训练后能够正确处理Waymo数据上的未见部署。这意味着模型能够在没有见过的新数据上进行有效的推理。最后通过逐个问题分析作者发现预测和规划阶段的问答对最终驾驶决策帮助最大。从这些结果出发作者认为改进GVQA任务对于构建具有强大泛化能力的自动驾驶代理具有很大的潜力。 DriveLM: 任务、数据、评价指标 人类司机通常将决策过程拆分为不同的步骤这些步骤是逻辑递进的包括关键物体的识别和定位它们未来可能的动作和影响以及基于这些信息自车的规划轨迹。这就促使作者提出了 DriveLM 的核心组成GVQA该代理任务适合于模拟人类推理的过程。 DriveLM-Task: GVQA 作者以图的形式组织每张图像的全部问答对。作者使用“图-结构”来表示有向无环图比如当前问题能从多个父和祖父节点获得上下文信息。图 G ( V , E ) G(V,E) G(V,E) 包括一组顶点 V V V每个顶点表示一个问答对 v ( q , a ) v(q,a) v(q,a)关联着这个场景中的一个或多个关键目标。GVQA 和 VQA 的核心差异就是 GVQA 的问答对有逻辑依赖关系这些关系用顶点之间的边表示。 E ⊆ V × V E\subseteq V\times V E⊆V×V 是一组有向的边每条边 e ( v p , v c ) e(v_p, v_c) e(vp,vc) 连接父节点 QA 和子节点 QA。用两个维度目标级和任务级的边来表示边的集合。在目标级作者构建了逻辑边 e ∈ E e\in E e∈E 来表示不同物体之间的影响。例如一辆轿车的规划 QA 节点受到行人的感知 QA 节点影响如图1 中。在任务级作者构建了逻辑边 e ∈ E e\in E e∈E 来获取不同推理步骤的逻辑链 感知 P 1 P_1 P1当前场景中关键目标的识别、描述和定位。预测 P 2 P_2 P2基于感知结果预测关键目标的可能动作和影响。规划 P 3 P3 P3自车的可能的安全动作。动作 B B B驾驶决策的分类。运动 M M M自车未来轨迹的路径点。 感知、预测和规划 P 1 − 3 P{1-3} P1−3 与端到端自动驾驶方案的概念类似根据自车未来的轨迹点做出运动和动作。不同之处是作者将自车的轨迹点定义为运动 M M M它包括 N N N 个 BEV 视角下坐标为 ( x , y ) (x, y) (x,y) 的点记作 M { ( x 0 , y 0 ) , ( x 1 , y 1 ) , … , ( x N , y N ) } M{(x_0, y_0), (x_1, y_1),…, (x_N, yN)} M{(x0,y0),(x1,y1),…,(xN,yN)}。每个点是当前位置和未来固定时间间隔位置的偏移量。那么每个时间间隔的距离就可计算做 { x , y } d i s t { ( δ x , 1 , δ y , 1 ) , … , ( δ x , N , δ y , N ) } {x,y}{dist} {(\delta{x,1}, \delta{y,1}),…,(\delta{x,N}, \delta{y,N})} {x,y}dist{(δx,1,δy,1),…,(δx,N,δy,N)} 其中 δ x , i x i − x i − 1 \delta_{x,i}xi - x{i-1} δx,ixi−xi−1 δ y , i y i − y i − 1 , i 1 , … , N \delta_{y,i}yi - y{i-1}, i1,…,N δy,iyi−yi−1,i1,…,N。从 P 1 − 3 P{1-3} P1−3 到 M M M动作表示会作为一个接口使用。为了获得动作表示作者将 x d i s t x{dist} xdist 和 y d i s t y{dist} ydist 的均值映射到一个预先定义好的 bins 里面每个 bin 都对应一个类别速度或转向分别记作 B s p B{sp} Bsp 和 B s t B{st} Bst。本文中作者设置了五个 bins B s p ∈ { fast 2 , fast 1 , moderate , slow 1 , slow 2 } B{sp}\in {\text{fast}_2, \text{fast}_1, \text{moderate}, \text{slow}_1, \text{slow}2} Bsp∈{fast2,fast1,moderate,slow1,slow2} B s t ∈ { left 2 , left 1 , straight , right 1 , right 2 } B{st}\in {\text{left}_2, \text{left}_1, \text{straight}, \text{right}_1, \text{right}2} Bst∈{left2,left1,straight,right1,right2} 下标的数字表示幅度。将一条轨迹的速度和转向类别组合起来就得到了它的动作类别 B ( B s p , B s t ) B(B{sp}, B{st}) B(Bsp,Bst)。这里作者只使用了简单的动作表示定义来研究 VLMs作者也认为可以融入更加抽象的动作类别如车道变化和超车。 DriveLM-Data 为了提供全面而准确的 QA并带有图结构作者提出了 DriveLM-nuScenes 和 DriveLM-CARLA。nuScenes 和 CARLA 有着巨大差异数据采集方式和分布也不同。 DriveLM-nuScenes 作者将标注过程分为三个步骤选择视频关键帧选择关键帧里的关键目标对这些关键目标标注帧级的 P 1 − 3 P{1-3} P1−3 QAs。一部分的感知 QA 来自于 nuScenes 和 OpenLane-V2 数据集其余的 QAs 则是人工标注的。人工标注的问题模板是由五个专家设计的考虑了人类司机如何做驾驶决策的。对于每一帧都会用全部的问题来提示标注员请他们回答所有的问题。由于DriveLM-nuScenes的大部分数据是手动标注的因此这部分数据的质量尤为重要。在标注过程中进行了多轮严格的质量检查。在每一轮中数据被分批处理每批数据的10%会被检查。如果这10%的手动标注数据的合格率不符合预期会要求标注者重新标注整批数据。图2 展示了问答标注流程的一个例子其中所有问题都按照标准进行了质量检查。因此DriveLM-nuScenes在规模、全面性和复杂性方面都超越了之前提出的数据集见表1。这些问答涵盖了驾驶过程的各个方面从感知和预测到规划提供了对自动驾驶场景的全面理解。 DriveLM-CARLA Expert 作者使用 CARLA 0.9.14版本在Leaderboard 2.0框架中收集数据。Leaderboard 2.0相比其前身Leaderboard 1.0包含了大量新的驾驶场景。目前还没有现有方法能够在Leaderboard 2.0中大规模收集训练数据。例如TransFuser一个在Leaderboard 1.0中表现出色的方法使用的特权规则专家在Leaderboard 2.0官方8公里以上的验证路线上只能获得2%的驾驶分数DS。为了应对Leaderboard 2.0中的新挑战开发了一个新的专家算法PDM-Lite。PDM-Lite的方法与PDM-Closed类似PDM-Closed是一个为nuPlan设计的规则基规划器。PDM-Lite使用智能驾驶模型IDM来根据前车、行人、停车标志或交通灯获得目标速度。与PDM-Closed通过复杂成本函数从16个候选轨迹中选择一个不同PDM-Lite只使用两个候选轨迹和一个基于TransFuser专家的更简单成本函数从而得到一个适合于大规模QA生成的轻量级规划器。 DriveLM-CARLA QA 生成 为了采集 DriveLM-CARLA 数据集作者在城市、住宅和农村区域设置了一系列路线并在这些路线上执行PDM-Lite算法。在执行PDM-Lite的过程中收集必要的传感器数据。根据专家决策的变化例如当专家从加速变为制动时来采样关键帧。基于关于对象和场景的特权信息生成相关的问答并组织这些问答之间的逻辑关系将它们连接成一个图。以每秒4帧FPS的速率生成数据和标签并提取关键帧。从模拟器中提取静态和动态对象的状态信息以及专家触发的规则信息。除了某些特定场景外使用所有38个场景来创建问题和答案这些问题和答案是基于从模拟器中提取的信息手工制作的。注释过程具有直接的可扩展性优势因为只需要在CARLA中定义路线和场景设置后续步骤可以自动执行。DriveLM-CARLA 包括160万个问答QAs是现有基准测试中文本内容最多的驾驶语言基准。 DriveLM-Metrics 为了评测 GVQADriveLM-Metrics 包括三个组成部分来评测运动 M M M、动作 B B B 和 P 1 − 3 P{1-3} P1−3。为了评价运动阶段作者使用标准的运动评估指标包括平均位移误差ADE和最终位移误差FDE以及在预测轨迹上的碰撞率。这些指标来自nuScenes和Waymo基准测试遵循UniAD的方法。 通过分类准确率来评估行为预测同时将整体准确率分解为转向和速度两个组成部分。 使用两个指标来衡量 P 1 − 3 P{1-3} P1−3阶段的性能。 - SPICE是一个在VQA和图像描述中广泛使用的指标它计算预测文本与真实文本的结构相似性同时忽略语义含义。 - 使用GPT Score来衡量答案的语义对齐度以补充SPICE指标。具体来说将问题、真实答案、预测答案以及请求对答案进行数值评分的提示发送给ChatGPT-3.5。然后解析返回的文本以获得分数分数越高表示语义准确性越好。 DriveLM-Agent: A GVQA Baseline 针对上面介绍的 GVQA 任务DriveLM-Agent 是本文提出的一个基线方法。DriveLM-Agent 是一个通用的视觉语言模型能够挖掘预训练时获得的潜在知识。整体目标是通过 VQA 的不同阶段 ( P 1 , P 2 , P 3 , B ) (P_1, P_2, P3, B) (P1,P2,P3,B)将图像表示为自车的运动 M M M。作者选取了 BLIP-2 作为 VLM 模型因为它的架构简洁微调起来比较灵活。 如下图所示DriveLM-Agent 可以分为多个步骤 P 1 − 3 P{1-3} P1−3 如感知、预测和规划作为基础层来理解场景并推理出其结构。动作步骤聚合 P 1 − 3 P_{1-3} P1−3 的关键信息得到语言空间的驾驶动作描述。运动步骤将动作翻译为可执行的驾驶轨迹。 为了得到每个 QA 之间的逻辑依赖关系作者认为可以使用 GVQA 图中连接节点之间的上下文。 Prompting with Context 直接将图像翻译成运动是非常有难度的。受到人类司机的习惯启发作者提出使用多步骤推理的过程来实现基于 VLM 的驾驶方案。作者从 LLM 中提取知识提升可解释性。 更具体地说模型将上一步骤的回答作为当前问题的上下文信息使用。对于每条边 e ( v p , v c ) ∈ E e(v_p, v_c)\in E e(vp,vc)∈E我们将父节点 v p v_p vp 的 QA 添加到当前节点 v c vc vc 的问题后面并带有一个前缀 Context: 。上下文也可能包含多个前序节点的 QAs我们将所有的 QAs 都拼接到一个上下文序列中。注意上下文只是表述 GVQA 逻辑依赖的一个可能的方法作者这么做只是因为它实现起来简洁。然后我们基于图中的逻辑关系传递相关的信息。 注意在推理时图的大小和结构是一个算法的设计项可以根据算力和任务来调整。作者用全部的 QAs 来训练但推理时只对部分子图做推理通过启发式的方法选择问题。 Context Aggregation through Behavior 驾驶涉及多种潜在的情况这些情况需要适当的响应。尽管这些情况多种多样但几乎所有事件都涉及可以离散化为一组行为的决策。例如刹车可以应对多种情况如红灯、停车标志、车辆前方出现障碍物。行为阶段的重点时生成这样的一个行为描述用自然语言表述车辆的预期运动。这种行为描述有效地作为一个思考步骤在这一步模型从图中总结所有的重要信息。所以作者提出使用所有可能的上下文信息来预测行为即 P 1 − 3 P{1-3} P1−3 的所有 QAs。通过实验观察作者发现这种设计对于使用 VLMs 进行驾驶至关重要。 Trajectory Tokenization for Motion 由于使用 VLMs 输出精细的数值结果并非易事RT-2 基于一个专门的轨迹分词模块来处理机器人动作。作者使用这种方法使 DriveLM-Agent 能够接受图像和行为描述作为输入并输出轨迹。具体来说作者将路径点的坐标划分为 256 个 bins这是基于训练轨迹的统计数据经验性地划分的。作者重新定义了 BLIP-2 语言分词器里的 tokens为每个 bin 都构建 tokens并重新微调了 VLM。为了简化作者使用相同的 VLM 架构来进行这项任务但使用了独立的 LoRA 圈中并仅在包含此运动阶段问答的数据集上进行训练。因此可以使用轻量级的LLM大型语言模型或接受命令作为输入的特定驾驶架构来执行此功能。 DriveLM-nuScenes 数据集构成 DriveLM-nuScenes 训练集包括 4072 帧验证集包括 799 帧数据集由场景级描述和帧级问答QA组成这些内容伴随着 nuScenes 数据集中的多视图图像中的2D边界框。场景级描述概述了整个视频 clip 中自车ego vehicle的行为。帧级 QA 包括了三个不同的类别感知、预测和规划。 感知阶段涉及对整个帧进行彻底检查的查询。这意味着需要对帧中的所有视觉信息进行分析以便理解场景中发生了什么。在这组问题中除了一些是手动标注的之外还设计了一些提示prompts用于生成关于场景中对象观察方面的自动问题利用了 nuScenes 和 OpenLane-V2 数据集中的 ground-truth 信息。预测包括一系列的关于当前帧中关键对象和自车ego vehicle未来状态的预测以及预测背后的推理过程的查询。这些预测是复杂的并且具有挑战性因为它们需要对场景中的对象和车辆的未来行为进行准确的预测。由于预测的复杂性作者选择手动标注答案。规划包含了一些关于当前帧的自车随后规划动作的问题因为规划和预测一样具有挑战性作者为推理过程设计了提示词人工标注了这些问题的答案。 对于 QA 中的关键目标作者将它们编码为 c , C A M , x , y c, CAM, x, y c,CAM,x,y 中的 c c c 标签 c c c 是目标的标识符 C A M CAM CAM 是目标中心点所在的相机视图 x , y x, y x,y 分别表示 2D 边框在相应相机坐标系的水平和垂直坐标。在每个关键帧中还提供了一个字典记录了关于关键对象的更多基本信息如边界框的大小、类别、运动状态和视觉描述整体数据结构如上图所示。 采集方法 在标注过程中作者雇佣了具有驾驶经验的人来标注数据。提供给标注人员的源数据是nuScenes的六个摄像头拼接后的结果。如下图左所示作者将标注过程分为三个步骤选取视频中的关键帧、选择关键帧中的关键目标、在关键帧中对帧级QA进行标注。在标注完成后进行多轮质量检查以确保数据的可靠性。如下图右所示对通过质量检查的数据执行后处理程序。 关键帧选取 在这一步作者要求标注人员检查整个视频 clip定位出富含场景信息的关键帧和可能表明未来状态发生变化的帧。同时标注人员会贯穿整个视频 clip 标注自车的动作。这些信息提供了基本的场景级描述。 关键目标选取 在这个标注步骤指导标注人员识别关键帧中与自车驾驶相关的对象这些对象被称作关键对象。为了确保标注的准确性提供了基于nuScenes数据集中 ground truth 类别的预标注边界框。标注人员也可以指定那些没有出现在 ground-truth 中的物体作为关键目标如果它们确实非常重要。 QA Labeling 在问答QA标注过程中有两种问题类型事实性问题和开放式问题。对于事实性问题这些问题通常是有明确答案的可以使用基于规则的方法自动生成答案。对于开放式问题这些问题的答案不是固定的需要标注人员根据每个具体场景手动标注。对于大多数需要手动标注的问题提供了选项供标注人员选择。这有助于标准化答案并减少标注的主观性。为了确保标注过程的灵活性对于那些有预设选项的问题还包括了一个“其他 - 填空”选项。这样标注人员可以在预设选项无法覆盖所有可能答案时提供额外的信息。此外还允许标注人员提出自己的问题即自由形式问题。这种方式鼓励标注人员根据自己的理解和对当前帧的观察生成他们认为重要的问题。 质量检查 数据的质量被放在首位为了确保数据质量建立了清晰的标注标准并在每个标注步骤中实施自动化检查策略。除了自动化检查外还进行了严格的手动质量检查以确保数据的准确性。最终的数据被组织成 batches每个 batch 包括8个视频 clips、这些clips的场景级描述、从这些clips中选择的关键帧以及关键对象还有每个关键帧对应的问答对。为质量检查人员提供了明确的标准指导他们根据这些标准评估数据的合格性。对于手动标注的数据如果某个批次的准确性未达到预期会收集遇到的问题反馈并要求标注人员重新标注整个批次。对于从 ground-truth 信息自动生成的数据质量检查人员被指示手动调整不一致或不合理的问答对。 后处理 由于标注人员是说中文的所以他们最初标注的数据是中文的。为了将这些中文标注数据用于可能需要英文数据的项目或系统需要将数据从中文翻译成英文。首先通过建立一个词汇表来创建中文和英文之间的映射关系。这个词汇表可能包含了常见的术语和短语以及它们在两种语言之间的对应关系。对于那些没有在词汇表中找到对应英文映射的中文文本使用GPT-3.5一个先进的自然语言处理模型来进行翻译。在GPT-3.5自动翻译之后进行手动检查和校正以确保翻译的准确性和质量如下表所示。 Statistics and Facts 在这一部分作者对DriveLM-nuScenes数据集中的QA类别进行了分布分析。分析是在两个层面进行的任务级别和对象级别。对于任务级别的每个分类标准作者提供了所有QA的模板。这些模板是用于生成或标注问答的标准化问题和答案。分析结果显示了QA类别的丰富性意味着数据集覆盖了自动驾驶的多个方面包括不同的驾驶场景和决策过程。此外分析还表明数据集中的逻辑关系足够丰富可以构建一个图结构化的QA。 任务级 DriveLM-nuScenes创建了一个基准测试该测试囊括了自动驾驶的各个方面涵盖了从感知、预测到规划等多个阶段的人类驾驶逻辑。为了更深入地了解这一点作者在下图中展示了任务级别上详细的问答QA类型分布。为了更好地理解这些QA类型作者还在下表中提供了所有 P3 阶段的QA模板示例。 目标级 作者也对目标级做了统计因为 DriveLM-nuScenes 中的 QA 都是围绕着关键目标进行的。下图左展示了关键目标的类别分布。考虑到交通元素和其它类别之间的显著差异作者对交通元素和其它类别区分开来对它们的 QA 类型做了统计如下图右。
- 上一篇: 网站怎么做子分类域名弄好了网站怎么建设
- 下一篇: 网站怎样优化seo营销型网站公司名称
相关文章
-
网站怎么做子分类域名弄好了网站怎么建设
网站怎么做子分类域名弄好了网站怎么建设
- 技术栈
- 2026年03月21日
-
网站怎么做站内美化北京网站建设+知乎
网站怎么做站内美化北京网站建设+知乎
- 技术栈
- 2026年03月21日
-
网站怎么做英文版的泰安网络公司哪里找
网站怎么做英文版的泰安网络公司哪里找
- 技术栈
- 2026年03月21日
-
网站怎样优化seo营销型网站公司名称
网站怎样优化seo营销型网站公司名称
- 技术栈
- 2026年03月21日
-
网站怎样制作吸引人关于文案的网站
网站怎样制作吸引人关于文案的网站
- 技术栈
- 2026年03月21日
-
网站怎样做seo百度博客网站模板
网站怎样做seo百度博客网站模板
- 技术栈
- 2026年03月21日
