CVPR2022 | Accuracy和F1-score能代表车道线检测网络性能吗? 原创
摘要
在2017年TuSimple车道检测挑战赛之后,其数据集和基于accuracy和F1分数的评估已经成为衡量车道检测方法性能的事实标准。虽然它们在提高车道检测方法的性能方面发挥了重要作用,但这种评估方法在下游任务中的有效性尚未得到充分研究。在本文中,我们设计了 2 个新的面向驾驶的车道检测指标:其中,端到端横向偏差指标(End-to-End Lateral Deviation metric )(E2E-LD)是根据自动驾驶的要求直接制定的,这是车道检测的核心下游任务;每帧模拟横向偏差度量(Per-frame Simulated Lateral Deviation metric) (PSLD) 是 E2E-LD 的轻量级替代。为了评估指标的有效性,我们在 TuSimple 数据集和我们新构建的数据集 Comma2k19-LD 上使用 4 种主要类型的车道检测方法进行了大规模实验研究。我们的结果表明,传统指标与 E2E-LD 具有很强的负相关性 (≤-0.55),这意味着最近一些纯粹针对传统指标的改进可能不会导致自动驾驶的有意义的改进,反而可能由于过度拟合传统指标使实际情况变得更糟。自动驾驶是一个安全至上系统,对鲁棒性的低估阻碍了实用车道检测模型的良性发展。我们希望本文研究能够帮助社区实现更多的车道检测下游任务感知评估。
欢迎关注国内首个以自动驾驶技术栈为主线的交流学习社区!
原文出处:微信公众号【自动驾驶之心】
介绍
基于 accuracy 和F1分数的评估已经成为衡量车道检测方法性能的事实标准。然而,这种评估方法在实际环境中的有效性,即这是否代表实际下游应用的实用性,尚未得到充分研究。具体来说,车道检测在现实世界中的主要应用是自动驾驶(AD),例如自动车道居中的在线检测,以及高精地图制作。以这样的应用领域作为其主要目标,车道检测的鲁棒性非常关键,因为它的错误可能是致命的。 不幸的是,我们发现传统的评估指标(即准确性和 F1 分数)在正确反映此类主要下游应用领域中车道检测模型的性能方面存在局限性,尤其是在更具挑战性的场景中(例如,在对抗性攻击下)。图1是一些显示本文研究动机的例子,在对抗性攻击设置中,SCNN 检测到的车道线在很大程度上被打乱了,但它们用传统精度指标衡量的性能总是高于 PolyLaneNet。在良性设置中,PolyLaneNet 的准确度最低且被低估,尽管它的检测结果在人眼看来看似完美。 由于车道线检测主要使用相对干净且均匀的驾驶员视野图像进行评估,因此在评估环节不容易显示出如此大的差异。考虑到稳健的车道线检测对正确和安全的AD的重要性,解决评估环节的这一缺陷非常重要。因为:
- 当今 AD 的现实世界部署和商业化的基石正是处理那些更具挑战性的驾驶场景
- 随着在 AD 语境下对车道检测的物理世界对抗性攻击(physical-world adversarial attack)的研究发现越来越多,在判断模型的鲁棒性(及其提高)时,希望有一个更下游的任务感知性能指标。
在这种需求的推动下,我们设计了 2 个新的面向驾驶的指标,端到端横向偏差指标(E2E-LD)和每帧模拟横向偏差指标(PSLD),以衡量 AD 中车道检测模型的性能 ,特别是在自动车道居中 (ALC) 中,这是一种 L2自动驾驶技术,使用比例-积分-微分 (PID)或模型预测控制 (MPC) 让车辆跟随车道中心 。E2E-LD是直接根据ALC对驾驶自动化的要求设计的。 PSLD 是 E2E-LD 的轻量级替代指标,用于估计车道检测结果对单帧驾驶的影响。 这种每帧轻量级设计允许在上游车道检测模型训练期间使用该指标。
数据集:TuSimple,新提出的 Comma2k19-LD
为了模拟图 1 中用于车道线检测的极端情况但物理上可实现的(corner-case but physically-realizable)场景,我们利用并扩展了对 ALC的物理世界对抗性攻击。我们制定了攻击目标函数,以公平地生成针对 4 种主要类型的车道检测方法的对抗性攻击。
在整个研究中,我们发现传统指标在良性场景中与 E2E-LD 具有强烈的负相关 (r ≤-0.55),这意味着最近一些纯粹针对传统指标的改进可能不会导致 AD 的有意义的改进,相反,过度拟合传统指标实际上可能使情况变得更糟。
我们新设计的 PSLD 指标始终与 E2E-LD 呈强正相关 (r ≥ 0.38),并且所有相关性都具有统计学意义 (p ≤ 0.001)。
相关工作
车道线检测的评价指标
传统车道线检测方法都用accuracy and F1分数当作评价指标。虽然准确率和 F1 分数可以在一定程度上衡量车道检测的能力,但这些指标并不能完全代表主要现实世界下游应用程序 AD 中的性能,稍后在 §4.2 中具体展示.
具体来说,如果反映其用于 AD的性能,或驾驶性能,accuracy和 F1 分数指标来反映其性能有两个主要限制:
- 没有理由设置 α = 20 像素和 β = 0.85 为精度阈值。例如,即使检测误差超过20个像素,只要检测到的车道线与实际车道线平行,ALC系统也可以保持在车道中心。
- 此外,检测到的车道线点的重要性不应该相等,即离车辆较近的点应该比距离较远的点更重要以控制车辆。当前指标平等对待驾驶员视野中的所有车道线,例如,当前车道左侧线的检测错误与左侧车道左侧线的检测错误被视为相同重要性。然而,前者对 ALC 系统来说比后者重要得多,因为前者可以直接影响车道中心的下游计算。例如,如果模型无法检测到左侧车道的左侧线,但仍然可以检测到当前车道的左侧线,则不会影响其用于 ALC。
对 ALC 的对抗性攻击
最近的一项研究表明,ALC 系统也容易受到物理世界的对抗性攻击。 他们的攻击被称为脏路补丁 (DRP) 攻击。 我们在评估中使用 DRP 攻击来模拟具有挑战性但可实现的场景。
方法
端到端横向偏差度量(End-to-End Lateral Deviation Metric)(E2E-LD)
ALC的性能通过车辆在车道中心行驶的准确程度来评估,即与车道中心的横向(左或右)偏差。 连续闭环感知和控制中车辆与车道中心的最大横向偏差是车道检测的最终下游任务性能指标。 这种偏离是直接影响安全的,因为大的横向偏离可能导致与其他驾驶车辆或路边物体的致命碰撞。 我们称之为端到端横向偏差度量(E2E-LD),如图 2(a)所示。$t = 0$ 时的 E2E-LD 如下获得。
$$
\mathop{max}\limits_{t \leq T_E}(|L_t-C_t|)
$$
$L_t$ 是车辆在 t 的横向(y 轴)坐标。$C_t$是对应于 t 处车辆位置的车道中心横向(y 轴)坐标。我们使用在$t=0$时的车辆坐标系。$T_E$ 是决定持续时间的超参数。如果$T_E=1s$ ,E2E-LD是一秒内的最大偏差。要获得$L_t$ ,需要一个闭环机制来模拟 ALC 的运行,例如 AD 模拟器 [3, 25]。从$t = 0$开始,$t = 1$时的车辆位置和航向基于$t = 0$时的图像帧(camera frames)($X_0$)计算:车道检测模型从图像帧中检测车道线,进行横向控制,操作方向盘。重复此过程,直到$ t = T_e$。 因此,需要多个(连续的)图像帧(camera frames)$X_0,…,X_{T_E}$,而且它们会随着较早帧中的车道检测结果的变化而动态更改。
这种 AD 模拟对于大规模评估来说计算成本太高。 因此,我们通过遵循先前的工作 [47] 来模拟车辆轨迹,该工作结合了车辆运动模型 [44] 和透视变换 [28、52],根据驾驶轨迹从现有帧(existing frames)动态合成相机帧(camera frames)。
每帧模拟横向偏差度量(Per-Frame Simulated Lateral Deviation Metric)(PSLD)
E2E-LD metric 定义为基于下游任务 ALC 要求的期望的 metric。 然而,在上游车道检测模型的训练过程中,它仍然需要大量的计算来监控。 这种开销主要是由于图像帧(camera frames)的相互依赖性,即图像帧会根据较早帧中的车道检测结果动态更改。 为了解决这个限制,我们设计了每帧模拟横向偏差指标 (PSLD),它仅使用当前帧 ($X_0$) 的单个图像输入和车道中心的几何形状来模拟 E2E-LD。
PSLD 的概述如图 2(b)所示。计算包括两个阶段:
- 使用 $t = 0$ ($X_0$) 处的当前图像帧及其车道检测结果更新车辆位置
- 使用真值车道中心作为 waypoints 从$ t = 1 $应用闭环模拟 至 $t = T_p$。
注意 在2中我们不需要图像帧,因为车辆只是试图通过横向控制跟随真值路径点,即,我们绕过车道检测,假设我们知道$t≥1$中的真值。
然后我们采用到车道中心的最大横向偏差作为度量。为方便起见,我们通过 $T_p$ 将最大横向偏差归一化,使其成为$per-frame$度量。PSLD的定义如下:
$$
\frac{1}{T_{p}} \max {1 \leq t \leq T{p}}\left(\left|\widetilde{L}{t}-C{t}\right|\right)
$$
其中$\widetilde{L}_{t}$是车辆在 t 处的模拟横向(y 轴)坐标。例如,对于 $T_p = 1$,它只是使用当前车道检测结果的单步仿真。 较长的 $T_p $可以在后面的帧中模拟当前帧结果的拖尾效应,但可能会受到累积误差的影响。 在 §4.3 中,我们探讨了哪个$ T_p$ 实现了 PSLD 和 E2E-LD 之间的最佳相关性。 更多详细信息在附录 A 中。
攻击产生
为了对所有 4 种主要类型的车道检测方法公平地产生对抗性攻击,我们设计了一个可以普遍适用于它们的攻击目标。 我们将其命名为 expected road center,它将所有检测到的车道线的概率加权平均。 直观上,所有车道线的平均值被期望去表示道路中心。 如果expected center位于输入图像的中心,则其值在归一化图像宽度中将为 0.5。 我们最大化预期的道路中心以向右攻击和最小化它以向左攻击。 每种方法的expected road center的详细计算如下。
分割和行分类
$$
\frac{1}{L \cdot H} \sum_{l=1}^{L} \sum_{i=1}^{W} \sum_{j=1}^{I I} i \cdot P_{i j}^{l}
$$
其中$H,W$ 是概率图的高和宽, $L$是概率图的数目(通道数),$P_{i j}^{l}$ 是车道线在概率图上像素$(i,j)$的存在概率。
曲线拟合方法
$$
\frac{1}{L \cdot|\mathcal{H}|} \sum_{l=1}^{L} \sum_{j \in \mathcal{H}}\left[j^{d}, j^{d-1}, \cdots, j, 1\right] p_{l}
$$
$L$ 是检测到的车道线的数目,$d$ 是多项式的次数,$\mathcal{H}$ 是y轴采样行数值的集合,$p_{l} \in \mathbb{R}^{d+1}$ 是检测到的车道线$l$的系数。
基于anchor的方法
$$
\sum_{l \in \mathcal{A}}\left[\frac{1}{\left|\Delta^{l}\right|} \sum_{j \in \Delta^{l}}\left(a_{j}^{l}+\delta_{j}^{l}\right)\right] \cdot \pi^{l}
$$
其中$\mathcal{A}$ 是anchor proposals 的集合,$\Delta^{l}$ 是anchor proposal $l$ 的y轴值的索引集合,$\pi^{l}$ 是anchor proposal $l$ 的概率,$a_{j}^{l},\delta_{j}$ 分别是anchor proposal $l$ 在y轴索引为$j$ 处的x轴的值以及它的偏差。
我们将这种expected road center functions纳入 DRP 攻击 [47] 过程中,以生成对多帧有效的对抗性攻击。
实验
TuSimple数据集的常规评估
评估设置 我们首先在 TuSimple 数据集 [9] 上使用常规accuracy和 F1 分数指标评估车道检测模型。我们考虑两种攻击场景:向左攻击和向右攻击。我们总共评估了 60 种不同的攻击场景。 在每个场景中,我们将 3.6 m x 36 m 的补丁放置在距离车辆 7 m 的地方,如图 1 所示。 为了解决 §2.2 中讨论的限制 (2),我们删除了除当前左车道线和当前右车道线以外的车道线,以更正确地评估对 ALC 系统的适用性。 每种攻击实施和参数的更多细节见附录 D。
结果 表 2 显示了良性和攻击场景中的准确性和 F1 分数指标。 在良性场景中,LaneATT 具有最好的准确率 (94%) 和 F1 分数 (88%)。 SCNN 和 UltraFast 也显示出较高的准确性和 F1 分数,而 UltraFast 在攻击场景中的 F1 分数最低 (8%)。 PolyLaneNet 在良性和攻击场景中的accuracy和 F1 分数都低于其他网络。 但是,当观察检测到的受攻击的车道线的图像时,我们发现很多情况表明,如果在 AD 下游任务中使用这些检测结果则得出截然不同的结论。 例如,如图1所示,尽管 SCNN 在所有三种情况下都具有最高的accuracy,但其检测到的车道线因攻击而严重弯曲。 相比之下,PolyLaneNet 的检测看起来是 4 个模型中最稳健的,因为检测到的车道线通常与实际车道线平行。 然而,它的accuracy(51%)在攻击右侧的场景中小于 SCNN(63%)。 在良性场景中,PolyLaneNet 的accuracy(84%)低于其他网络,但很难找到对人眼有意义的差异,因为检测到的线与真实车道线很好地对齐。 我们在附录 G 中提供了更多示例。因此,传统的accuracy和基于 F1 分数的评估可能不太适合判断车道检测模型在 AD 等代表性下游任务中的性能。
TuSimple 指标与 E2E-LD 的一致性
为了更系统地评估传统精度和 F1 分数与作为下游任务的 AD 性能的一致性,我们对新构建的数据集进行了大规模的实验研究。
新数据集:Comma2k19-LD。 为了在同一数据集上评估传统指标和下游以任务为中心的指标 E2E-LD 和 PSLD,我们需要车道线注释和驾驶信息(例如,位置、转向角和速度)。 不幸的是,据我们所知,目前还没有满足要求的数据集。 因此,我们创建了一个新的数据集 coinedComma2k19-LD。
评估设置 我们对 Comma2k19-LD 数据集进行评估。对于攻击生成,我们在随机选择的 50 个场景中向左攻击,在其他 50 个场景中向右攻击。对于横向控制,我们在 OpenPilot v0.6.6 中使用 MPC的实现,这是一个开源产品 ALC 系统。对于纵向控制,我们使用了原始行驶轨迹中的速度。对于运动模型,我们采用运动学自行车模型 [35],这是车辆中使用最广泛的运动模型 [2,35,55]。车辆参数来自 Toyota RAV4 2017(例如轴距),用于收集 comma2k19 数据集的轨迹。为了使在 TuSimple 数据集上训练的模型在 Comma2k19-LD 数据集上work,我们手动调整输入图像大小和视野以与 TuSimple 数据集保持一致。我们在第一帧距离车辆 7 m 处放置了一个 3.6 m x 36 m 的补丁。对于 E2E-LD 指标,我们使用 TE = 20 帧(1 秒)。结果表明,DRP 攻击的平均攻击成功时间接近 1 秒 [47]。更多设置细节在附录 B、D 和 G)中。
结果 表3显示了常规accuracy和F1分数以及E2E-LD的评估结果。 我们计算 Pearson 相关系数 r 及其 p 值。 如图所示,下游任务性能(来自重量级 E2ELD 指标)与传统指标之间存在很大的不一致。 在良性场景中,SCNN 在原始参数(α = 20,β = 0.85)下具有最高的准确度(0.59)和 F1 分数(0.84)。 然而,SCNN 是具有最低 E2E-LD (0.21) 的方法之一,而 UltraFast 具有最高的 E2ELD (0.18)。 在攻击场景中,不一致性更为明显:PolyLaneNet 具有最高的 E2E-LD (0.38),但 PolyLaneNet 的原始参数达到了第二低的精度 (0.59) 和最低的 F1 分数 (0.13)。 因此,E2E-LD 得出了与传统指标截然不同的结论。
如果我们采用常规指标,SCNN 应该是性能最佳的模型。 另一方面,如果我们采用 E2E-LD,PolyLaneNet 应该是首选,因为在良性场景中 4 车道检测方法之间只有细微差别,而 PolyLaneNet 在攻击场景中明显优于其他方法。
E2E-LD 与传统指标之间的不一致可以使用 Pearson 相关系数 r 更系统地量化。 一般来说,E2E-LD 和传统指标具有很强的负相关性 (r ≤-0.55),具有很高的统计显着性 (p ≤0.001),这意味着最近对传统指标的一些改进可能并没有导致 AD 的改进,相反,过度拟合传统指标可能会使情况变得更糟。
E2E-LD与PSLD的一致性
我们遵循与 §4.2 中相同的设置。对于 PSLD,我们通过以下过程获得 ground truth waypoints。我们通过使用人类驾驶轨迹作为路径点,使用自行车模型和 OpenPilot 的 MPC 生成轨迹。然后我们使用生成的轨迹作为地面实况道路中心。虽然我们可以直接使用人类驾驶轨迹作为 ground truth,但人类驾驶有时并不流畅,这种方法可以抵消运动模型的影响,这与真实车辆动力学存在差异。对于良性场景,我们计算原始的人类驾驶中每一帧的 PSLD。对于攻击场景,我们使用 3.1 中描述的方法合成的帧而不是原始帧,因为被攻击的轨迹及其相机帧与原始的人类驾驶有很大变化。例如,为了获得帧 $ t = N $ 处的 PSLD,我们模拟轨迹直到 $t = N − 1$,然后我们使用 $t = N $处的合成帧计算 PSLD。
结果。图 4 显示了当 Tp 从 1 到 20 帧变化时 E2E-LD 和 PSLD 之间的 Pearson 相关系数r。如图所示,E2E-LD、PSLD 在良性和攻击场景中都具有很强的正相关性。特别是,在攻击场景中存在显著相关性 (>0.8)。这是因为横向偏离的方向通常与攻击方向重合。相比之下,在良性情况下,车辆会超调地绕着道路中心行驶,因此横向偏差的方向在很大程度上取决于初始状态。尽管如此,PSLD 始终与 E2E-LD 呈高度正相关 (>0.2)。特别地,SCNN 在所有 Tp 中与 E2E-LD 具有很强的相关性 (>0.8)。我们认为高相关性可能是由于分割方法,这是 4 种方法中唯一不使用特定领域知识的方法,车道线通常是平滑的(§2.1)。 SCNN 在同一位置的检测在不同帧之间往往是一致的,即 SCNN 对全局信息的依赖程度较低。
最后,我们探索 PSLD 代理 E2ELD 的最佳 $T_p$。 如图4所示,4种方法的相关系数平均值分别在良性场景中$T_p = 10$和攻击场景中$T_p = 5$时达到最大值。 我们在表4 中列出了$ T_p = 10$ 和相应 r 的 E2E-LD 和 PLSD。如图所示,在两种情况下,E2E-LD 和 PSLD 之间存在很强的统计显着性 (p ≤ 0.001) 正相关 (≥ 0.38)。 结果有力地支持了这样一个事实,即 PSLD 可以仅基于单个图像帧和真实道路中心几何形状来衡量 ALC 中车道检测的性能。 我们注意到 PSLD 对$T_p$ 的选择并不那么敏感。 如图 5 所示,4 种方法的数值关系对于所有$T_p$ 通常是一致的。
参考
[1] Towards Driving-Oriented Metric for Lane Detection Models