协同感知的策略设计

协同感知的策略设计

论文信息

[ECCV 2020] V2VNet: Vehicle-to-Vehicle Communication for Joint Perception and Prediction https://link.springer.com/chapter/10.1007/978-3-030-58536-5_36

[ICRA 2020] Who2com: Collaborative Perception via Learnable Handshake Communication https://ieeexplore.ieee.org/abstract/document/9197364

[CVPR 2020] When2com: Multi-Agent Perception via Communication Graph Grouping https://openaccess.thecvf.com/content_CVPR_2020/html/Liu_When2com_Multi-Agent_Perception_via_Communication_Graph_Grouping_CVPR_2020_paper.html

背景介绍

在例如机器人编队,无人驾驶等依靠感知系统的场景中,单体感知技术受到视距受限,物体遮挡等物理条件的制约,对整个场景的感知存在较大不足。


单体感知受限于遮挡等物理限制

而随着通信技术的不断发展,V2V,V2X的通信协议的稳步建立为多智能体协同感知提供了基础条件。多智能体系统由于拥有更大的感知覆盖面积,更多的感知角度,相对于单智能体系统,在感知任务上有时很有优势,它们往往并对某一个或部分智能体的失败更加鲁棒,同时能够克服视距受限和物体遮挡的制约。


通过协同手段减轻遮挡的影响

有些研究开始探索多智能体系统下的协同感知问题。V2VNet[1]探索了车对车通信场景下,通过聚合一定区域内不同位置车辆的感知信息,使得单个车辆 得以克服遮挡和远距离带来的感知困难。Who2com[2],When2com[3]在 3D 场景下的 2D 分割任务以及 3D 物体识别任务上,实现了多智能体系统下具有较高通信效率的协同感知。接下来我们将具体介绍这三篇文章所提出的方法。

V2VNet: Vehicle-to-Vehicle Communication for Joint Perception and Prediction

Which Information should be Transmitted

V2VNet提出,发送 perception and prediction (P&P) 网络的中间特征可以实现带宽占用和性能指标的两全其美。该流程可以描述为:首先,每辆车处 理自己的传感器数据并计算其中间特征表示。这些特征被压缩并广播到附近的self-driving vehicles (SDVs)。 然后,每个SDV使用从其他SDV接收到的消息来更新其P&P网络的中间表示。这将通过额外设计的网络进一步处理,以产生最终的感知和运动预测输出。


V2VNet系统整体架构

Leveraging Multiple Vehicles

如何将多辆车的感知结果融合在一起呢?V2VNet给出了这样的架构:

Lidar Convolution Block

首先使用Pixor[4]架构对3D原始点云数据进行处理。从雷达数据中提取特征,并将其转换到鸟瞰图上。在这个过程中,V2VNet会将最近的5帧点云点聚合到一个个15.6的立方体中,并对3D体素进行卷积,得到规模的特征图。

Compression

对于车联通信这样的应用场景,如何降低协同感知对于通信带宽的占用也是至关重要的。因此V2VNet将图像压缩领域技术迁移到V2V特征压缩,在文中使用的是variational image compression algorithm[5],卷积网络在先验的帮助下学习压缩特征表示。 然后通过熵编码用很少数据量对特征进行量化和无损编码。 这个压缩模块是可微可训练的,这允许V2VNet的方法学习如何在最小化带宽的同时保留特征图信息。

Cross-vehicle Aggregation

接下来,V2VNet需要把来自不同SDV,处于不同空间位置的特征进行聚合。其提出使用一个全连接GNN来对此进行建模。每个SDV上均建立一个包含其通信范围内所有SDV的图,其计算在本地SDV上进行。


聚合算法的伪代码

在该算法中,作者先使用一个CNN网络对其进行延时补偿,之后使用一个GNN message passing结构,V2VNet认为,由于可通信的SDVs位于邻近空间区域,因此节点表示将具有重叠的视野。如果V2VNet能够很好地转换表示并在视场重叠的节点之间共享信息,便可以增强SDV对场景的理解并产生更好的输出。如上文V2VNet整体架构图所示,首先应用相对空间变换 来转换第i个SDV的中间特征,以向第 k 个SDV发送 GNN 消息。然后V2VNet使用 CNN 对两个节点完成了空间对齐的特征图执行联合推理。最终修改后的消息按照聚合算法的第7行进行计算,其中T通过双线性插值应用特征状态的空间变换和重采样,并且 掩盖了视场之间的非重叠区域。 请注意,通过这种设计,V2VNet的特征保持了空间对应性。

接下来,V2VNet通过一个mask-aware permutation-invariant函数 在每个节点聚合接收到的消息,并使用ConvGRU来更新节点状态(聚合算法第 8 行),其中 是 网络中节点i的相邻节点,是均值算子。mask-aware accumulation operator确保只考虑重叠的视野。 此外,节点更新中的门控机制可以根据接收 SDV 的当前状态对累积的接收消息进行信息选择。 在最后一次迭代之后,多层感知器输出更新的中间特征(聚合算法第 11 行)。V2VNet重复这个消息传播方案并进行固定次数的迭代。

Who2com: Collaborative Perception via Learnable Handshake Communication

When2com和Who2com两项工作均由Georgia Tech Zsolt Kira组完成。我们先介绍前序工作Who2com,由题可见,我们着重介绍Who2com的可学习握手机制,who2com是一项基于无人机视角的工作,其整体架构如下图所示


When2com整体架构图

Communication via Three-Stage Handshake

Who2come认为,整个局部区域内的所有智能体均进行通信是低效的,消耗了大量的通信资源却获得了大量相同的信息。因此,作者认为整个协作过程需要分为三步:Request, Match, Connect。其大致架构可由下图所示


三阶段通信示意图

首先,需要协同的智能体向周围广播发出一个数据量很低的Request信息,接收到的节点将计算一个他们的键值之间的匹配度分值。此时,邻居智能体再将返回给发出Request信息的智能体。此时,中心agent将回传的进行排序,选出匹配度最高的n个邻居进行下一步Connect阶段的操作,传输大量的传感数据。 将三阶段过程用公式表示,可以写为: Request:

是j号智能体的observation,是超参数,Match:

代表两个向量的匹配函数,是key的生成函数, 是可学习的参数。 Connect:

是普通智能体的local observation,是智能体的的observation。是concatenation操作。

AirSim-CP Dataset

本文提出了适用于协同感知领域的AirSim-CP数据集,该数据集建立在AirSim模拟器[6]之上,其中一组 5架无人机飞越具有不同景观的地图,例如道路、草原、建筑物、湖泊等。目前,在AirSim-CP数据集中, 我们使用语义分割作为下游任务来对协作感知问题的方法进行基准测试。 对于每架无人机,都会记录 RGB 图像、深度图像和姿势。数据集还提供了其中一个智能体的语义分割mask。

When2com: Multi-Agent Perception via Communication Graph Grouping

承接Who2com,作者进一步提出要处理协同感知领域何时进行协作的问题。在本文中,作者着重解决的是如何通过学习方法构建通信组和学习何时以带宽受限的方式进行通信。其具体示意图如下所示:


When2com HandShak通信机制

作者认为以前基于学习的通信组建立的工作均应用了完全连接的通信图来跨智能体进行信息交换。该框架导致大量带宽使用,并且当智能体数量增加时难以扩展。


完全通信图和不完全通信图

为了降低网络复杂性和带宽使用,受通信网络协议的启发,作者提出了一个两步通信组构建过程:首先应用握手通信来确定连接的权重,然后进一步修剪权重较小的边。与who2com相似,handshake过程包括Request和Match来确定连接的权重,并通过激活函数来移除部分权重较低的连接。 但是,上述方法没有学习“何时”进行通信,并且当智能体有足够的信息并且没有必要进行通信时上述机制仍然会通信,进而导致带宽浪费。理想的通信机制是当智能体需要来自其他智能体的信息以提高其感知能力时进行传输,而当它有足够的信息来完成自己的感知任务时也应该停止请求传输。为此,作者自我注意机制 的启发,使用key和来自同一代理的query之间的相关性来确定代理是否可能需要更多信息,从而了解何时进行通信:

时,意味着该智能体不需要额外的通信来提升感知任务的精度。为了最大限度地减少传输过程中的带宽使用,when2com进一步提出了一种非对称消息方法,将query压缩成一个极低维的向量(被传输),同时保持更大的key向量(不传输)。 一旦将极其紧凑的query传递给接收者,使用缩放的一般注意力 [7] 来计算智能体i和智能体j之间的相关性:

是一个可学习的参数矩阵,用来匹配query和key的尺寸。于是对于一个场景而言,我们可以获得匹配矩阵:

是一个逐行的softmax函数。再对其进行稀疏化处理,我们可以得到


完全通信图和不完全通信图

如when2com整体示意图所示,一旦发出请求的智能体从其链接的支持智能体收集信息,发出请求的智能体i就会根据匹配分数整合其local observation和来自支持智能体的压缩视觉特征图:

简而言之,在Who2com的基础上乘上权值。

我的评价是:

按照时间顺序,Who2come公布于2020年3月,When2com公布于2020年5月,V2VNet公布于2020年8月。Who2come, When2come两项工作均基于无人机视角,V2VNet基于SDV车联通信。 V2VNet为该问题搭出了一个较为全面合理的基础框架,包含了协同感知任务中的诸多模块,并设计了一些基本直观的结构来解决这些问题。但V2VNet的组成模块大多采用了比较直接基本的方法(基本的message passing GNN,经典的变分图像压缩方法,简单卷积层延迟补偿...),缺乏对V2V协同感知场景的特别设计,对于V2V的实际部署来说,还有很多问题值得思考和补充。Who2come和when2com在无人机视角下,针对于如何平衡通信带宽占用和协作感知性能,借鉴了不少通信网络的设计方法,提出了3次握手机制来解决协作的who和when的问题,是很有创意的想法,也符合通信网络系统搭建的直觉和经验。但在一些结构设计上,例如weight的设计上,我认为仍有可改进之处,在[8]中,使用pointwise weight使得协作性能得到进一步的提高。对于这三个工作,我认为他们共同的不足之处包括:将通信环境设想的过于完美和鲁棒,缺乏对通信拒止条件下的实验和分析,将大大限制协作方法的应用。此外,对于spatial information的保留和利用不够充分。在后续的工作,例如[8]中,这一系列问题部分得到了改进和修正。总而言之,设计一个完整协作策略,需要仔细思考包括特征提取,特征压缩,通信技术,定位技术,时间序列,编码解码等等等等方面。我们相信,这个领域方兴未艾,还有诸多工作等待具有不同知识背景的研究者们来完善。

参考文献

[1] Wang, Tsun-Hsuan, et al. "V2vnet: Vehicle-to-vehicle communication for joint perception and prediction." European Conference on Computer Vision. Springer, Cham, 2020.

[2] Liu, Yen-Cheng, et al. "Who2com: Collaborative perception via learnable handshake communication." 2020 IEEE International Conference on Robotics and Automation (ICRA). IEEE, 2020.

[3] Liu, Yen-Cheng, et al. "When2com: Multi-agent perception via communication graph grouping." Proceedings of the IEEE/CVF Conference on computer vision and pattern recognition. 2020.

[4] Yang, B., Luo, W., Urtasun, R.: Pixor: Real-time 3d object detection from point clouds. In: CVPR (2018)

[5] Ball´e, J., Minnen, D., Singh, S., Hwang, S.J., Johnston, N.: Variational image compression with a scale hyperprior. In: International Conference on Learning Representations (2018)

[6] Shital Shah et al. “AirSim: High-Fidelity Visual and Physical Simulation for Autonomous Vehicles”. In: Field and Service Robotics. 2017.

[7] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin. Attention is all you need. In Advances in Neural Information Processing Systems (NeuralIPS), 2017.

[8] Li, Yiming, et al. "Learning Distilled Collaboration Graph for Multi-Agent Perception." Advances in Neural Information Processing Systems 34 (2021).

Zixing Lei
Zixing Lei
Master Student

My research interests include computer vision, embodied AI and multi-modality 3D understanding.