智算多多
官方邮箱:service@zsdodo.com

公司地址:北京市丰台区南四环西路188号总部基地三区国联股份数字经济总部


怎样的无人机地理定位系统才算理想?通常而言,它至少需要满足三个核心标准:
当前的无人机地理定位技术,无论是用于自主导航还是对地目标侦察,大多遵循一套约定俗成的系统架构:先依靠视觉里程计(VIO)和卫星信号(GNSS)算好自身位置,再挂载一台激光测距仪去反推地面目标的坐标。这种架构存在两个弱点:前者高度依赖外部信号,后者则极度依赖重型主动载荷。
直觉告诉我们,这或许并非最佳解法:既然无人机搭载了视觉传感器,如果我们拥有一张已知的三维地图,它能否像人类一样,直接实现 “看图认路”?可否摆脱对 GNSS 的依赖,实现真正无漂移的无人机视频定位?为了回答这一问题,国防科技大学 SAW Lab 团队将目光投向了像素级的 3D 配准,试图从纯视觉视角寻找答案。
回看传统的 VIO 系统,它主要通过比较前后两帧图像来计算相对位移。这类似于航位推算,飞行距离越远,微小的测量误差累积得就越多。
研究团队的思路是弱化相对观测,直接建立绝对锚点。通过将每帧 2D 视频像素直接映射到带有绝对坐标的 3D 地理模型上,切断误差的累加路径。这引出了 PiLoT 框架的核心理念:将无人机自定位与目标定位统一重构为像素到 3D 的配准问题。只要将实时画面与三维世界精准对齐,相机的六自由度位姿以及目标的真实地理坐标便能作为联合解自然得出。
理论表明,通过实时画面匹配 3D 地图可以获得无漂移的绝对坐标。但要让这一框架真正满足低算力门槛与全天时鲁棒性,在方法设计上还面临两个核心的技术挑战:
第一,算力如何高效分配?建立 2D 像素到 3D 大规模场景的密集对应关系,意味着地图渲染与特征匹配将消耗巨大的计算资源。若采用 “渲染一帧、定位一帧” 的串行处理模式,轻量级机载平台显然无法满足无人机的实时控制需求。如何设计高效的计算流分配与异步调度机制,是该框架必须跨越的计算瓶颈;
第二是深度网络如何学习几何本质?当前主流的视觉匹配模型多基于地面或室内数据集训练。然而,真实的无人机作业环境极其复杂,不仅存在高空俯视的视角与尺度剧变,还伴随着跨时段的光照与天气干扰。这种从地面到复杂高空的跨度,产生了巨大的域鸿沟(Domain Gap)。面对这种差异,现有模型极易暴露纹理偏置的软肋,它们倾向于过拟合地面训练集中特定的表观纹理,一旦遭遇无人机视角的切换与环境外观的改变,原先依赖的特征就会失效,导致定位鲁棒性大幅下降。因此,如何克服这种偏置,获取一个无惧真实环境干扰的无人机专属特征提取器,便是跨越域鸿沟的关键。
从基于 3D 配准的理论重构,到跨越算力与域鸿沟的双重危机,PiLoT 框架给出了一套优雅的解法。具体而言,其系统架构与方法设计包含以下三大核心创新:
为了打破线性时序瓶颈,PiLoT 摒弃了逐帧渲染、逐帧定位的低效串行模式。研究团队通过将渲染与定位解耦,构建了两个高并发的独立线程。其中,渲染线程负责在后台动态生成带有地理参考的合成视图,而定位线程则专注于在特征空间内将实时视频流与合成视图进行快速配准。这种双线程架构不仅确保了每次定位查询都能获得动态更新的地理锚点约束,还在显著提升系统吞吐量的同时,实现了真正意义上的无漂移连续定位。
PiLoT 双线程解耦框架原理图
为了获取无惧环境干扰的泛化特征,PiLoT 直面核心痛点:即填补无人机领域精确几何真值训练数据的空白。研究团队基于 AirSim、Cesium 和 Unreal 引擎,构建了一个百万级规模的全球尺度合成数据集。该数据集不仅涵盖了极其丰富的气象与光照条件,还提供了绝对像素深度和高精度的六自由度位姿真值。这种强大的几何监督机制,成功迫使轻量级网络专注于学习底层的三维几何结构,而不是单纯拟合特定的场景外观。凭借这一数据驱动策略,PiLoT 有效跨越了合成与真实的界限,在完全未见过的真实世界场景中,依然展现出优异的零样本泛化能力。
PiLoT百万级全球尺度合成数据集。图(a)展示了在Cesium 3D Tiles全球地图上轨迹覆盖区域,以及生成的真实无人机飞行轨迹。图(b)涵盖了多样化的环境模拟,包括多种天气、光照条件以及大幅度旋转和平移的视角变化。图(c)强调了我们数据集的几何一致性监督,通过绝对像素级深度进行严苛的重投影验证,确保特征学习稳定的3D几何结构。图(d)呈现了我们算法在真实场景上零样本泛化表现,Query为实拍夜晚查询图,Reference为同一视角画面,下方为输出特征金字塔对比效果。
在特征提取与配准机制上,PiLoT 专门针对无人机平台的资源限制进行了深度优化。系统采用了轻量化的 MobileOne-Unet 架构,在确保边缘端推理实时性的前提下,利用自建合成数据集的几何监督训练,提取出在昼夜交替、光影剧变等复杂环境下依然稳健的判别性特征。
与传统方法渲染多个视角提供参考不同,PiLoT 引入了一套高效的 “一对多” 配准模式:仅通过渲染单个参考视图提供地理锚点,并结合多位姿假设来扩大搜索空间。这种在单一特征空间内完成投影匹配的方式,大幅降低了渲染开销,实现了计算资源的高效利用。
针对无人机飞行过程中的高机动性,优化器引入了旋转感知采样机制。考虑到无人机平移量对偏航(Yaw)和俯仰(Pitch)动作极度敏感,系统通过各向异性采样,在对应轴向上针对性地扩大了搜索范围。这一设计有效应对了高达 10 米位移与 10 度偏航的剧烈帧间运动,克服了传统优化器易陷入局部最优的局限性。
在最终的位姿解算阶段,优化过程在多尺度特征金字塔上展开,遵循由粗到精的策略逐步收缩搜索空间。为突破显存读写瓶颈,团队设计了定制化的 CUDA 算子,通过并行加速的 LM 优化迭代实现了 30 倍的计算加速,引导位姿平滑、快速地收敛至全局最优解。
PiLoT 整体算法框架
为了验证系统性能,研究团队将 PiLoT 与两类具有代表性的定位方法进行了全面对比。第一类是混合定位方法,如结合了 ORB-SLAM3 的 Render2ORB,以及基于 RAFT 光流追踪的 Render2RAFT,这两者均采用 1Hz 的绝对位姿模块进行定期校正;第二类是逐帧绝对定位方法,包括每一帧独立对齐参考视图并采用特征对齐求解位姿的 PixLoc,以及基于渲染 - 对比框架的 Render2Loc。在对比实验中,研究团队为 Render2Loc 集成了 LoFTR、EfficientLoFTR、RoMaV2 以及专门针对航空视觉优化的 Aerial-MASt3R 等四种 SoTA 匹配器。
无人机自定位精度对比
PiLoT 在高机动飞行条件下的无漂移表现
PiLoT 动态目标指示展示(场景一)
PiLoT 动态目标指示展示(场景二)
PiLoT 让无人机真正学会了 “看图认路” 与 “目标锁位”。它的成功以及未来的演进方向,为我们带来了以下三个核心启发:
