【论文导读】Deep Learning for Inertial Positioning: A Survey

1,068 阅读22分钟

论文名称:Deep Learning for Inertial Positioning: A Survey

开源项目地址:综述文章,无开源项目

期刊:IEEE transactions on intelligent transportation systems

时间:2024

主要工作

IMU 广泛应用于手机、无人机、车辆、AR/VR 等,低成本 IMU 存在漂移问题,传统方法难以解决

首次系统梳理深度学习在惯性定位中的应用(覆盖2018-2022年),包括:

  • 传感器级-传感器校准(IMU 误差建模与补偿)
  • 算法级-惯性导航算法(如 PDR、ZUPT、SINS 等)
  • 应用级-多传感器融合(如IMU+视觉、IMU+GNSS、IMU+LiDAR 等)

经典惯性导航机制回顾

(Classical INS)

IMU 误差模型详解

IMU 误差通常包含 bias、噪声、温漂等

  • 偏置误差bias表示传感器输出中存在一个固定偏移,即使静止也不为零,比如陀螺仪静止时输出0.1°/s。可标定,属于确定性误差,可建模补偿
  • 随机噪声noise表示传感器输出中存在高频随机波动,服从高斯分布,比如加速度计输出抖动±0.05 m/s²。可建模,随机误差,需滤波
  • 温漂误差temp drift表示传感器输出随温度变化而变化,比如温度身高 1℃,陀螺仪偏置变化 0.01°/s。可建模,时变+确定性误差,需温度补偿

bias 是“偏移”,noise 是“抖动”,temp drift 是“随温度变化”,三者都属于IMU的误差来源

传统 SINS

(strapdown INS)

SINS(Strapdown Inertial Navigation System)是一种将 IMU 直接固定在载体上的惯性导航系统,无需机械平台,通过数学旋转实现导航坐标系对齐。

SINS 算法流程:角速度→姿态→加速度→速度→位置

(1)角速度积分。输入陀螺仪角速度 ω,积分得姿态变化,使用Rodriguez公式或四元数更新姿态,输出姿态角(roll, pitch, yaw)

(2)坐标转换。输入为加速度计输出 a,将加速度从机体坐标系转到导航坐标系,a_{nav} = R * a_{body},其中R为姿态矩阵

(3)重力补偿。输入为 a_{nav},减去重力加速度 g,a_{net} = a_{nav} - g,其中 g 为当地重力矢量

(4)一次积分。输入 a_{net},积分得速度,速度更新,v(t) = v(t-1) + a_{net} * Δt

(5)二次积分。输出 v(t),积分得位置,位置更新,p(t) = p(t-1) + v(t) * Δt

误差会随时间二次积累,导致漂移

行人场景下的两类经典方法

PDR

行人航位推算

步频+步长+方向;

  • 步频检测原理为检测每一步的峰值,使用加速度峰值检测、零交叉法,每步一次触发
  • 补偿估计原理为根据步频+身高估计步长,Weinberg 公式:L = k * √(a_{max} - a_{min}),其中k为经验系数
  • 方向估计原理为用陀螺仪积分得航向角,积分角速度,需初始方向
  • 位置更新原理为每步更新一次位置,p_k = p_{k-1} + L * [cosθ, sinθ],θ 为当前方向

避免加速度二次积分,漂移为线性增长

依赖步频检测准确性,不能用于非行人场景

ZUPT

零速更新

利用脚部静止阶段修正漂移;

  • 零速检测,检测脚部静止阶段,使用加速度方差+陀螺仪能量阈值,静止时速度为0
  • 卡尔曼滤波将零速作为观测值,扩展卡尔曼滤波(EKF),修正速度误差
  • 状态更新,每步一次修正,更新速度、姿态、位置,抑制漂移

在行人行走中非常有效,漂移可控制在几米内

需将 IMU 绑在脚上,不适用手持设备

多传感器融合方法、原理与模型

多传感器融合:IMU+视觉、IMU+GNSS、IMU+LiDAR 等;

IMU+视觉(VIO:Visual-Inertial Odometry)

IMU+GNSS(全球导航卫星系统)

IMU + LiDAR(LIO: LiDAR-Inertial Odometry)

IMU+UWB

(超宽带)

Mag-IMU 融合,用磁场修正航向角,互补滤波/EKF模型

传统方法依赖物理模型,难以适应复杂环境,需引入学习机制

学习式 IMU 校准

(Learning to Calibrate IMU)

目标:用深度学习建模并消除IMU误差(bias、噪声、漂移)

学习式IMU校准的原理

  • 传统标定基于物理模型(Allan 方差、六面体标定、温漂建模);学习式标定基于数据驱动,用深度网络直接学习误差映射
  • 传统标定需要人工设计参数标定过程复杂;学习式端到端训练自动学习误差分布
  • 传统标定对传感器型号,安装方式敏感;学习式标定可迁移、可微调,适应不同设备
  • 传统标定难以建模高阶、耦合误差;学习式标定深度网络可逼近任意非线性映射

把 IMU 原始数据当成输入,把高精度 IMU 或 GT 姿态当成监督标签,训练一个神经网络,使其输出的”校准后数据“接近真实值

  • 传统校准使用线性/低阶模型,学习式校准使用非线性、耦合误差建模
  • 传统校准使用人工设计+实验标定,学习式校准使用端到端训练,无需人工干预
  • 传统校准传感器/温度/安装一变就失效,学习式校准可迁移学习、微调、在线更新

学习式 IMU 校准的三类方法

直接回归校准值

(如 Calib-Net、OriNet)

输入原始IMU数据,网络直接输出去噪后的角速度/加速度

监督信号为高精度 IMU 或GP速度/加速度

代表模型

间接校准

(Indirect Calibration)

网络输出“高精度姿态/速度/位移”,通过损失函数反向传播,隐式完成IMU校准

监督信号:GT姿态(Vicon、MoCap、GNSS-RTK)

参数优化式校准

(Parameter Optimization)

强化学习(RL)或元学习,让网络输出“最优校准参数” ,再送入传统KF或优化器中

监督信号:定位误差/姿态误差作为奖励

  • Learning to Calibrate 模型,使用 DQN+EKF 方法,任务为输出校准参数

小结

三种方法的输入均为 raw IMU

直接回归输出校准 IMU,监督信号为高精度 IMU。简洁、可解释,但需高精度参考

间接校准输出姿态/速度,监督信号为 GT 姿态。无需显式建模,但需 GT 姿态

参数优化输出校准参数,监督信号为误差奖励。可与传统KF耦合,但训练复杂

目标:用深度学习建模并消除IMU误差(bias、噪声、漂移);

总结:深度学习方法优于传统Allan方差法,但模型泛化性仍待提升

学习式 IMU 积分修正

(Learning to Correct IMU Integration)

学习式 IMU 积分修正的原理

  • 传统 SINS 利用牛顿运动学二次积分。

输入为原始 IMU(a, ω)​​,输出为姿态、速度、位置,无监督(纯物理),零漂移假设下无偏

(1)传统积分误差二次积累,几秒即漂几十米

(2)需要手动建模(ZUPT、PDR)

(3)对传感器位置/用户/环境敏感

(4)只适用于特定场景(行人脚绑 ZUPT)

  • 学习式积分修正用深度学习从 IMU 序列直接估计速度、位移或误差。

输入为原始 IMU​ 序列(窗口/序列),速度 / 位移 / 误差 → 修正积分或作为观测监督为GT轨迹(Vicon、RTK、SLAM) ,数据驱动,可抑制非线性漂移、环境耦合误差

(1)漂移被速度约束或位移约束抑制,误差线性甚至亚线性

(2)端到端学习运动模型,无需人工阈值

(3)可通过迁移学习/域适应泛化到新设备、新用户

(4)行人、手持、车载、无人机、机器人全平台适用

  • 学习目标

把二次积分造成的无界漂移变成数据驱动的有界误差

(1)速度约束:网络输出速度 v̂ → 代替二次积分,比如 RoNIN, RIDI

(2)位移约束:网络输出 Δp̂ → 累加得轨迹,比如 IONet, TLIO

(3)误差补偿:网络输出 Δe → 修正积分结果,比如 Deep-VIO 中的 IMU 残差分支

三种方法原理与代表模型

三类方法:

  1. 学习位移(Displacement)→ 累加得轨迹

    如IONet,论文arxiv.org/abs/1802.02…

  2. 学习速度→ 修正加速度→ 积分得位置(如RIDI、RoNIN);

  3. 学习速度→ 作为 KF 观测输入

    如 TLIO,论文arxiv.org/abs/2007.01…

学习位移

(Learn Displacement)

从 IMU 窗口直接回归相对位移 Δp,输入为原始 a, ω 序列,输出为 Δp̂,累加得轨迹,避免二次积分

  • IONet​ 模型,LSTM​ 网络,适用于行人、手推车

  • L-IONet 模型,Dilated CNN​ 网络,适用于行人

  • TLIO 模型,CNN+EKF 网络,适用于行人

学习速度 + 积分修正

(Learn Velocity)

网络输出速度 v̂,再积分一次即可得位置,输入 a, ω 序列,输出 v̂,一次积分,漂移线性化

  • RIDI模型,CNN+SVR 网络,适用于行人
  • RoNIN模型,LSTM+TCN 网络,使用于行人
  • AbolDeepIO 模型,三通道 LSTM​,使用于无人机

这里搜AbolDeepIO又找到一篇综述arxiv.org/html/2307.0…

学习观测 → 滤波更新

(Learn Observation for Filter)

网络输出 速度/零速概率 → 作为 EKF 观测,输入 a, ω 序列,输出 v̂ 或 zv-flag,减少滤波器漂移

目标:用深度学习替代或增强传统积分模块,抑制漂移。

总结:学习式方法在短期轨迹估计中优于传统PDR,但仍需姿态初始化

学习式多传感器融合

(Learning Sensor Fusion​),多模态定位

传统融合基于物理模型+手工规则(EKF、UKF、因子图),需要精确的传感器噪声模型、外参、时标对齐,新增传感器需重写模型、调参,在极端环境(光照、GNSS 遮挡)易失效

学习式融合基于深度神经网络端到端学习传感器 → 位姿的映射,网络自动学习噪声模型、权重分配、同步策略,同一框架可插拔新传感器,仅需微调,通过大规模数据训练,可提升鲁棒性与泛化性

传统方法相比的核心优势

传统方法使用线性假设+高斯噪声建模,使用人工设计(角点、曲率)建模特征,固定权重融合,单点失效敏感,需要专家调整

学习式方法使用任意非线性、残差分布建模,CNN/LSTM/Transformer 自动提取特征,注意力/门控网络动态权重进行融合多模态冗余,单传感器失效仍可工作,训练一次,多场景复用

学习式多传感器融合的模型

视觉-惯性融合(VIO):

非视觉融合:

GNSS-惯性融合:

视觉-惯性融合

(Learning-based VIO)

CNN 提取图像特征,LSTM/TCN 提取 IMU 序列特征 → 注意力/拼接 → 直接输出 6-DoF 位姿

对光照、纹理缺失、运动模糊更鲁棒;端到端可微

非视觉融合

(LiDAR/毫米波/热成像 + IMU​)

非视觉传感器提供几何/深度/热辐射信息 → CNN/PointNet 提特征 → 与 IMU 时序特征融合

弥补视觉在烟雾、强光、黑夜中的失效;实现全天候定位

GNSS-惯性融合

(Learning-based GNSS/INS)

将 GNSS 伪距/多普勒/位置与 IMU 预积分误差 → 深度网络学习 KF 增益/噪声协方差/残差

GNSS 受遮挡时仍用 IMU 维持精度;网络可在线更新噪声模型

总结:深度学习可提升融合鲁棒性,尤其在传感器失效或恶劣环境下

行人惯性定位

(Pedestrian Inertial Positioning)

传感器使用低成本 MEMS、IMU(手机、手表、鞋垫),仅用 IMU 即可连续估计行人 3D/2D​ 轨迹

利用行人行走时的 步态周期性肢体运动学约束,将 IMU 误差从“二次积分爆炸”降维到“线性漂移”

传统方法瓶颈

  • SINS 直接积分 a→v→p,漂移量级 几秒→数十米,关键缺陷为二次漂移

  • 传统 PDR 通过 步频+Weinberg步长+积分航向,漂移量级 5–10 min → 30 m,关键缺陷阈值检测、步长模型不准

  • 传统 ZUPT 脚部静止时速度=0 → EKF 修正,漂移量级 10 min → 几十米,必须绑脚,手持/口袋失效

    • 论文 行人惯性定位新动态: 基于神经网络的方法、性能与展望

深度学习的优势

端到端映射,从原始 IMU 序列直接学到位移/速度/零速概率,无需手工阈值

鲁棒特征,网络自动学习 跨用户、跨设备、跨运动模式的鲁棒表征

误差抑制漂移从“线性”降到“亚线性” ,手持设备 60 s 误差 < 3 m

  • 论文 Invariant Extended Kalman Filtering for Pedestrian Deep-Inertial Odometry

行人场景下的细粒度方法

深度PDR

传统PDR步频检测为固定阈值/峰值,Weinberg经验式步长估计,积分陀螺+磁力计矫正航向估计,位置更新为手工累加

深度PDR步频检测为 CNN/LSTM 分类,网络回归步长估计,网络直接回归或融合多模态航向估计,位置更新网络输出 Δp̂

总结:深度学习方法可适应不同设备姿态、用户行为,提升定位鲁棒性。

  • PDRNet模型,ResNet 回归步长+航向
  • StepNet模型,CNN+LSTM动态步长
  • ARPDR模型,注意力PDR+ 鲁棒航向
  • Deep PDR (VR/AR),iPhone 端到端速度统计

深度ZUPT

(Deep ZUPT)

传统ZUPT零速检测使用 加速度方差+角速度能量阈值,手工设置观测噪声,必须绑脚

深度ZUPT零速检测使用 LSTM/CNN 分类静止/运动,滤波更新使用网络输出零速概率+自适应噪声,手持、口袋、背包皆可

  • Deep ZUPT模型,LSTM 零速检测 + EKF

  • AZUPT模型,CNN​​ 自适应零速检测

    论文ieeexplore.ieee.org/document/90…这篇下载不了

  • TLIO模型,CNN​ 位移+零速观测

  • StepNet-Z模型,多任务:步长+零速

总结:深度学习方法可适应不同设备姿态、用户行为,提升定位鲁棒性。

车辆/无人机/机器人惯性定位

(Vehicle/UAV/Robot)

传统方法的原理瓶颈

车辆平台传统原理为IMU+轮速计 → DR,GNSS 失效后纯惯性,漂移量级 1 min​ → 数十米,关键瓶颈为 轮胎打滑、IMU 温漂、非完整约束失效

无人机平台传统原理为IMU → 姿态 → 加速度 → 速度 → 位置,漂移量级 30 s → 数米,关键瓶颈为 高动态、振动耦合、磁场干扰

机器人平台传统原理为IMU + 关节编码器 → 腿里程计,漂移量级 1 min → 数米,关键瓶颈为 滑移、关节柔性、地面不平

深度学习的优势

传统方法线性运动学 + 经验约束建模,对滑移、振动、温漂敏感,部署需额外传感器(轮速、关节角)

深度方法端到端学习速度/位移/误差,直接抑制漂移,大规模数据训练,跨场景泛化,仅用IMU即可达到米级精度,适合GNSS拒止环境

拓展至非行人平台

无人机:AbolDeepIO(三通道LSTM),车辆:OdoNet(学习车速+ZUPT),机器人:Buchanan等(IMU+腿部里程计),轻量化部署:TinyOdom(TCN+NAS)

深度PDR在非行人平台的拓展

PDR 概念被泛化为“周期性运动约束下的位移学习”,车辆/机器人/无人机均存在周期性振动/步态

  • AbolDeepIO模型,无人机平台,三通道 LSTM 输出极坐标位移
  • RINS-W模型,车辆平台,CNN 输出零速概率 → EKF​ 观测
  • TinyOdom模型,多平台,TCN+NAS 轻量级位移回归
  • Legged-IO模型,四足机器人平台,CNN+LSTM融合关节编码与 IMU

深度ZUPT在非行人平台的扩展

ZUPT 概念被泛化为“零运动检测

车辆:红绿灯/堵车静止,无人机:悬停/降落静止,机器人:站立静止

  • RINS-W​模型,车辆平台,CNN 分类静止 vs 运动 → EKF
  • OdoNet模型,车辆平台,轻量 CNN 零速 + 车速回归
  • Leg ZUPT模型,四足机器人平台,TCN 零速检测 → 腿里程计修正

总结:不同平台共享“从IMU学习速度”这一思想,但需考虑部署资源限制。

IMU融合定位应用

(IMU-Integrated Positioning Applications)

实际部署与系统级视角

车辆:GNSS/IMU紧耦合系统,用于隧道、城市峡谷;

机器人:视觉-惯性融合,应对光照变化、遮挡;

行人:视觉-惯性+地图匹配,提升室内定位;

IMU融合定位基本原理

传统框架 松耦合:各传感器独立解算 → 高层 EKF/UKF 融合手工建模:噪声协方差、外参、时标需人工整定,失效敏感:单传感器退化 → 系统崩溃

学习式框架 紧耦合原始数据或低层特征 → 深度网络直接输出位姿,数据驱动:网络自动学习噪声、权重、同步策略鲁棒冗余:注意力/门控机制自适应降权失效通道

与传统方法相比的核心优势

传统方法人工设计(角点、曲率)进行特征提取,融合策略固定权重,传感器一变就得重写卡尔曼,(极端场景)视觉失效、GNSS 丢失 → 漂移

学习式 CNN/LSTM/Transformer 自动提取特征,注意力/门控动态权重,端到端微调即可适应新传感器,多模态冗余,仍保持米级精度

车辆方向

(Vehicle)

  • GNSS/IMU 紧耦合场景,双LSTM分别预测 INS​ 漂移 & 滤波误差

    • 代表模型 Dual-NN-KF
  • 道路振动指纹场景,CNN​ 识别路面微特征 → 位置匹配

    • 代表模型 Road-IMU
  • 车辆零速更新场景,CNN 零速检测 + EKF​

    • 代表模型 RINS-W

机器人方向

(Robot​)

  • 激光+IMU深度学习场景,CNN 提取激光特征 + LSTM 融合 IMU​

    • 代表模型 Fusion-Net
  • 超声+IMU EKF,EKF 融合超声测距与 IMU​ 航位推算

    • 代表模型 EKF-US-IMU
  • 视觉+IMU+WiFi 多模态,改进 EKF 融合 LiDAR、深度相机、IMU、WiFi

    • 代表模型 Multi-Fusion-EKF

行人方向

(Pedestrian)

  • 视觉-惯性 端到端场景,CNN+LSTM 直接输出位姿

    • 代表模型 VINet
  • 视觉-惯性 注意力选择场景,软/硬注意力决定 IMU​/视觉权重

    • 代表模型 SelectFusion
  • 自监督 VIO 场景,无 GT​,光度误差监督

    • 代表模型 SelfVIO

总结:融合系统更鲁棒,但计算资源需求更高,需模型压缩与部署优化。

人类运动分析与活动识别

(Motion Analysis, HAR)

原理:从“手工特征”到“端到端时空学习”

传统方法使用人工特征:HOG、光流、关节角度、统计量(均值、方差、频谱),分类器:SVM、HMM、决策树,流程割裂:特征工程 + 分类器训练两步走

深度学习方法使用端到端:CNN/LSTM/Transformer 从原始 IMU 或视频中自动学习时空特征,统一网络:可同时完成特征提取 + 分类/回归,一体化:端到端可微,直接优化目标任务

相对传统方法的优势

传统方法特征手工设计,需领域知识,对光照/遮挡/个体差异敏感,新增类别需重设计特征,多模态需人工对齐

深度学习特征网络自动学习,跨数据集泛化,数据驱动,鲁棒提升,微调即可适应新类别,Transformer/注意力自动融合IMU+视觉+深度

运动重建:如Deep Inertial Poser(6个IMU重建全身姿态);

活动识别:如LSTM识别走路、上楼、坐下等;

医疗/体育:帕金森检测、运动员训练分析;

运动重建

(Motion Reconstruction)

目标为从1–6个IMU或视频中恢复全身3D姿态、关节角时序网络(LSTM/TCN)+ 物理约束(骨长、关节限制)→ 3D 关节点

  • Deep Inertial Poser 模型,输入6-IMU,Bi-LSTM + 骨骼约束
  • TransPose 模型,输入6-IMU,实时 LSTM​ + 姿态回归
  • PIP 模型,输入6-IMU,物理优化器 + 神经网络

活动识别

(Activity Recognition)

目标是基于IMU或视频识别“走路、跑步、坐下、跌倒”等类别滑动窗口 → CNN/LSTM 提取时空特征 → Softmax 分类

医疗/体育应用

(Medical、Sports)

目标为疾病筛查(帕金森、迭代风险)、运动表现评估,利用运动特征 → 医学标签 / 运动指标 回归

  • ParkNet模型,帕金森早期筛查场景,1D-CNN + 多任务学习
  • SportNet模型,跑步姿态评分场景,CNN+LSTM 回归关节角

扩展IMU在非定位任务中的应用

总结:IMU+深度学习在非定位任务中也表现出色,形成闭环生态。

数据集与评估

(Datasets, Evaluation)

提供统一基准与对比

公开数据集汇总(名称、环境、传感器、链接):KITTI、EuRoC、OxIOD、RONIN、SIMD;

数据集汇总

数据集年份环境传感器 & 采样率真值规模 / 链接
KITTI Odometry2013室外道路车载 IMU 100 Hz + GPS/相机/激光RTK-GNSS 10 cm22 序列 / 39.2 km 官方
EuRoC MAV2016室内机库MAV IMU 200 Hz + 双目 20 HzVicon 1 mm11 轨迹 / 0.9 km 官方
Oxford RobotCar2016城市街道车载 IMU 50 Hz + 全景/激光/雷达RTK-GNSS1010 km 大规模 官方
TUM VI2018室内/室外手持 IMU 200 Hz + 双目 20 HzVicon 1 mm28 序列 / 20 km 官方
OxIOD2018室内走廊手机 IMU 100 Hz (多种佩戴方式)MoCap 0.5 mm158 序列 / 42.5 km GitHub
RONIN2019室内大厅手机 IMU 200 Hz (自然握持)AR 真值117 序列 GitHub
SIMD2023城市多场景手机 IMU 50 Hz + GPSRTK-GNSS 10 cm4562 轨迹 / 717 km GitHub

评估指标

指标全称定义用途
ATEAbsolute Trajectory Error整条轨迹的 RMSE 均值衡量全局漂移
RTERelative Trajectory Error固定时间窗 (e.g., 1 s/5 s) 内的 RMSE 均值衡量局部精度
Acc / F1Accuracy / F1-score分类或活动识别任务衡量识别正确率

实验对比:经典vs深度方法

给出 OxIODRONIN 两个行人基准上的定量结果(单位:米)。

方法OxIOD ATE↓OxIOD RTE↓RONIN ATE↓RONIN RTE↓
传统 PDR3.473.2434.8123.62
传统 SINS9119.50247.5312398.0059.85
IONet (LSTM)5.952.8422.527.63
RoNIN (LSTM+TCN)1.950.424.731.21
TinyOdom (TCN+NAS)2.801.2627.365.84

RoNIN 在两个数据集上均取得 最低 ATE/RTE

深度方法 显著优于 传统 PDR/SINS,漂移从 数十米降至亚米级

实验对比:RoNIN > IONet > TinyOdom > PDR > SINS;

总结:目前缺乏统一基准,未来需构建跨平台、跨场景的大规模数据集。

结论与未来方向

(Conclusions, Discussions)

总结贡献+展望未来

深度学习带来的三大好处:

  1. 非线性建模能力强:可建模复杂误差;
  2. 参数自学习:无需人工调参;
  3. 跨域自适应性:支持迁移学习、自监督学习。

面临的六大挑战:

  1. 泛化性差;
  2. 黑盒不可解释;
  3. 部署资源受限;
  4. 缺乏统一数据基准;
  5. 失败案例缺乏物理约束;
  6. 新平台/新传感器适配难。

未来研究方向:

  • 统一数据集与基准;
  • 轻量化部署(NAS、知识蒸馏);
  • 可解释性(贝叶斯NN、不确定性估计);
  • 混合模型(物理+学习);
  • 新兴模型(Transformer、Diffusion、GAN);
  • 终身学习与自监督学习。