论文名称:Deep Learning for Inertial Positioning: A Survey
开源项目地址:综述文章,无开源项目
期刊:IEEE transactions on intelligent transportation systems
时间:2024
主要工作
IMU 广泛应用于手机、无人机、车辆、AR/VR 等,低成本 IMU 存在漂移问题,传统方法难以解决
首次系统梳理深度学习在惯性定位中的应用(覆盖2018-2022年),包括:
- 传感器级-传感器校准(IMU 误差建模与补偿)
- 算法级-惯性导航算法(如 PDR、ZUPT、SINS 等)
- 应用级-多传感器融合(如IMU+视觉、IMU+GNSS、IMU+LiDAR 等)
经典惯性导航机制回顾
(Classical INS)
IMU 误差模型详解
IMU 误差通常包含 bias、噪声、温漂等
- 偏置误差bias表示传感器输出中存在一个固定偏移,即使静止也不为零,比如陀螺仪静止时输出0.1°/s。可标定,属于确定性误差,可建模补偿
- 随机噪声noise表示传感器输出中存在高频随机波动,服从高斯分布,比如加速度计输出抖动±0.05 m/s²。可建模,随机误差,需滤波
- 温漂误差temp drift表示传感器输出随温度变化而变化,比如温度身高 1℃,陀螺仪偏置变化 0.01°/s。可建模,时变+确定性误差,需温度补偿
bias 是“偏移”,noise 是“抖动”,temp drift 是“随温度变化”,三者都属于IMU的误差来源
传统 SINS
(strapdown INS)
SINS(Strapdown Inertial Navigation System)是一种将 IMU 直接固定在载体上的惯性导航系统,无需机械平台,通过数学旋转实现导航坐标系对齐。
SINS 算法流程:角速度→姿态→加速度→速度→位置;
(1)角速度积分。输入陀螺仪角速度 ω,积分得姿态变化,使用Rodriguez公式或四元数更新姿态,输出姿态角(roll, pitch, yaw)
(2)坐标转换。输入为加速度计输出 a,将加速度从机体坐标系转到导航坐标系,a_{nav} = R * a_{body},其中R为姿态矩阵
(3)重力补偿。输入为 a_{nav},减去重力加速度 g,a_{net} = a_{nav} - g,其中 g 为当地重力矢量
(4)一次积分。输入 a_{net},积分得速度,速度更新,v(t) = v(t-1) + a_{net} * Δt
(5)二次积分。输出 v(t),积分得位置,位置更新,p(t) = p(t-1) + v(t) * Δt
误差会随时间二次积累,导致漂移
行人场景下的两类经典方法
PDR
(行人航位推算)
步频+步长+方向;
- 步频检测原理为检测每一步的峰值,使用加速度峰值检测、零交叉法,每步一次触发
- 补偿估计原理为根据步频+身高估计步长,Weinberg 公式:L = k * √(a_{max} - a_{min}),其中k为经验系数
- 方向估计原理为用陀螺仪积分得航向角,积分角速度,需初始方向
- 位置更新原理为每步更新一次位置,p_k = p_{k-1} + L * [cosθ, sinθ],θ 为当前方向
避免加速度二次积分,漂移为线性增长
依赖步频检测准确性,不能用于非行人场景
ZUPT
(零速更新)
利用脚部静止阶段修正漂移;
- 零速检测,检测脚部静止阶段,使用加速度方差+陀螺仪能量阈值,静止时速度为0
- 卡尔曼滤波将零速作为观测值,扩展卡尔曼滤波(EKF),修正速度误差
- 状态更新,每步一次修正,更新速度、姿态、位置,抑制漂移
在行人行走中非常有效,漂移可控制在几米内
需将 IMU 绑在脚上,不适用手持设备
多传感器融合方法、原理与模型
多传感器融合:IMU+视觉、IMU+GNSS、IMU+LiDAR 等;
IMU+视觉(VIO:Visual-Inertial Odometry)
-
VINS-Mono,原理为紧耦合视觉-惯性 SLAM,滑动窗口优化模型
-
ORB-SLAM3,支持单目/双目/IMU,图优化模型
-
VINet,端到端 CNN+LSTM,深度学习VIO模型
IMU+GNSS(全球导航卫星系统)
-
紧耦合 INS/GNSS,用GNSS速度/位置修正 IMU 漂移,EKF、UKF、CKF 模型
-
深度KF,用NN预测KF参数,LSTM+KF
IMU + LiDAR(LIO: LiDAR-Inertial Odometry)
-
FAST-LIO2 方法,紧耦合 LiDaR-IMU,EKF+点云匹配模型
-
LIO-SAM 方法,图优化 LIO,GTSAM 优化模型
IMU+UWB
(超宽带)
Mag-IMU 融合,用磁场修正航向角,互补滤波/EKF模型
传统方法依赖物理模型,难以适应复杂环境,需引入学习机制。
学习式 IMU 校准
(Learning to Calibrate IMU)
目标:用深度学习建模并消除IMU误差(bias、噪声、漂移) ;
学习式IMU校准的原理
- 传统标定基于物理模型(Allan 方差、六面体标定、温漂建模);学习式标定基于数据驱动,用深度网络直接学习误差映射
- 传统标定需要人工设计参数、标定过程复杂;学习式端到端训练,自动学习误差分布
- 传统标定对传感器型号,安装方式敏感;学习式标定可迁移、可微调,适应不同设备
- 传统标定难以建模高阶、耦合误差;学习式标定深度网络可逼近任意非线性映射
把 IMU 原始数据当成输入,把高精度 IMU 或 GT 姿态当成监督标签,训练一个神经网络,使其输出的”校准后数据“接近真实值
- 传统校准使用线性/低阶模型,学习式校准使用非线性、耦合误差建模
- 传统校准使用人工设计+实验标定,学习式校准使用端到端训练,无需人工干预
- 传统校准传感器/温度/安装一变就失效,学习式校准可迁移学习、微调、在线更新
学习式 IMU 校准的三类方法
直接回归校准值
(如 Calib-Net、OriNet)
输入原始IMU数据,网络直接输出去噪后的角速度/加速度
监督信号为高精度 IMU 或GP速度/加速度
代表模型
-
Calib-Net模型,Dilated CNN网络结构,使用陀螺仪
-
OriNet模型,LSTM网络结构,使用陀螺仪
间接校准
(Indirect Calibration)
网络输出“高精度姿态/速度/位移”,通过损失函数反向传播,隐式完成IMU校准
监督信号:GT姿态(Vicon、MoCap、GNSS-RTK)
-
RIDI模型,CNN+SVR 网络结构,预测速度 → 修正加速度
- 论文 (没找到论文)
-
RoNIN 模型,LSTM+TCN 网络结构,预测速度 → 隐式校准
参数优化式校准
(Parameter Optimization)
用强化学习(RL)或元学习,让网络输出“最优校准参数” ,再送入传统KF或优化器中
监督信号:定位误差/姿态误差作为奖励
- Learning to Calibrate 模型,使用 DQN+EKF 方法,任务为输出校准参数
小结
三种方法的输入均为 raw IMU
直接回归输出校准 IMU,监督信号为高精度 IMU。简洁、可解释,但需高精度参考
间接校准输出姿态/速度,监督信号为 GT 姿态。无需显式建模,但需 GT 姿态
参数优化输出校准参数,监督信号为误差奖励。可与传统KF耦合,但训练复杂
目标:用深度学习建模并消除IMU误差(bias、噪声、漂移);
总结:深度学习方法优于传统Allan方差法,但模型泛化性仍待提升。
学习式 IMU 积分修正
(Learning to Correct IMU Integration)
学习式 IMU 积分修正的原理
- 传统 SINS 利用牛顿运动学二次积分。
输入为原始 IMU(a, ω),输出为姿态、速度、位置,无监督(纯物理),零漂移假设下无偏
(1)传统积分误差二次积累,几秒即漂几十米
(2)需要手动建模(ZUPT、PDR)
(3)对传感器位置/用户/环境敏感
(4)只适用于特定场景(行人脚绑 ZUPT)
- 学习式积分修正用深度学习从 IMU 序列直接估计速度、位移或误差。
输入为原始 IMU 序列(窗口/序列),速度 / 位移 / 误差 → 修正积分或作为观测,监督为GT轨迹(Vicon、RTK、SLAM) ,数据驱动,可抑制非线性漂移、环境耦合误差
(1)漂移被速度约束或位移约束抑制,误差线性甚至亚线性
(2)端到端学习运动模型,无需人工阈值
(3)可通过迁移学习/域适应泛化到新设备、新用户
(4)行人、手持、车载、无人机、机器人全平台适用
- 学习目标
把二次积分造成的无界漂移变成数据驱动的有界误差
(1)速度约束:网络输出速度 v̂ → 代替二次积分,比如 RoNIN, RIDI
(2)位移约束:网络输出 Δp̂ → 累加得轨迹,比如 IONet, TLIO
(3)误差补偿:网络输出 Δe → 修正积分结果,比如 Deep-VIO 中的 IMU 残差分支
三种方法原理与代表模型
三类方法:
-
学习位移(Displacement)→ 累加得轨迹
如IONet,论文arxiv.org/abs/1802.02…;
-
学习速度→ 修正加速度→ 积分得位置(如RIDI、RoNIN);
-
学习速度→ 作为 KF 观测输入
如 TLIO,论文arxiv.org/abs/2007.01…;
学习位移
(Learn Displacement)
从 IMU 窗口直接回归相对位移 Δp,输入为原始 a, ω 序列,输出为 Δp̂,累加得轨迹,避免二次积分
-
IONet 模型,LSTM 网络,适用于行人、手推车
-
L-IONet 模型,Dilated CNN 网络,适用于行人
-
TLIO 模型,CNN+EKF 网络,适用于行人
学习速度 + 积分修正
(Learn Velocity)
网络输出速度 v̂,再积分一次即可得位置,输入 a, ω 序列,输出 v̂,一次积分,漂移线性化
- RIDI模型,CNN+SVR 网络,适用于行人
- RoNIN模型,LSTM+TCN 网络,使用于行人
- AbolDeepIO 模型,三通道 LSTM,使用于无人机
这里搜AbolDeepIO又找到一篇综述arxiv.org/html/2307.0…
学习观测 → 滤波更新
(Learn Observation for Filter)
网络输出 速度/零速概率 → 作为 EKF 观测,输入 a, ω 序列,输出 v̂ 或 zv-flag,减少滤波器漂移
目标:用深度学习替代或增强传统积分模块,抑制漂移。
总结:学习式方法在短期轨迹估计中优于传统PDR,但仍需姿态初始化。
学习式多传感器融合
(Learning Sensor Fusion),多模态定位
传统融合基于物理模型+手工规则(EKF、UKF、因子图),需要精确的传感器噪声模型、外参、时标对齐,新增传感器需重写模型、调参,在极端环境(光照、GNSS 遮挡)易失效
学习式融合基于深度神经网络,端到端学习传感器 → 位姿的映射,网络自动学习噪声模型、权重分配、同步策略,同一框架可插拔新传感器,仅需微调,通过大规模数据训练,可提升鲁棒性与泛化性
传统方法相比的核心优势
传统方法使用线性假设+高斯噪声建模,使用人工设计(角点、曲率)建模特征,固定权重融合,单点失效敏感,需要专家调整
学习式方法使用任意非线性、残差分布建模,CNN/LSTM/Transformer 自动提取特征,注意力/门控网络动态权重进行融合,多模态冗余,单传感器失效仍可工作,训练一次,多场景复用
学习式多传感器融合的模型
视觉-惯性融合(VIO):
-
VINet(CNN+LSTM)
-
Selective Fusion(Attention机制)
-
SelfVIO(自监督GAN)
非视觉融合:
-
DeepTIO(热成像+IMU)
-
MilliEgo(毫米波雷达+IMU)
GNSS-惯性融合:
-
Deep KF(用NN建模KF参数)
-
SL-SRCKF(LSTM辅助KF)
视觉-惯性融合
(Learning-based VIO)
CNN 提取图像特征,LSTM/TCN 提取 IMU 序列特征 → 注意力/拼接 → 直接输出 6-DoF 位姿
对光照、纹理缺失、运动模糊更鲁棒;端到端可微
-
VINet 模型,CNN+LSTM 网络,首个端到端 VIO
-
SelectFusion 模型,CNN+LSTM+Attention 网络,软/硬选择融合
-
SelfVIO 模型,CNN+LSTM+GAN 网络,无监督,光度误差监督
-
VIOLearner 模型,CNN+LSTM 网络,自监督新视图合成
非视觉融合
(LiDAR/毫米波/热成像 + IMU)
非视觉传感器提供几何/深度/热辐射信息 → CNN/PointNet 提特征 → 与 IMU 时序特征融合
弥补视觉在烟雾、强光、黑夜中的失效;实现全天候定位
-
DeepTIO 模型,热像+IMU,CNN+LSTM+Attention网络
-
MilliEgo模型,mmWave+IMU,CNN+LSTM+Attention网络
-
UndeepLIO模型,LiDAR+IMU,CNN+无监督
GNSS-惯性融合
(Learning-based GNSS/INS)
将 GNSS 伪距/多普勒/位置与 IMU 预积分误差 → 深度网络学习 KF 增益/噪声协方差/残差
GNSS 受遮挡时仍用 IMU 维持精度;网络可在线更新噪声模型
-
DeepKF-GNSS模型,LSTM预测KF增益,GNSS/INS 紧耦合
-
SL-SRCKF模型,LSTM 观测向量,GNSS 中断补偿
-
TCN-KF模型,TCN 预测噪声协方差,KF 参数自学习
总结:深度学习可提升融合鲁棒性,尤其在传感器失效或恶劣环境下。
行人惯性定位
(Pedestrian Inertial Positioning)
传感器使用低成本 MEMS、IMU(手机、手表、鞋垫),仅用 IMU 即可连续估计行人 3D/2D 轨迹
利用行人行走时的 步态周期性 与 肢体运动学约束,将 IMU 误差从“二次积分爆炸”降维到“线性漂移”
传统方法瓶颈
-
SINS 直接积分 a→v→p,漂移量级 几秒→数十米,关键缺陷为二次漂移
-
传统 PDR 通过 步频+Weinberg步长+积分航向,漂移量级 5–10 min → 30 m,关键缺陷阈值检测、步长模型不准
-
传统 ZUPT 脚部静止时速度=0 → EKF 修正,漂移量级 10 min → 几十米,必须绑脚,手持/口袋失效
- 论文
行人惯性定位新动态: 基于神经网络的方法、性能与展望
- 论文
深度学习的优势
端到端映射,从原始 IMU 序列直接学到位移/速度/零速概率,无需手工阈值
鲁棒特征,网络自动学习 跨用户、跨设备、跨运动模式的鲁棒表征
误差抑制漂移从“线性”降到“亚线性” ,手持设备 60 s 误差 < 3 m
- 论文
Invariant Extended Kalman Filtering for Pedestrian Deep-Inertial Odometry
行人场景下的细粒度方法
-
深度PDR:
-
StepNet:学习步长;
-
PDRNet:学习步长+方向;
论文ieeexplore.ieee.org/document/93…(这篇下不了)
-
ARPDR:鲁棒步频+步向;
论文ieeexplore.ieee.org/document/93…(这篇也下不了)
-
-
深度ZUPT:
-
LSTM/ CNN 分类静止状态;
-
优于传统阈值法;
找到篇ZUPT相关的论文arxiv.org/abs/2507.09…
-
深度PDR
传统PDR步频检测为固定阈值/峰值,Weinberg经验式步长估计,积分陀螺+磁力计矫正航向估计,位置更新为手工累加
深度PDR步频检测为 CNN/LSTM 分类,网络回归步长估计,网络直接回归或融合多模态航向估计,位置更新网络输出 Δp̂
总结:深度学习方法可适应不同设备姿态、用户行为,提升定位鲁棒性。
- PDRNet模型,ResNet 回归步长+航向
- StepNet模型,CNN+LSTM动态步长
- ARPDR模型,注意力PDR+ 鲁棒航向
- Deep PDR (VR/AR),iPhone 端到端速度统计
深度ZUPT
(Deep ZUPT)
传统ZUPT零速检测使用 加速度方差+角速度能量阈值,手工设置观测噪声,必须绑脚
深度ZUPT零速检测使用 LSTM/CNN 分类静止/运动,滤波更新使用网络输出零速概率+自适应噪声,手持、口袋、背包皆可
-
Deep ZUPT模型,LSTM 零速检测 + EKF
-
AZUPT模型,CNN 自适应零速检测
论文ieeexplore.ieee.org/document/90…(这篇下载不了)
-
TLIO模型,CNN 位移+零速观测
-
StepNet-Z模型,多任务:步长+零速
总结:深度学习方法可适应不同设备姿态、用户行为,提升定位鲁棒性。
车辆/无人机/机器人惯性定位
(Vehicle/UAV/Robot)
传统方法的原理瓶颈
车辆平台传统原理为IMU+轮速计 → DR,GNSS 失效后纯惯性,漂移量级 1 min → 数十米,关键瓶颈为 轮胎打滑、IMU 温漂、非完整约束失效
无人机平台传统原理为IMU → 姿态 → 加速度 → 速度 → 位置,漂移量级 30 s → 数米,关键瓶颈为 高动态、振动耦合、磁场干扰
机器人平台传统原理为IMU + 关节编码器 → 腿里程计,漂移量级 1 min → 数米,关键瓶颈为 滑移、关节柔性、地面不平
深度学习的优势
传统方法线性运动学 + 经验约束建模,对滑移、振动、温漂敏感,部署需额外传感器(轮速、关节角)
深度方法端到端学习速度/位移/误差,直接抑制漂移,大规模数据训练,跨场景泛化,仅用IMU即可达到米级精度,适合GNSS拒止环境
拓展至非行人平台
无人机:AbolDeepIO(三通道LSTM),车辆:OdoNet(学习车速+ZUPT),机器人:Buchanan等(IMU+腿部里程计),轻量化部署:TinyOdom(TCN+NAS)
深度PDR在非行人平台的拓展
PDR 概念被泛化为“周期性运动约束下的位移学习”,车辆/机器人/无人机均存在周期性振动/步态
- AbolDeepIO模型,无人机平台,三通道 LSTM 输出极坐标位移
- RINS-W模型,车辆平台,CNN 输出零速概率 → EKF 观测
- TinyOdom模型,多平台,TCN+NAS 轻量级位移回归
- Legged-IO模型,四足机器人平台,CNN+LSTM融合关节编码与 IMU
深度ZUPT在非行人平台的扩展
ZUPT 概念被泛化为“零运动检测”
车辆:红绿灯/堵车静止,无人机:悬停/降落静止,机器人:站立静止
- RINS-W模型,车辆平台,CNN 分类静止 vs 运动 → EKF
- OdoNet模型,车辆平台,轻量 CNN 零速 + 车速回归
- Leg ZUPT模型,四足机器人平台,TCN 零速检测 → 腿里程计修正
总结:不同平台共享“从IMU学习速度”这一思想,但需考虑部署资源限制。
IMU融合定位应用
(IMU-Integrated Positioning Applications)
实际部署与系统级视角
车辆:GNSS/IMU紧耦合系统,用于隧道、城市峡谷;
机器人:视觉-惯性融合,应对光照变化、遮挡;
行人:视觉-惯性+地图匹配,提升室内定位;
IMU融合定位基本原理
传统框架 松耦合:各传感器独立解算 → 高层 EKF/UKF 融合,手工建模:噪声协方差、外参、时标需人工整定,失效敏感:单传感器退化 → 系统崩溃
学习式框架 紧耦合:原始数据或低层特征 → 深度网络直接输出位姿,数据驱动:网络自动学习噪声、权重、同步策略,鲁棒冗余:注意力/门控机制自适应降权失效通道
与传统方法相比的核心优势
传统方法人工设计(角点、曲率)进行特征提取,融合策略固定权重,传感器一变就得重写卡尔曼,(极端场景)视觉失效、GNSS 丢失 → 漂移
学习式 CNN/LSTM/Transformer 自动提取特征,注意力/门控动态权重,端到端微调即可适应新传感器,多模态冗余,仍保持米级精度
车辆方向
(Vehicle)
-
GNSS/IMU 紧耦合场景,双LSTM分别预测 INS 漂移 & 滤波误差
- 代表模型 Dual-NN-KF
-
道路振动指纹场景,CNN 识别路面微特征 → 位置匹配
- 代表模型 Road-IMU
-
车辆零速更新场景,CNN 零速检测 + EKF
- 代表模型 RINS-W
机器人方向
(Robot)
-
激光+IMU深度学习场景,CNN 提取激光特征 + LSTM 融合 IMU
- 代表模型 Fusion-Net
-
超声+IMU EKF,EKF 融合超声测距与 IMU 航位推算
- 代表模型 EKF-US-IMU
-
视觉+IMU+WiFi 多模态,改进 EKF 融合 LiDAR、深度相机、IMU、WiFi
- 代表模型 Multi-Fusion-EKF
行人方向
(Pedestrian)
-
视觉-惯性 端到端场景,CNN+LSTM 直接输出位姿
- 代表模型 VINet
-
视觉-惯性 注意力选择场景,软/硬注意力决定 IMU/视觉权重
- 代表模型 SelectFusion
-
自监督 VIO 场景,无 GT,光度误差监督
- 代表模型 SelfVIO
总结:融合系统更鲁棒,但计算资源需求更高,需模型压缩与部署优化。
人类运动分析与活动识别
(Motion Analysis, HAR)
原理:从“手工特征”到“端到端时空学习”
传统方法使用人工特征:HOG、光流、关节角度、统计量(均值、方差、频谱),分类器:SVM、HMM、决策树,流程割裂:特征工程 + 分类器训练两步走
深度学习方法使用端到端:CNN/LSTM/Transformer 从原始 IMU 或视频中自动学习时空特征,统一网络:可同时完成特征提取 + 分类/回归,一体化:端到端可微,直接优化目标任务
相对传统方法的优势
传统方法特征手工设计,需领域知识,对光照/遮挡/个体差异敏感,新增类别需重设计特征,多模态需人工对齐
深度学习特征网络自动学习,跨数据集泛化,数据驱动,鲁棒提升,微调即可适应新类别,Transformer/注意力自动融合IMU+视觉+深度
运动重建:如Deep Inertial Poser(6个IMU重建全身姿态);
活动识别:如LSTM识别走路、上楼、坐下等;
医疗/体育:帕金森检测、运动员训练分析;
运动重建
(Motion Reconstruction)
目标为从1–6个IMU或视频中恢复全身3D姿态、关节角,时序网络(LSTM/TCN)+ 物理约束(骨长、关节限制)→ 3D 关节点
- Deep Inertial Poser 模型,输入6-IMU,Bi-LSTM + 骨骼约束
- TransPose 模型,输入6-IMU,实时 LSTM + 姿态回归
- PIP 模型,输入6-IMU,物理优化器 + 神经网络
活动识别
(Activity Recognition)
目标是基于IMU或视频识别“走路、跑步、坐下、跌倒”等类别,滑动窗口 → CNN/LSTM 提取时空特征 → Softmax 分类
-
DeepConvLSTM模型,输入3轴 a/ω,CNN+LSTM 端到端
-
AttnSense模型,输入多模态IMU,注意力融合
-
HAR-CNN模型,输入手机IMU,轻量级CNN
医疗/体育应用
(Medical、Sports)
目标为疾病筛查(帕金森、迭代风险)、运动表现评估,利用运动特征 → 医学标签 / 运动指标 回归
- ParkNet模型,帕金森早期筛查场景,1D-CNN + 多任务学习
- SportNet模型,跑步姿态评分场景,CNN+LSTM 回归关节角
扩展IMU在非定位任务中的应用
总结:IMU+深度学习在非定位任务中也表现出色,形成闭环生态。
数据集与评估
(Datasets, Evaluation)
提供统一基准与对比
公开数据集汇总(名称、环境、传感器、链接):KITTI、EuRoC、OxIOD、RONIN、SIMD;
数据集汇总
| 数据集 | 年份 | 环境 | 传感器 & 采样率 | 真值 | 规模 / 链接 |
|---|---|---|---|---|---|
| KITTI Odometry | 2013 | 室外道路 | 车载 IMU 100 Hz + GPS/相机/激光 | RTK-GNSS 10 cm | 22 序列 / 39.2 km 官方 |
| EuRoC MAV | 2016 | 室内机库 | MAV IMU 200 Hz + 双目 20 Hz | Vicon 1 mm | 11 轨迹 / 0.9 km 官方 |
| Oxford RobotCar | 2016 | 城市街道 | 车载 IMU 50 Hz + 全景/激光/雷达 | RTK-GNSS | 1010 km 大规模 官方 |
| TUM VI | 2018 | 室内/室外 | 手持 IMU 200 Hz + 双目 20 Hz | Vicon 1 mm | 28 序列 / 20 km 官方 |
| OxIOD | 2018 | 室内走廊 | 手机 IMU 100 Hz (多种佩戴方式) | MoCap 0.5 mm | 158 序列 / 42.5 km GitHub |
| RONIN | 2019 | 室内大厅 | 手机 IMU 200 Hz (自然握持) | AR 真值 | 117 序列 GitHub |
| SIMD | 2023 | 城市多场景 | 手机 IMU 50 Hz + GPS | RTK-GNSS 10 cm | 4562 轨迹 / 717 km GitHub |
评估指标
| 指标 | 全称 | 定义 | 用途 |
|---|---|---|---|
| ATE | Absolute Trajectory Error | 整条轨迹的 RMSE 均值 | 衡量全局漂移 |
| RTE | Relative Trajectory Error | 固定时间窗 (e.g., 1 s/5 s) 内的 RMSE 均值 | 衡量局部精度 |
| Acc / F1 | Accuracy / F1-score | 分类或活动识别任务 | 衡量识别正确率 |
实验对比:经典vs深度方法
给出 OxIOD 与 RONIN 两个行人基准上的定量结果(单位:米)。
| 方法 | OxIOD ATE↓ | OxIOD RTE↓ | RONIN ATE↓ | RONIN RTE↓ |
|---|---|---|---|---|
| 传统 PDR | 3.47 | 3.24 | 34.81 | 23.62 |
| 传统 SINS | 9119.50 | 247.53 | 12398.00 | 59.85 |
| IONet (LSTM) | 5.95 | 2.84 | 22.52 | 7.63 |
| RoNIN (LSTM+TCN) | 1.95 | 0.42 | 4.73 | 1.21 |
| TinyOdom (TCN+NAS) | 2.80 | 1.26 | 27.36 | 5.84 |
RoNIN 在两个数据集上均取得 最低 ATE/RTE;
深度方法 显著优于 传统 PDR/SINS,漂移从 数十米降至亚米级。
实验对比:RoNIN > IONet > TinyOdom > PDR > SINS;
总结:目前缺乏统一基准,未来需构建跨平台、跨场景的大规模数据集。
结论与未来方向
(Conclusions, Discussions)
总结贡献+展望未来
深度学习带来的三大好处:
- 非线性建模能力强:可建模复杂误差;
- 参数自学习:无需人工调参;
- 跨域自适应性:支持迁移学习、自监督学习。
面临的六大挑战:
- 泛化性差;
- 黑盒不可解释;
- 部署资源受限;
- 缺乏统一数据基准;
- 失败案例缺乏物理约束;
- 新平台/新传感器适配难。
未来研究方向:
- 统一数据集与基准;
- 轻量化部署(NAS、知识蒸馏);
- 可解释性(贝叶斯NN、不确定性估计);
- 混合模型(物理+学习);
- 新兴模型(Transformer、Diffusion、GAN);
- 终身学习与自监督学习。