【论文导读】Deep Learning for Inertial Positioning: A Survey这篇论文是I

论文名称：Deep Learning for Inertial Positioning: A Survey

开源项目地址：综述文章，无开源项目

期刊：IEEE transactions on intelligent transportation systems

时间：2024

主要工作

IMU 广泛应用于手机、无人机、车辆、AR/VR 等，低成本 IMU 存在漂移问题，传统方法难以解决

首次系统梳理深度学习在惯性定位中的应用（覆盖2018-2022年），包括：

传感器级-传感器校准（IMU 误差建模与补偿）
算法级-惯性导航算法（如 PDR、ZUPT、SINS 等）
应用级-多传感器融合（如IMU+视觉、IMU+GNSS、IMU+LiDAR 等）

经典惯性导航机制回顾

（Classical INS）

IMU 误差模型详解

IMU 误差通常包含 bias、噪声、温漂等

偏置误差bias表示传感器输出中存在一个固定偏移，即使静止也不为零，比如陀螺仪静止时输出0.1°/s。可标定，属于确定性误差，可建模补偿
随机噪声noise表示传感器输出中存在高频随机波动，服从高斯分布，比如加速度计输出抖动±0.05 m/s²。可建模，随机误差，需滤波
温漂误差temp drift表示传感器输出随温度变化而变化，比如温度身高 1℃，陀螺仪偏置变化 0.01°/s。可建模，时变+确定性误差，需温度补偿

bias 是“偏移”，noise 是“抖动”，temp drift 是“随温度变化”，三者都属于IMU的误差来源

传统 SINS

（strapdown INS）

SINS（Strapdown Inertial Navigation System）是一种将 IMU 直接固定在载体上的惯性导航系统，无需机械平台，通过数学旋转实现导航坐标系对齐。

SINS 算法流程：角速度→姿态→加速度→速度→位置；

（1）角速度积分。输入陀螺仪角速度 ω，积分得姿态变化，使用Rodriguez公式或四元数更新姿态，输出姿态角（roll, pitch, yaw）

（2）坐标转换。输入为加速度计输出 a，将加速度从机体坐标系转到导航坐标系，a_{nav} = R * a_{body}，其中R为姿态矩阵

（3）重力补偿。输入为 a_{nav}，减去重力加速度 g，a_{net} = a_{nav} - g，其中 g 为当地重力矢量

（4）一次积分。输入 a_{net}，积分得速度，速度更新，v(t) = v(t-1) + a_{net} * Δt

（5）二次积分。输出 v(t)，积分得位置，位置更新，p(t) = p(t-1) + v(t) * Δt

误差会随时间二次积累，导致漂移

行人场景下的两类经典方法

PDR

（行人航位推算）

步频+步长+方向；

步频检测原理为检测每一步的峰值，使用加速度峰值检测、零交叉法，每步一次触发
补偿估计原理为根据步频+身高估计步长，Weinberg 公式：L = k * √(a_{max} - a_{min})，其中k为经验系数
方向估计原理为用陀螺仪积分得航向角，积分角速度，需初始方向
位置更新原理为每步更新一次位置，p_k = p_{k-1} + L * [cosθ, sinθ]，θ 为当前方向

避免加速度二次积分，漂移为线性增长

依赖步频检测准确性，不能用于非行人场景

ZUPT

（零速更新）

利用脚部静止阶段修正漂移；

零速检测，检测脚部静止阶段，使用加速度方差+陀螺仪能量阈值，静止时速度为0
卡尔曼滤波将零速作为观测值，扩展卡尔曼滤波（EKF），修正速度误差
状态更新，每步一次修正，更新速度、姿态、位置，抑制漂移

在行人行走中非常有效，漂移可控制在几米内

需将 IMU 绑在脚上，不适用手持设备

多传感器融合方法、原理与模型

多传感器融合：IMU+视觉、IMU+GNSS、IMU+LiDAR 等；

IMU+视觉（VIO：Visual-Inertial Odometry）

VINS-Mono，原理为紧耦合视觉-惯性 SLAM，滑动窗口优化模型
- 论文arxiv.org/abs/1708.03…
- 项目github.com/HKUST-Aeria…
ORB-SLAM3，支持单目/双目/IMU，图优化模型
- 论文arxiv.org/abs/2007.11…
- 项目github.com/UZ-SLAMLab/…
VINet，端到端 CNN+LSTM，深度学习VIO模型
- 论文arxiv.org/abs/1701.08…
- 项目github.com/HTLife/VINe…

IMU+GNSS（全球导航卫星系统）

紧耦合 INS/GNSS，用GNSS速度/位置修正 IMU 漂移，EKF、UKF、CKF 模型
深度KF，用NN预测KF参数，LSTM+KF
- 论文ieeexplore.ieee.org/document/90…

IMU + LiDAR（LIO: LiDAR-Inertial Odometry）

FAST-LIO2 方法，紧耦合 LiDaR-IMU，EKF+点云匹配模型
- 论文arxiv.org/abs/2010.08…
- 项目github.com/hku-mars/FA…
LIO-SAM 方法，图优化 LIO，GTSAM 优化模型
- 论文arxiv.org/abs/2007.00…
- 项目github.com/TixiaoShan/…

IMU+UWB

（超宽带）

Mag-IMU 融合，用磁场修正航向角，互补滤波/EKF模型

传统方法依赖物理模型，难以适应复杂环境，需引入学习机制。

学习式 IMU 校准

（Learning to Calibrate IMU）

目标：用深度学习建模并消除IMU误差（bias、噪声、漂移） ；

学习式IMU校准的原理

传统标定基于物理模型（Allan 方差、六面体标定、温漂建模）；学习式标定基于数据驱动，用深度网络直接学习误差映射
传统标定需要人工设计参数、标定过程复杂；学习式端到端训练，自动学习误差分布
传统标定对传感器型号，安装方式敏感；学习式标定可迁移、可微调，适应不同设备
传统标定难以建模高阶、耦合误差；学习式标定深度网络可逼近任意非线性映射

把 IMU 原始数据当成输入，把高精度 IMU 或 GT 姿态当成监督标签，训练一个神经网络，使其输出的”校准后数据“接近真实值

传统校准使用线性/低阶模型，学习式校准使用非线性、耦合误差建模
传统校准使用人工设计+实验标定，学习式校准使用端到端训练，无需人工干预
传统校准传感器/温度/安装一变就失效，学习式校准可迁移学习、微调、在线更新

学习式 IMU 校准的三类方法

直接回归校准值

（如 Calib-Net、OriNet）

输入原始IMU数据，网络直接输出去噪后的角速度/加速度

监督信号为高精度 IMU 或GP速度/加速度

代表模型

Calib-Net模型，Dilated CNN网络结构，使用陀螺仪
- 论文arxiv.org/abs/1803.08…
OriNet模型，LSTM网络结构，使用陀螺仪
- 论文ieeexplore.ieee.org/document/89…

间接校准

（Indirect Calibration）

网络输出“高精度姿态/速度/位移”，通过损失函数反向传播，隐式完成IMU校准

监督信号：GT姿态（Vicon、MoCap、GNSS-RTK）

RIDI模型，CNN+SVR 网络结构，预测速度 → 修正加速度
- 论文（没找到论文）
RoNIN 模型，LSTM+TCN 网络结构，预测速度 → 隐式校准
- 论文arxiv.org/abs/1905.12…
- 项目github.com/Sachini/ron…

参数优化式校准

（Parameter Optimization）

用强化学习（RL）或元学习，让网络输出“最优校准参数” ，再送入传统KF或优化器中

监督信号：定位误差/姿态误差作为奖励

Learning to Calibrate 模型，使用 DQN+EKF 方法，任务为输出校准参数

小结

三种方法的输入均为 raw IMU

直接回归输出校准 IMU，监督信号为高精度 IMU。简洁、可解释，但需高精度参考

间接校准输出姿态/速度，监督信号为 GT 姿态。无需显式建模，但需 GT 姿态

参数优化输出校准参数，监督信号为误差奖励。可与传统KF耦合，但训练复杂

目标：用深度学习建模并消除IMU误差（bias、噪声、漂移）；

总结：深度学习方法优于传统Allan方差法，但模型泛化性仍待提升。

学习式 IMU 积分修正

（Learning to Correct IMU Integration）

学习式 IMU 积分修正的原理

传统 SINS 利用牛顿运动学二次积分。

输入为原始 IMU(a, ω)，输出为姿态、速度、位置，无监督（纯物理），零漂移假设下无偏

（1）传统积分误差二次积累，几秒即漂几十米

（2）需要手动建模（ZUPT、PDR）

（3）对传感器位置/用户/环境敏感

（4）只适用于特定场景（行人脚绑 ZUPT）

学习式积分修正用深度学习从 IMU 序列直接估计速度、位移或误差。

输入为原始 IMU 序列（窗口/序列），速度 / 位移 / 误差 → 修正积分或作为观测，监督为GT轨迹（Vicon、RTK、SLAM） ，数据驱动，可抑制非线性漂移、环境耦合误差

（1）漂移被速度约束或位移约束抑制，误差线性甚至亚线性

（2）端到端学习运动模型，无需人工阈值

（3）可通过迁移学习/域适应泛化到新设备、新用户

（4）行人、手持、车载、无人机、机器人全平台适用

学习目标

把二次积分造成的无界漂移变成数据驱动的有界误差

（1）速度约束：网络输出速度 v̂ → 代替二次积分，比如 RoNIN, RIDI

（2）位移约束：网络输出 Δp̂ → 累加得轨迹，比如 IONet, TLIO

（3）误差补偿：网络输出 Δe → 修正积分结果，比如 Deep-VIO 中的 IMU 残差分支

三种方法原理与代表模型

三类方法：

学习位移（Displacement）→ 累加得轨迹

如IONet，论文arxiv.org/abs/1802.02…；
学习速度→ 修正加速度→ 积分得位置（如RIDI、RoNIN）；
学习速度→ 作为 KF 观测输入

如 TLIO，论文arxiv.org/abs/2007.01…；

学习位移

（Learn Displacement）

从 IMU 窗口直接回归相对位移 Δp，输入为原始 a, ω 序列，输出为 Δp̂，累加得轨迹，避免二次积分

IONet 模型，LSTM 网络，适用于行人、手推车
L-IONet 模型，Dilated CNN 网络，适用于行人
- 论文arxiv.org/abs/2001.04…
TLIO 模型，CNN+EKF 网络，适用于行人

学习速度 + 积分修正

（Learn Velocity）

网络输出速度 v̂，再积分一次即可得位置，输入 a, ω 序列，输出 v̂，一次积分，漂移线性化

RIDI模型，CNN+SVR 网络，适用于行人
RoNIN模型，LSTM+TCN 网络，使用于行人
AbolDeepIO 模型，三通道 LSTM，使用于无人机

这里搜AbolDeepIO又找到一篇综述arxiv.org/html/2307.0…

学习观测 → 滤波更新

（Learn Observation for Filter）

网络输出速度/零速概率 → 作为 EKF 观测，输入 a, ω 序列，输出 v̂ 或 zv-flag，减少滤波器漂移

目标：用深度学习替代或增强传统积分模块，抑制漂移。

总结：学习式方法在短期轨迹估计中优于传统PDR，但仍需姿态初始化。

学习式多传感器融合

（Learning Sensor Fusion），多模态定位

传统融合基于物理模型+手工规则（EKF、UKF、因子图），需要精确的传感器噪声模型、外参、时标对齐，新增传感器需重写模型、调参，在极端环境（光照、GNSS 遮挡）易失效

学习式融合基于深度神经网络，端到端学习传感器 → 位姿的映射，网络自动学习噪声模型、权重分配、同步策略，同一框架可插拔新传感器，仅需微调，通过大规模数据训练，可提升鲁棒性与泛化性

传统方法相比的核心优势

传统方法使用线性假设+高斯噪声建模，使用人工设计（角点、曲率）建模特征，固定权重融合，单点失效敏感，需要专家调整

学习式方法使用任意非线性、残差分布建模，CNN/LSTM/Transformer 自动提取特征，注意力/门控网络动态权重进行融合，多模态冗余，单传感器失效仍可工作，训练一次，多场景复用

学习式多传感器融合的模型

视觉-惯性融合（VIO）：

VINet（CNN+LSTM）
Selective Fusion（Attention机制）
- 论文arxiv.org/abs/2303.10…
SelfVIO（自监督GAN）
- 论文arxiv.org/abs/1811.04…

非视觉融合：

DeepTIO（热成像+IMU）
- 论文arxiv.org/abs/1909.07…
MilliEgo（毫米波雷达+IMU）
- 论文arxiv.org/abs/2006.02…

GNSS-惯性融合：

Deep KF（用NN建模KF参数）
- 论文arxiv.org/abs/1511.05…
SL-SRCKF（LSTM辅助KF）

视觉-惯性融合

（Learning-based VIO）

CNN 提取图像特征，LSTM/TCN 提取 IMU 序列特征 → 注意力/拼接 → 直接输出 6-DoF 位姿

对光照、纹理缺失、运动模糊更鲁棒；端到端可微

VINet 模型，CNN+LSTM 网络，首个端到端 VIO
- 论文arxiv.org/abs/1701.08…
SelectFusion 模型，CNN+LSTM+Attention 网络，软/硬选择融合
- 论文arxiv.org/abs/1912.13…
SelfVIO 模型，CNN+LSTM+GAN 网络，无监督，光度误差监督
- 论文arxiv.org/abs/2204.02…
VIOLearner 模型，CNN+LSTM 网络，自监督新视图合成
- 论文arxiv.org/abs/1803.05…

非视觉融合

（LiDAR/毫米波/热成像 + IMU）

非视觉传感器提供几何/深度/热辐射信息 → CNN/PointNet 提特征 → 与 IMU 时序特征融合

弥补视觉在烟雾、强光、黑夜中的失效；实现全天候定位

DeepTIO 模型，热像+IMU，CNN+LSTM+Attention网络
- 论文arxiv.org/abs/1909.07…
MilliEgo模型，mmWave+IMU，CNN+LSTM+Attention网络
- 论文arxiv.org/abs/2006.02…
UndeepLIO模型，LiDAR+IMU，CNN+无监督
- 论文arxiv.org/abs/2109.01…

GNSS-惯性融合

（Learning-based GNSS/INS）

将 GNSS 伪距/多普勒/位置与 IMU 预积分误差 → 深度网络学习 KF 增益/噪声协方差/残差

GNSS 受遮挡时仍用 IMU 维持精度；网络可在线更新噪声模型

DeepKF-GNSS模型，LSTM预测KF增益，GNSS/INS 紧耦合
- 论文www.mdpi.com/1424-8220/1…
SL-SRCKF模型，LSTM 观测向量，GNSS 中断补偿
- 论文ieeexplore.ieee.org/abstract/do…
TCN-KF模型，TCN 预测噪声协方差，KF 参数自学习
- 论文ieeexplore.ieee.org/document/90…

总结：深度学习可提升融合鲁棒性，尤其在传感器失效或恶劣环境下。

行人惯性定位

（Pedestrian Inertial Positioning）

传感器使用低成本 MEMS、IMU（手机、手表、鞋垫），仅用 IMU 即可连续估计行人 3D/2D 轨迹

利用行人行走时的 步态周期性 与 肢体运动学约束，将 IMU 误差从“二次积分爆炸”降维到“线性漂移”

传统方法瓶颈

SINS 直接积分 a→v→p，漂移量级几秒→数十米，关键缺陷为二次漂移
传统 PDR 通过步频+Weinberg步长+积分航向，漂移量级 5–10 min → 30 m，关键缺陷阈值检测、步长模型不准
- 论文www.aas.net.cn/cn/article/…
传统 ZUPT 脚部静止时速度=0 → EKF 修正，漂移量级 10 min → 几十米，必须绑脚，手持/口袋失效
- 论文 行人惯性定位新动态: 基于神经网络的方法、性能与展望

深度学习的优势

端到端映射，从原始 IMU 序列直接学到位移/速度/零速概率，无需手工阈值

鲁棒特征，网络自动学习跨用户、跨设备、跨运动模式的鲁棒表征

误差抑制漂移从“线性”降到“亚线性” ，手持设备 60 s 误差 < 3 m

论文 Invariant Extended Kalman Filtering for Pedestrian Deep-Inertial Odometry

行人场景下的细粒度方法

深度PDR：
- StepNet：学习步长；
  
  论文arxiv.org/abs/2212.12…
- PDRNet：学习步长+方向；
  
  论文ieeexplore.ieee.org/document/93…（这篇下不了）
- ARPDR：鲁棒步频+步向；
  
  论文ieeexplore.ieee.org/document/93…（这篇也下不了）
深度ZUPT：
- LSTM/ CNN 分类静止状态；
- 优于传统阈值法；
  
  找到篇ZUPT相关的论文arxiv.org/abs/2507.09…

深度PDR

传统PDR步频检测为固定阈值/峰值，Weinberg经验式步长估计，积分陀螺+磁力计矫正航向估计，位置更新为手工累加

深度PDR步频检测为 CNN/LSTM 分类，网络回归步长估计，网络直接回归或融合多模态航向估计，位置更新网络输出 Δp̂

总结：深度学习方法可适应不同设备姿态、用户行为，提升定位鲁棒性。

PDRNet模型，ResNet 回归步长+航向
StepNet模型，CNN+LSTM动态步长
ARPDR模型，注意力PDR+ 鲁棒航向
Deep PDR (VR/AR)，iPhone 端到端速度统计

深度ZUPT

（Deep ZUPT）

传统ZUPT零速检测使用加速度方差+角速度能量阈值，手工设置观测噪声，必须绑脚

深度ZUPT零速检测使用 LSTM/CNN 分类静止/运动，滤波更新使用网络输出零速概率+自适应噪声，手持、口袋、背包皆可

Deep ZUPT模型，LSTM 零速检测 + EKF
AZUPT模型，CNN 自适应零速检测

论文ieeexplore.ieee.org/document/90…（这篇下载不了）
TLIO模型，CNN 位移+零速观测
StepNet-Z模型，多任务：步长+零速

总结：深度学习方法可适应不同设备姿态、用户行为，提升定位鲁棒性。

车辆/无人机/机器人惯性定位

（Vehicle/UAV/Robot）

传统方法的原理瓶颈

车辆平台传统原理为IMU+轮速计 → DR，GNSS 失效后纯惯性，漂移量级 1 min → 数十米，关键瓶颈为轮胎打滑、IMU 温漂、非完整约束失效

无人机平台传统原理为IMU → 姿态 → 加速度 → 速度 → 位置，漂移量级 30 s → 数米，关键瓶颈为高动态、振动耦合、磁场干扰

机器人平台传统原理为IMU + 关节编码器 → 腿里程计，漂移量级 1 min → 数米，关键瓶颈为滑移、关节柔性、地面不平

深度学习的优势

传统方法线性运动学 + 经验约束建模，对滑移、振动、温漂敏感，部署需额外传感器（轮速、关节角）

深度方法端到端学习速度/位移/误差，直接抑制漂移，大规模数据训练，跨场景泛化，仅用IMU即可达到米级精度，适合GNSS拒止环境

拓展至非行人平台

无人机：AbolDeepIO（三通道LSTM），车辆：OdoNet（学习车速+ZUPT），机器人：Buchanan等（IMU+腿部里程计），轻量化部署：TinyOdom（TCN+NAS）

深度PDR在非行人平台的拓展

PDR 概念被泛化为“周期性运动约束下的位移学习”，车辆/机器人/无人机均存在周期性振动/步态

AbolDeepIO模型，无人机平台，三通道 LSTM 输出极坐标位移
RINS-W模型，车辆平台，CNN 输出零速概率 → EKF 观测
TinyOdom模型，多平台，TCN+NAS 轻量级位移回归
Legged-IO模型，四足机器人平台，CNN+LSTM融合关节编码与 IMU

深度ZUPT在非行人平台的扩展

ZUPT 概念被泛化为“零运动检测”

车辆：红绿灯/堵车静止，无人机：悬停/降落静止，机器人：站立静止

RINS-W模型，车辆平台，CNN 分类静止 vs 运动 → EKF
OdoNet模型，车辆平台，轻量 CNN 零速 + 车速回归
Leg ZUPT模型，四足机器人平台，TCN 零速检测 → 腿里程计修正

总结：不同平台共享“从IMU学习速度”这一思想，但需考虑部署资源限制。

IMU融合定位应用

（IMU-Integrated Positioning Applications）

实际部署与系统级视角

车辆：GNSS/IMU紧耦合系统，用于隧道、城市峡谷；

机器人：视觉-惯性融合，应对光照变化、遮挡；

行人：视觉-惯性+地图匹配，提升室内定位；

IMU融合定位基本原理

传统框架 松耦合：各传感器独立解算 → 高层 EKF/UKF 融合，手工建模：噪声协方差、外参、时标需人工整定，失效敏感：单传感器退化 → 系统崩溃

学习式框架 紧耦合：原始数据或低层特征 → 深度网络直接输出位姿，数据驱动：网络自动学习噪声、权重、同步策略，鲁棒冗余：注意力/门控机制自适应降权失效通道

与传统方法相比的核心优势

传统方法人工设计（角点、曲率）进行特征提取，融合策略固定权重，传感器一变就得重写卡尔曼，（极端场景）视觉失效、GNSS 丢失 → 漂移

学习式 CNN/LSTM/Transformer 自动提取特征，注意力/门控动态权重，端到端微调即可适应新传感器，多模态冗余，仍保持米级精度

车辆方向

（Vehicle）

GNSS/IMU 紧耦合场景，双LSTM分别预测 INS 漂移 & 滤波误差
- 代表模型 Dual-NN-KF
道路振动指纹场景，CNN 识别路面微特征 → 位置匹配
- 代表模型 Road-IMU
车辆零速更新场景，CNN 零速检测 + EKF
- 代表模型 RINS-W

机器人方向

（Robot）

激光+IMU深度学习场景，CNN 提取激光特征 + LSTM 融合 IMU
- 代表模型 Fusion-Net
超声+IMU EKF，EKF 融合超声测距与 IMU 航位推算
- 代表模型 EKF-US-IMU
视觉+IMU+WiFi 多模态，改进 EKF 融合 LiDAR、深度相机、IMU、WiFi
- 代表模型 Multi-Fusion-EKF

行人方向

（Pedestrian）

视觉-惯性 端到端场景，CNN+LSTM 直接输出位姿
- 代表模型 VINet
视觉-惯性 注意力选择场景，软/硬注意力决定 IMU/视觉权重
- 代表模型 SelectFusion
自监督 VIO 场景，无 GT，光度误差监督
- 代表模型 SelfVIO

总结：融合系统更鲁棒，但计算资源需求更高，需模型压缩与部署优化。

人类运动分析与活动识别

（Motion Analysis, HAR）

原理：从“手工特征”到“端到端时空学习”

传统方法使用人工特征：HOG、光流、关节角度、统计量（均值、方差、频谱），分类器：SVM、HMM、决策树，流程割裂：特征工程 + 分类器训练两步走

深度学习方法使用端到端：CNN/LSTM/Transformer 从原始 IMU 或视频中自动学习时空特征，统一网络：可同时完成特征提取 + 分类/回归，一体化：端到端可微，直接优化目标任务

相对传统方法的优势

传统方法特征手工设计，需领域知识，对光照/遮挡/个体差异敏感，新增类别需重设计特征，多模态需人工对齐

深度学习特征网络自动学习，跨数据集泛化，数据驱动，鲁棒提升，微调即可适应新类别，Transformer/注意力自动融合IMU+视觉+深度

运动重建：如Deep Inertial Poser（6个IMU重建全身姿态）；

活动识别：如LSTM识别走路、上楼、坐下等；

医疗/体育：帕金森检测、运动员训练分析；

运动重建

（Motion Reconstruction）

目标为从1–6个IMU或视频中恢复全身3D姿态、关节角，时序网络（LSTM/TCN）+ 物理约束（骨长、关节限制）→ 3D 关节点

Deep Inertial Poser 模型，输入6-IMU，Bi-LSTM + 骨骼约束
TransPose 模型，输入6-IMU，实时 LSTM + 姿态回归
PIP 模型，输入6-IMU，物理优化器 + 神经网络

活动识别

（Activity Recognition）

目标是基于IMU或视频识别“走路、跑步、坐下、跌倒”等类别，滑动窗口 → CNN/LSTM 提取时空特征 → Softmax 分类

DeepConvLSTM模型，输入3轴 a/ω，CNN+LSTM 端到端
- 项目github.com/STRCWearlab…
AttnSense模型，输入多模态IMU，注意力融合
HAR-CNN模型，输入手机IMU，轻量级CNN
- 项目github.com/mmalekzadeh…

医疗/体育应用

（Medical、Sports）

目标为疾病筛查（帕金森、迭代风险）、运动表现评估，利用运动特征 → 医学标签 / 运动指标回归

ParkNet模型，帕金森早期筛查场景，1D-CNN + 多任务学习
SportNet模型，跑步姿态评分场景，CNN+LSTM 回归关节角

扩展IMU在非定位任务中的应用

总结：IMU+深度学习在非定位任务中也表现出色，形成闭环生态。

数据集与评估

（Datasets, Evaluation）

提供统一基准与对比

公开数据集汇总（名称、环境、传感器、链接）：KITTI、EuRoC、OxIOD、RONIN、SIMD；

数据集汇总

数据集	年份	环境	传感器 & 采样率	真值	规模 / 链接
KITTI Odometry	2013	室外道路	车载 IMU 100 Hz + GPS/相机/激光	RTK-GNSS 10 cm	22 序列 / 39.2 km 官方
EuRoC MAV	2016	室内机库	MAV IMU 200 Hz + 双目 20 Hz	Vicon 1 mm	11 轨迹 / 0.9 km 官方
Oxford RobotCar	2016	城市街道	车载 IMU 50 Hz + 全景/激光/雷达	RTK-GNSS	1010 km 大规模官方
TUM VI	2018	室内/室外	手持 IMU 200 Hz + 双目 20 Hz	Vicon 1 mm	28 序列 / 20 km 官方
OxIOD	2018	室内走廊	手机 IMU 100 Hz (多种佩戴方式)	MoCap 0.5 mm	158 序列 / 42.5 km GitHub
RONIN	2019	室内大厅	手机 IMU 200 Hz (自然握持)	AR 真值	117 序列 GitHub
SIMD	2023	城市多场景	手机 IMU 50 Hz + GPS	RTK-GNSS 10 cm	4562 轨迹 / 717 km GitHub

评估指标

指标	全称	定义	用途
ATE	Absolute Trajectory Error	整条轨迹的 RMSE 均值	衡量全局漂移
RTE	Relative Trajectory Error	固定时间窗 (e.g., 1 s/5 s) 内的 RMSE 均值	衡量局部精度
Acc / F1	Accuracy / F1-score	分类或活动识别任务	衡量识别正确率

实验对比：经典vs深度方法

给出 OxIOD 与 RONIN 两个行人基准上的定量结果（单位：米）。

方法	OxIOD ATE↓	OxIOD RTE↓	RONIN ATE↓	RONIN RTE↓
传统 PDR	3.47	3.24	34.81	23.62
传统 SINS	9119.50	247.53	12398.00	59.85
IONet (LSTM)	5.95	2.84	22.52	7.63
RoNIN (LSTM+TCN)	1.95	0.42	4.73	1.21
TinyOdom (TCN+NAS)	2.80	1.26	27.36	5.84

RoNIN 在两个数据集上均取得 最低 ATE/RTE；

深度方法 显著优于 传统 PDR/SINS，漂移从 数十米降至亚米级。

实验对比：RoNIN > IONet > TinyOdom > PDR > SINS；

总结：目前缺乏统一基准，未来需构建跨平台、跨场景的大规模数据集。

结论与未来方向

（Conclusions, Discussions）

总结贡献+展望未来

深度学习带来的三大好处：

非线性建模能力强：可建模复杂误差；
参数自学习：无需人工调参；
跨域自适应性：支持迁移学习、自监督学习。

面临的六大挑战：

泛化性差；
黑盒不可解释；
部署资源受限；
缺乏统一数据基准；
失败案例缺乏物理约束；
新平台/新传感器适配难。

未来研究方向：

统一数据集与基准；
轻量化部署（NAS、知识蒸馏）；
可解释性（贝叶斯NN、不确定性估计）；
混合模型（物理+学习）；
新兴模型（Transformer、Diffusion、GAN）；
终身学习与自监督学习。