[机器学习]序列数据(介绍)

2022-01-15 1,378 阅读3分钟

序列数据是指数据点之间具有明确顺序关系，且顺序本身包含重要信息的数据类型。在机器学习中，序列数据是一种非常常见且重要的数据形式，其核心特征是：

核心特征：顺序依赖

顺序至关重要：改变数据点的顺序会改变数据的意义甚至使其无效。
上下文依赖：每个数据点的含义受其前后数据点的影响。
变长性：序列的长度通常不固定。

常见例子

1. 时间序列数据

数据点按时间顺序排列，每个点与一个时间戳关联。

股价走势：每分钟/每日的股票价格
传感器数据：温度传感器每小时记录的温度值
心电图(ECG)：心脏电活动随时间的变化
网站访问量：每天的网站访问次数

2. 自然语言文本

句子：“我爱机器学习” → 字符序列或词语序列
文档：由句子组成的更长序列
对话：问答对组成的序列

3. 音频/语音信号

语音录音：振幅随时间变化的波形
音乐：音符序列或音频波形

4. DNA/蛋白质序列

DNA序列：由A、T、C、G四种碱基组成的序列
蛋白质序列：氨基酸序列

5. 视频数据

由图像帧组成的时间序列

6. 用户行为序列

购物历史：用户按时间顺序购买的商品列表
浏览记录：用户浏览网页的序列
游戏动作：玩家在游戏中的操作序列

与非序列数据的对比

序列数据	非序列数据
句子中的单词	袋装单词（不考虑顺序）
股价时间序列	单日股价统计（平均值等）
音乐旋律	音乐特征（流派、节奏等）
视频帧序列	单张图片

机器学习中的处理挑战

由于序列数据的特殊性质，传统机器学习模型处理起来有困难：

变长输入：序列长度不固定
长期依赖：需要捕捉相距较远数据点之间的关系
顺序敏感性：需要考虑位置信息

专门处理序列的模型

循环神经网络(RNN)：专门设计处理序列
长短期记忆网络(LSTM)：解决长期依赖问题
Transformer：使用自注意力机制处理序列
卷积神经网络(CNN)：通过一维卷积处理序列
隐马尔可夫模型(HMM)：传统序列建模方法

典型应用任务

序列分类：情感分析（句子→正面/负面）
序列生成：机器翻译、文本生成
序列标注：词性标注、命名实体识别
序列预测：股票预测、天气预报

简单示例对比

假设我们要分析电影评论的情感：

作为序列处理：考虑词语顺序 “这部电影不差” ≠ “这部电影差不”（后者无意义）
作为非序列处理（如词袋模型）：两者可能被表示为相同的词频向量，丢失了否定含义

总结来说：序列数据无处不在，理解和有效处理序列数据是机器学习和人工智能领域的一个核心课题，尤其是在自然语言处理、时间序列分析和生物信息学等领域。