传统方法是把每个词的词向量,取平均或者取最大最小,这样其实会损失很多信息。
粗暴一点处理,可以截断和padding成一样的长度,然后把embedding进行拼接
好一点的方式,是至少用LSTM的hidden state捕捉序列信息(这样embedding的顺序和分布全都可以保留,而不是粗暴地平均或者最大最小)
新的方法都会加入更加动态的一些attention机制~
长文本可以用时间序列网络建模(双向),更进一步可以用层次化的数据整理形式,带上attention机制 典型的模型包括 Bi-LSTM(双向LSTM)、Bi-attention-LSTM(双向注意力LSTM)、HAN(Hierarchical Attention Networks)、还有BERT等预训练模型fine-tuning(主要是transformer的self-attention起作用)