这是我参与「第三届青训营 -后端场」笔记创作活动的第1篇笔记
由于采用的是图文数据集,本质上其实就是一个多模态检索的问题,正好kaggle上虾皮有一个相关竞赛非常适合用来参考和学习,我给出其链接。
kaggle链接地址:www.kaggle.com/competition…
接下来来简述一下整个比赛
比赛背景
如何在百万级别的商品中找到最优惠的商品?这可能是所有消费者在购物时都会遇到的问题。
Shopee公司将会给客户推荐相同商品中最实惠的商品,在此过程中需要完成商品信息匹配的过程,而现在需要Kaggle参赛选手构建一个智能商品匹配模型。
赛题目标
在这场比赛中,您将运用您的机器学习技能来构建一个模型,预测哪些商品是相同的产品。
评价指标
根据提交商品序列的F1值进行打分。
比赛总结
Shopee赛题任务非常有意思,也非常有价值。在完成本赛题的过程中,需要使用图像、文本和检索等知识,非常考验技能。
赛题涵盖的知识点:
- 图像/文本编码
- 度量学习损失
- 信息检索中的集成学习
如果单纯使用图像和文本特征排序,只能得到非常基础的分数,则需要根据赛题数据进行训练,并进行进一步处理。
比赛思路
比赛大多数的思路基本上都是由CNN网络提取图像特征、由TF-IDF提取文本特征,其中提取图像特征可以根据自己的需求进行更细类的选择,如果自己机器性能普通可以采用resnet18,如果性能很好可以替换别的更好的模型,提取完特征后转换为高纬的embedding向量参与后续计算。文本特征可以采用Bert先进行一波预处理,现在似乎文本类处理的比赛走一遍Bert已经非常常见了,但从落地的角度上得思考一下适不适合采用这种方式(毕竟落地不是刷分,不光准确率,还得考虑响应时间等),我才用的具体思路等后几篇会发出来的。