DataWhale AI 夏令营大模型技术 task 2 笔记

43 阅读1分钟

E-commerce视频挑战进展汇报

这两天一直在努力提升E-commerce视频挑战的基线方案,经过分析任务要求和评测指标,发现了一些可以优化的地方,也做了一些调整。

本次的主要改进:

解决了聚类的问题
原始代码中硬编码了聚类数量(n_clusters = 2),这不符合比赛要求(聚类数量应该在5到8之间)。我通过引入循环,自动选择最合适的聚类数量,从而优化了这个部分。

简化了与现代模型的集成方式
新的代码结构更清晰,方便后续接入Spark 4.0 Ultra LLM等现代语言模型,大大提升了产品识别和情感分析的准确度。

提升了运行稳定性
花很多时间尝试解决 HuggingFace 模型的下载,最终放弃。。。去掉了对外部HuggingFace模型的依赖,现在代码可以顺利从头到尾运行,避免了环境错误。

接下来的步骤:

  • 接入Spark 4.0 Ultra LLM的API,进一步提升文本分类效果。
  • 使用推荐的文本向量化模型,优化聚类效果。
  • 利用LLM生成更加精准的评论主题。

整体进展 还不错,期待进一步提升分数