DataWhale AI 夏令营大模型技术 task 2 笔记这两天一直在努力提升E-commerce视频挑战的基线方案

E-commerce视频挑战进展汇报

这两天一直在努力提升E-commerce视频挑战的基线方案，经过分析任务要求和评测指标，发现了一些可以优化的地方，也做了一些调整。

本次的主要改进：

解决了聚类的问题
原始代码中硬编码了聚类数量（n_clusters = 2），这不符合比赛要求（聚类数量应该在5到8之间）。我通过引入循环，自动选择最合适的聚类数量，从而优化了这个部分。

简化了与现代模型的集成方式
新的代码结构更清晰，方便后续接入Spark 4.0 Ultra LLM等现代语言模型，大大提升了产品识别和情感分析的准确度。

提升了运行稳定性
花很多时间尝试解决 HuggingFace 模型的下载，最终放弃。。。去掉了对外部HuggingFace模型的依赖，现在代码可以顺利从头到尾运行，避免了环境错误。

接下来的步骤：

整体进展还不错，期待进一步提升分数