20250918 参与All-in-rag学习打卡第一天

58 阅读1分钟

{59317AC8-1946-45AF-9BD9-1A1BD2014804}.png (图片来源、学习资源分享:github.com/datawhalech…

教程很清晰,分量刚刚好。第一次接触到llamaIndex觉得很打开视野,我理解它是把经典方法的Retrieve、Generate两步合并到一个engine处理了,所以就省略了手动配置文本分块、指定文本块组合方式等环节;但它的输出形式和风格就比较难结构化定制,可能得通过在模型设置、query上设计。

以及第一次自己实现RAG,有一种难言的成就感,之前曾经用TF-IDF计算不同文档间的相似度,也曾用BERT这类语言模型去感受tokenizing的奇妙,但是想到仅仅将一个词拆成几千个维度(向量化),就能从文本块中提炼出一串的精妙的提炼该文本的数字,还是觉得很不可思议。

大家多多支持DataWhale,真的是很用心的一群人!