青训营x豆包MarsCode Langchain入门与鲜花答题系统合集笔记 | 豆包MarsCode AI刷题

125 阅读2分钟

第二节对于人工智能模型中的语言模型的介绍,本质是大规模的预测工具,训练都基于海量投喂数据语言,不具备独立思维及理解。Langchain提供模块化组件适合各种水平的开发者,支持python和java script。同时Langchain是llm框架,基于llm库,简化llm的开发和调用,利用llm来预测,推理。

如果电脑配置了java环境可以跟着课程中提供的代码配置安装Langchain。配置时我们发现不止单装Langchain,同时需要安装多种库,来达到良好的使用效果。文中介绍的openai GPT-4作为最强的的大语言模型曾在使用也会算错加法,也有很多人经历过GPT的低质量回答,好奇GPT的行为是否存在故意。 在ai练中学中可以直接运行两种不同的模型,代码已经包含。其中TextModel因为模型更迭,无法连接报错connection error,其他三种均可以正常运行。

image.png 关于案例中两个问题直接使用GPT比调用api和Langchain更方便快捷,但Langchain提供统一标准的接口,支持多种大语言模型,方便切换不同供应商提供的模型。Langchain更适用一些特定的场景。

第三节,鲜花系统案例,文档冗长,信息分散,通过Langchain框架建立系统处理回答问题。通过数据处理管道,按流程处理问题: 1.Loading,将文档中的内容导入Langchain 2.Splitting,将导入的文档“切片”,方便后续处理 3.Storage,使用嵌入的方式存入向量数据库 4.Retrieval,检索导入的文档 5.Output,提供检索出的切片给LLM模型,并生成最终答案 数据存储的使用word embedding,将文本转换为数值向量,查询时基于向量相似度快速查询,本例使用Qdrant开源数据库,同时Chroma也是开源数据库。重点提到两种计算相似度的方法: 1.欧式距离 使用数值大小差异 数值分布 2.余弦相似度 语义方面差异 处理文本和高维数据 通过检索本地文档,私营企业内部知识,不是市面上大模型能涵盖的。各环节相辅相成,实现精准问答。

image.png 跟随README中的步骤获取自己的apiKey然后替换成自己的apiKey和baseUrl根据文中指导在ai随心练云运行之后打开网页

image.png 但目前还不知道为什么无法访问这个网页。