L1G4000 InternLM + LlamaIndex RAG 实践给模型注入新知识的方式，可以简单分为两种方式，一

给模型注入新知识的方式，可以简单分为两种方式，一种是内部的，即更新模型的权重，另一个就是外部的方式，给模型注入格外的上下文或者说外部信息，不改变它的的权重。第一种方式，改变了模型的权重即进行模型训练，这是一件代价比较大的事情，大语言模型具体的训练过程，可以参考InternLM2技术报告。第二种方式，并不改变模型的权重，只是给模型引入格外的信息。类比人类编程的过程，第一种方式相当于你记住了某个函数的用法，第二种方式相当于你阅读函数文档然后短暂的记住了某个函数的用法。

对比两种注入知识方式。RAG更容易实现。它能够让基础模型实现非参数知识更新，无需训练就可以掌握新领域的知识。本次课程选用了 LlamaIndex 框架。LlamaIndex 是一个上下文增强的 LLM 框架，旨在通过将其与特定上下文数据集集成，增强大型语言模型（LLMs）的能力。它允许您构建应用程序，既利用 LLMs 的优势，又融入您的私有或领域特定信息。

任务要求1（必做，参考readme_api.md） ：基于 LlamaIndex 构建自己的 RAG 知识库，寻找一个问题 A 在使用 LlamaIndex 之前浦语 API 不会回答，借助 LlamaIndex 后浦语 API 具备回答 A 的能力，截图保存。注意：写博客提交作业时切记不要泄漏自己 api_key！

任务要求2（可选，参考readme.md） ：基于 LlamaIndex 构建自己的 RAG 知识库，寻找一个问题 A 在使用 LlamaIndex 之前 InternLM2-Chat-1.8B 模型不会回答，借助 LlamaIndex 后 InternLM2-Chat-1.8B 模型具备回答 A 的能力，截图保存。

任务要求3（优秀学员必做） ：将 Streamlit+LlamaIndex+浦语API的 Space 部署到 Hugging Face。

1.浦语 API+LlamaIndex 实践

(1)创建新的conda环境，安装 Llamaindex

conda create -n llamaindex python=3.10
conda activate llamaindex

pip install einops==0.7.0 protobuf==5.26.1

conda activate llamaindex
pip install llama-index==0.11.20
pip install llama-index-llms-replicate==0.3.0
pip install llama-index-llms-openai-like==0.2.0
pip install llama-index-embeddings-huggingface==0.3.1
pip install llama-index-embeddings-instructor==0.2.1
pip install torch==2.5.0 torchvision==0.20.0 torchaudio==2.5.0 --index-url https://download.pytorch.org/whl/cu121

(2)下载 Sentence Transformer 模型

import os

# 设置环境变量
os.environ['HF_ENDPOINT'] = 'https://hf-mirror.com'

# 下载模型
os.system('huggingface-cli download --resume-download sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2 --local-dir /root/model/sentence-transformer')

(3)下载 NLTK 相关资源

cd /root
git clone https://gitee.com/yzy0612/nltk_data.git  --branch gh-pages
cd nltk_data
mv packages/*  ./
cd tokenizers
unzip punkt.zip
cd ../taggers
unzip averaged_perceptron_tagger.zip

(4)问题测试："content": "你知道deepseek-R1是什么吗？"

如图所示，由于deepseek-R1是一款比较新的模型， 浦语 API 训练数据库中并没有收录到它的相关信息。图中问答均未给出准确的答案。在data文件夹下添加deepseek-R1模型的相关信息后，能够回答相关问题

2.将 Streamlit+LlamaIndex+浦语API的 Space 部署到 Hugging Face

登录Hugging Face，创建新的Space，名为Internlm_RAG

进入Codespace，选择Jupyter Notebook环境创建

cd Internlm_RAG
mkdir data
cd data 

touch requirements.txt   #创建requirements.txt 
touch app.py  #创建app.py文件

import os
import streamlit as st
from llama_index.core import VectorStoreIndex, SimpleDirectoryReader, Settings
from llama_index.embeddings.huggingface import HuggingFaceEmbedding
from llama_index.legacy.callbacks import CallbackManager
from llama_index.llms.openai_like import OpenAILike
# Create an instance of CallbackManager
callback_manager = CallbackManager()
from configparser import ConfigParser
# 通过Spaces的secret传入
api_key = os.environ.get('API_KEY')
# 下载模型
os.system('git lfs install')
os.system('git clone https://www.modelscope.cn/Ceceliachenen/paraphrase-multilingual-MiniLM-L12-v2.git')
api_base_url =  "https://internlm-chat.intern-ai.org.cn/puyu/api/v1/"
model = "internlm2.5-latest"
llm =OpenAILike(model=model, api_base=api_base_url, api_key=api_key, is_chat_model=True,callback_manager=callback_manager)
# 设置页面配置，包括页面标题和图标，以提供更丰富的用户体验
st.set_page_config(page_title="由llama_index构建的RAG应用demo", page_icon="  ")
# 显示页面标题，让用户了解当前页面的功能或主题
st.title("llama_index_demo")
# 初始化模型
@st.cache_resource
def init_models():
    """
    初始化并缓存模型。
    本函数通过加载预训练的嵌入模型和语言模型来初始化设置，并构建查询引擎。
    使用缓存装饰器是为了提高效率，避免重复初始化模型。
    返回:
        query_engine: 用于查询的引擎。
    """
    # 初始化嵌入模型
    embed_model = HuggingFaceEmbedding(
        model_name="./paraphrase-multilingual-MiniLM-L12-v2"
    )
    Settings.embed_model = embed_model
    # 初始化语言模型
    Settings.llm = llm
    # 加载文档并构建向量索引
    documents = SimpleDirectoryReader("./data").load_data()
    index = VectorStoreIndex.from_documents(documents)
    query_engine = index.as_query_engine()
    return query_engine
# 检查是否需要初始化模型
if 'query_engine' not in st.session_state:
    st.session_state['query_engine'] = init_models()
def greet2(question):
    """
    使用预设的question参数调用session_state中的query_engine来生成响应。
    参数:
    question (str): 一个字符串，代表用户的问题或查询。
    返回:
    response: query_engine对question的响应结果，类型依据具体实现而定。
    """
    # 从session_state字典中获取名为'query_engine'的引擎，并使用它来查询问题
    response = st.session_state['query_engine'].query(question)
    # 返回查询得到的响应结果
    return response
# 检查会话状态中是否存在 'messages' 键，如果不存在则初始化
# 初始化时，设置一个默认的助手消息，用于首次与用户交互
if "messages" not in st.session_state.keys():
    st.session_state.messages = [{"role": "assistant", "content": "你好，我是你的助手，有什么我可以帮助你的吗？"}]
# 遍历当前会话状态中的所有消息
for message in st.session_state.messages:
    # 根据消息的角色类型创建聊天消息框
    with st.chat_message(message["role"]):
        # 在消息框中写入消息内容
        st.write(message["content"])
def clear_chat_history():
    """
    清除聊天记录并重置会话状态。
    此函数将当前会话状态的消息清空，仅保留一条表示助手问候的初始消息。
    这有助于为用户提供一个新的开始，并确保聊天记录不会变得过于冗长。
    """
    st.session_state.messages = [{"role": "assistant", "content": "你好，我是你的助手，有什么我可以帮助你的吗？"}]
# 在侧边栏添加一个'Clear Chat History'按钮，点击时调用clear_chat_history函数来清除聊天记录
st.sidebar.button('清空聊天历史', on_click=clear_chat_history)
def generate_llama_index_response(prompt_input):
    """
    根据输入的提示生成基于llama索引的响应。
    此函数的作用是通过特定的提示输入，生成一个相应的响应。它调用了另一个函数greet2，
    以完成响应的生成过程。这种封装方式允许在greet2函数中实现复杂的处理逻辑，
    同时对外提供一个简单的接口。
    参数:
    prompt_input (str): 用于生成响应的输入提示。
    返回:
    str: 由greet2函数生成的响应。
    """
    return greet2(prompt_input)
# User-provided prompt
# 如果用户通过聊天输入提供了信息，则执行以下操作
if prompt := st.chat_input():
    # 将用户的聊天信息添加到会话状态的消息列表中
    st.session_state.messages.append({"role": "user", "content": prompt})
    # 在聊天界面的用户消息区域显示用户输入的内容
    with st.chat_message("user"):
        st.write(prompt)
# Gegenerate_llama_index_response last message is not from assistant
# 检查最近的一条消息是否不是由助手发送的
if st.session_state.messages[-1]["role"] != "assistant":
    # 在助手的聊天消息框中
    with st.chat_message("assistant"):
        # 显示“Thinking...”动画，表示正在处理请求
        with st.spinner("Thinking..."):
            # 生成响应
            response = generate_llama_index_response(prompt)
            # 创建一个占位符，用于显示响应内容
            placeholder = st.empty()
            # 在占位符中显示响应内容
            placeholder.markdown(response)
    # 创建一个新的消息对象，表示助手的响应
    message = {"role": "assistant", "content": response}
    # 将助手的响应消息添加到会话状态的消息列表中
st.session_state.messages.append(message)

将修改后的文件push到仓库中