高效信息提取链构建指南：从非结构化文本中提取结构化数据注册并使用LangSmith来记录提取过程中的信息和日志。 2.

# 高效信息提取链构建指南：从非结构化文本中提取结构化数据

## 引言

在当前数字时代，信息过载已成为常态。高效地从非结构化文本中提取结构化信息，可以大幅提升数据处理的效率和准确性。本篇文章将通过构建一个提取链，展示如何运用现代语言模型（LLM）从文本中提取有用的信息。本指南适用于希望深入了解LLM工具调用以及如何进行信息提取的开发者。

## 主要内容

### 1. 环境设置

我们推荐使用Jupyter Notebook来跟随本教程，以便于实时调试和理解。请确保您已安装LangChain，可以通过以下命令来安装：

```shell
pip install langchain
# 或者
conda install langchain -c conda-forge

注册并使用LangSmith来记录提取过程中的信息和日志。

2. 定义提取模式

首先需要定义我们想要从文本中提取的信息结构。使用Pydantic定义一个用于提取个人信息的示例模式：

from typing import Optional
from langchain_core.pydantic_v1 import BaseModel, Field

class Person(BaseModel):
    """Information about a person."""
    name: Optional[str] = Field(default=None, description="The name of the person")
    hair_color: Optional[str] = Field(default=None, description="The color of the person's hair if known")
    height_in_meters: Optional[str] = Field(default=None, description="Height measured in meters")

3. 创建信息提取器

使用定义好的模式创建信息提取器，并设置提示模板：

from langchain_core.prompts import ChatPromptTemplate

prompt = ChatPromptTemplate.from_messages(
    [
        ("system", "You are an expert extraction algorithm. Only extract relevant information from the text."),
        ("human", "{text}"),
    ]
)

from langchain_mistralai import ChatMistralAI

llm = ChatMistralAI(model="mistral-large-latest", temperature=0)

runnable = prompt | llm.with_structured_output(schema=Person)

4. 处理多实体提取

为了提取多个实体，可以在Pydantic中嵌套模型：

from typing import List

class Data(BaseModel):
    """Extracted data about people."""
    people: List[Person]

runnable = prompt | llm.with_structured_output(schema=Data)

代码示例

下面是一个完整的代码示例，展示如何从文本中提取信息：

text = "Alan Smith is 6 feet tall and has blond hair."
result = runnable.invoke({"text": text})
print(result)  # 输出: Person(name='Alan Smith', hair_color='blond', height_in_meters='1.83')

常见问题和解决方案

问题：如何处理长文本？

对于超出语言模型上下文窗口的长文本，建议使用分段处理技术或引用示例增强提取性能。

问题：如何提高提取准确性？

通过在提示中添加引用示例以及提供详细的字段描述，可以大幅提高提取的准确性。

总结和进一步学习资源

本文介绍了如何构建一个高效的信息提取链，从非结构化文本中提取结构化数据。希望通过此指南，您能更好地理解和利用LLM进行数据提取。您可以通过以下资源进一步学习：

参考资料

LangChain Documentation
Pydantic Documentation

如果这篇文章对你有帮助，欢迎点赞并关注我的博客。您的支持是我持续创作的动力！

---END---