最近爆火、火、火的四个AI开源项目！本期分享最近4个AI项目，从系统提示逆向工程到多模态GUI自动化，覆盖了当前AI应用

本期分享最近4个AI项目，从系统提示逆向工程到多模态GUI自动化，覆盖了当前AI应用最前沿的领域。这些工具不仅能提升工作效率，还有很高的可玩性和学习性。

01

leaked-system-prompts✨

收集了多个AI系统的泄露提示，涵盖多种模型和平台，非常好的学习资料

🌈主要语言：Unknown
🌟Star数：4550
🔱Fork数：533
🔅新增Star：1898

link: https://github.com/jujumilk3/leaked-system-prompts

亮点

收集Prompt: 本仓库主要功能是收集和整理各种AI系统的Prompt，包括但不限于Anthropic Claude系列、OpenAI ChatGPT、Google Gemini等主流AI模型的系统提示。
版本对比: 提供同一AI系统不同版本的提示对比，方便观察系统提示的演变和改进。

02

markitdown✨

轻量级Python工具，将多种文件格式高效转换为Markdown，适用于LLM文本分析

🌈主要语言：Python
🌟Star数：54948
🔱Fork数：2756
🔅新增Star：4675

link: https://github.com/microsoft/markitdown

亮点

多格式转换: 支持PDF、PPT、Word、Excel、图片、音频、HTML、文本格式等多种文件转换为Markdown格式，保留文档结构如标题、列表、表格等。
LLM优化: 专为LLM和文本分析流程设计，转换后的Markdown格式接近纯文本但保留关键结构，便于模型处理。

使用方法

安装: 推荐使用all选项安装全部依赖

pip install 'markitdown[all]'

或按需安装特定格式支持

pip install 'markitdown[pdf, docx]'

命令行使用:

# 基本转换
markitdown input.pdf -o output.md

# 使用Azure Document Intelligence
markitdown input.pdf -d -e "<endpoint>"

# 列出可用插件
markitdown --list-plugins

Python API:

from markitdown import MarkItDown

# 基本转换
md = MarkItDown()
result = md.convert("test.docx")

# 使用LLM生成图片描述
from openai import OpenAI
client = OpenAI()
md = MarkItDown(llm_client=client, llm_model="gpt-4")
result = md.convert("image.jpg")

03

PDFMathTranslate✨

保留排版的PDF文档AI双语翻译工具，支持多种翻译服务

🌈主要语言：Python
🌟Star数：22132
🔱Fork数：1880
🔅新增Star：1452

link: https://github.com/Byaidu/PDFMathTranslate

亮点

核心功能: PDFMathTranslate 是一个专注于科学论文翻译的工具，能够完整保留原文的排版、公式、图表、目录和注释。它支持将PDF文档翻译成多种语言，并生成双语对照文档，适合学术研究、技术文档翻译等场景。

技术特点

技术特点: 该工具采用了先进的文档解析技术（如DocLayout-YOLO）和多种翻译服务（Google/DeepL/Ollama/OpenAI等），确保翻译质量的同时保持原文档的格式。与同类工具相比，其在处理复杂排版和公式方面表现优异。

使用方法

使用方法: 安装和使用PDFMathTranslate非常简单，可以通过多种方式运行。以下是基本的命令行使用方法：

要求：Python (3.10 <= version <= 3.12)

pip install pdf2zh
pdf2zh document.pdf

此外，还支持图形界面、Docker容器和Zotero插件等多种使用方式。详细的高级选项可以参考：./docs/ADVANCED.md。

04

UI-TARS✨

开源多模态代理，实现高效GUI任务和游戏自动化

🌈主要语言：Python
🌟Star数：5397
🔱Fork数：362
🔅新增Star：1159

link: https://github.com/bytedance/UI-TARS
paper：https://arxiv.org/abs/2501.12326

)

提供了一个Desktop版本：github.com/bytedance/U…

可以看下这两个case：github.com/bytedance/U…

可玩性还是非常高的，比如你想做一个和UI or 自己的电脑交互的agent

亮点

多模态代理功能: UI-TARS-1.5是一个基于视觉语言模型的开源多模态代理，能够在虚拟世界中高效执行多样化任务。它通过强化学习实现高级推理，显著提升了性能和适应性。
任务自动化: 支持计算机使用、浏览器操作、手机使用等多种场景的自动化任务，包括游戏操作、GUI元素识别与交互等。
性能优化: 在多个标准基准测试中表现优异，特别是在计算机使用和GUI基础能力方面，显著优于其他模型。

部署

系统提示: github.com/bytedance/U…

参考：