本期分享最近4个AI项目,从系统提示逆向工程到多模态GUI自动化,覆盖了当前AI应用最前沿的领域。这些工具不仅能提升工作效率,还有很高的可玩性和学习性。
01
leaked-system-prompts✨
收集了多个AI系统的泄露提示,涵盖多种模型和平台, 非常好的学习资料
- 🌈主要语言:Unknown
- 🌟Star数:4550
- 🔱Fork数:533
- 🔅新增Star:1898
link: https://github.com/jujumilk3/leaked-system-prompts
亮点
- 收集Prompt: 本仓库主要功能是收集和整理各种AI系统的Prompt,包括但不限于Anthropic Claude系列、OpenAI ChatGPT、Google Gemini等主流AI模型的系统提示。
- 版本对比: 提供同一AI系统不同版本的提示对比,方便观察系统提示的演变和改进。
02
markitdown✨
轻量级Python工具,将多种文件格式高效转换为Markdown,适用于LLM文本分析
- 🌈主要语言:Python
- 🌟Star数:54948
- 🔱Fork数:2756
- 🔅新增Star:4675
link: https://github.com/microsoft/markitdown
亮点
- 多格式转换: 支持PDF、PPT、Word、Excel、图片、音频、HTML、文本格式等多种文件转换为Markdown格式,保留文档结构如标题、列表、表格等。
- LLM优化: 专为LLM和文本分析流程设计,转换后的Markdown格式接近纯文本但保留关键结构,便于模型处理。
使用方法
- 安装: 推荐使用
all
选项安装全部依赖
pip install 'markitdown[all]'
或按需安装特定格式支持
pip install 'markitdown[pdf, docx]'
- 命令行使用:
# 基本转换
markitdown input.pdf -o output.md
# 使用Azure Document Intelligence
markitdown input.pdf -d -e "<endpoint>"
# 列出可用插件
markitdown --list-plugins
- Python API:
from markitdown import MarkItDown
# 基本转换
md = MarkItDown()
result = md.convert("test.docx")
# 使用LLM生成图片描述
from openai import OpenAI
client = OpenAI()
md = MarkItDown(llm_client=client, llm_model="gpt-4")
result = md.convert("image.jpg")
03
PDFMathTranslate✨
保留排版的PDF文档AI双语翻译工具,支持多种翻译服务
- 🌈主要语言:Python
- 🌟Star数:22132
- 🔱Fork数:1880
- 🔅新增Star:1452
link: https://github.com/Byaidu/PDFMathTranslate
亮点
- 核心功能: PDFMathTranslate 是一个专注于科学论文翻译的工具,能够完整保留原文的排版、公式、图表、目录和注释。它支持将PDF文档翻译成多种语言,并生成双语对照文档,适合学术研究、技术文档翻译等场景。
技术特点
- 技术特点: 该工具采用了先进的文档解析技术(如DocLayout-YOLO)和多种翻译服务(Google/DeepL/Ollama/OpenAI等),确保翻译质量的同时保持原文档的格式。与同类工具相比,其在处理复杂排版和公式方面表现优异。
使用方法
- 使用方法: 安装和使用PDFMathTranslate非常简单,可以通过多种方式运行。以下是基本的命令行使用方法:
要求:Python (3.10 <= version <= 3.12)
pip install pdf2zh
pdf2zh document.pdf
此外,还支持图形界面、Docker容器和Zotero插件等多种使用方式。详细的高级选项可以参考:./docs/ADVANCED.md。
04
UI-TARS✨
开源多模态代理,实现高效GUI任务和游戏自动化
- 🌈主要语言:Python
- 🌟Star数:5397
- 🔱Fork数:362
- 🔅新增Star:1159
link: https://github.com/bytedance/UI-TARS
paper:https://arxiv.org/abs/2501.12326
)
提供了一个Desktop版本:github.com/bytedance/U…
可以看下这两个case:github.com/bytedance/U…
可玩性还是非常高的,比如你想做一个和UI or 自己的电脑交互的agent
亮点
- 多模态代理功能: UI-TARS-1.5是一个基于视觉语言模型的开源多模态代理,能够在虚拟世界中高效执行多样化任务。它通过强化学习实现高级推理,显著提升了性能和适应性。
- 任务自动化: 支持计算机使用、浏览器操作、手机使用等多种场景的自动化任务,包括游戏操作、GUI元素识别与交互等。
- 性能优化: 在多个标准基准测试中表现优异,特别是在计算机使用和GUI基础能力方面,显著优于其他模型。
部署
系统提示: github.com/bytedance/U…
参考: