最近爆火、火、火的四个AI开源项目!

298 阅读3分钟

本期分享最近4个AI项目,从系统提示逆向工程到多模态GUI自动化,覆盖了当前AI应用最前沿的领域。这些工具不仅能提升工作效率,还有很高的可玩性和学习性。

01

leaked-system-prompts✨

收集了多个AI系统的泄露提示,涵盖多种模型和平台, 非常好的学习资料

  • 🌈主要语言:Unknown
  • 🌟Star数:4550
  • 🔱Fork数:533
  • 🔅新增Star:1898
link: https://github.com/jujumilk3/leaked-system-prompts

亮点

  1. 收集Prompt: 本仓库主要功能是收集和整理各种AI系统的Prompt,包括但不限于Anthropic Claude系列、OpenAI ChatGPT、Google Gemini等主流AI模型的系统提示。
  2. 版本对比: 提供同一AI系统不同版本的提示对比,方便观察系统提示的演变和改进。

02

markitdown✨

轻量级Python工具,将多种文件格式高效转换为Markdown,适用于LLM文本分析

  • 🌈主要语言:Python
  • 🌟Star数:54948
  • 🔱Fork数:2756
  • 🔅新增Star:4675
link: https://github.com/microsoft/markitdown

亮点

  1. 多格式转换: 支持PDF、PPT、Word、Excel、图片、音频、HTML、文本格式等多种文件转换为Markdown格式,保留文档结构如标题、列表、表格等。
  2. LLM优化: 专为LLM和文本分析流程设计,转换后的Markdown格式接近纯文本但保留关键结构,便于模型处理。

使用方法

  1. 安装: 推荐使用all选项安装全部依赖
pip install 'markitdown[all]'

或按需安装特定格式支持

pip install 'markitdown[pdf, docx]'
  1. 命令行使用:
# 基本转换
markitdown input.pdf -o output.md

# 使用Azure Document Intelligence
markitdown input.pdf -d -e "<endpoint>"

# 列出可用插件
markitdown --list-plugins
  1. Python API:
from markitdown import MarkItDown

# 基本转换
md = MarkItDown()
result = md.convert("test.docx")

# 使用LLM生成图片描述
from openai import OpenAI
client = OpenAI()
md = MarkItDown(llm_client=client, llm_model="gpt-4")
result = md.convert("image.jpg")

03

PDFMathTranslate✨

保留排版的PDF文档AI双语翻译工具,支持多种翻译服务

  • 🌈主要语言:Python
  • 🌟Star数:22132
  • 🔱Fork数:1880
  • 🔅新增Star:1452
link: https://github.com/Byaidu/PDFMathTranslate

image.png

亮点

  1. 核心功能: PDFMathTranslate 是一个专注于科学论文翻译的工具,能够完整保留原文的排版、公式、图表、目录和注释。它支持将PDF文档翻译成多种语言,并生成双语对照文档,适合学术研究、技术文档翻译等场景。

image.png

技术特点

  1. 技术特点: 该工具采用了先进的文档解析技术(如DocLayout-YOLO)和多种翻译服务(Google/DeepL/Ollama/OpenAI等),确保翻译质量的同时保持原文档的格式。与同类工具相比,其在处理复杂排版和公式方面表现优异。

使用方法

  1. 使用方法: 安装和使用PDFMathTranslate非常简单,可以通过多种方式运行。以下是基本的命令行使用方法:
要求:Python (3.10 <= version <= 3.12)

pip install pdf2zh
pdf2zh document.pdf

此外,还支持图形界面、Docker容器和Zotero插件等多种使用方式。详细的高级选项可以参考:./docs/ADVANCED.md。

image.png


04

UI-TARS✨

开源多模态代理,实现高效GUI任务和游戏自动化

  • 🌈主要语言:Python
  • 🌟Star数:5397
  • 🔱Fork数:362
  • 🔅新增Star:1159
link: https://github.com/bytedance/UI-TARS
paper:https://arxiv.org/abs/2501.12326

)

提供了一个Desktop版本:github.com/bytedance/U…

可以看下这两个case:github.com/bytedance/U…

可玩性还是非常高的,比如你想做一个和UI or 自己的电脑交互的agent

亮点

  1. 多模态代理功能: UI-TARS-1.5是一个基于视觉语言模型的开源多模态代理,能够在虚拟世界中高效执行多样化任务。它通过强化学习实现高级推理,显著提升了性能和适应性。
  2. 任务自动化: 支持计算机使用、浏览器操作、手机使用等多种场景的自动化任务,包括游戏操作、GUI元素识别与交互等。
  3. 性能优化: 在多个标准基准测试中表现优异,特别是在计算机使用和GUI基础能力方面,显著优于其他模型。

部署

系统提示: github.com/bytedance/U…

参考: