AI工具

AI工具

AI工具

介绍最新最实用的AI工具

等 1 人订阅共12篇文章创建于2025-05-14

VLM做文档OCR效果如何？我拿了几个常见模型进行对比

国内已经有不少专门针对OCR任务进行训练的开源VLM了。成绩打榜是一方面，实际用起来效果如何、好不好用可能又是另一方面。因此，本文将对比几款最近比较流行的VLM模型

7月前
354
点赞
评论

VLM做文档OCR效果如何？我拿了几个常见模型进行对比

AI IDE如何构建高效代码索引？以一个MCP Server的开发过程进行阐述

本项目采用了经典的RAG架构进行开发，基于向量数据库并结合语义检索，搭配IDE内置的命令行工具，可以减少代码库索引时可能存在的token过度消耗和长时间等待，兼容常见的AI IDE

8月前
475
1
评论

AI IDE如何构建高效代码索引？以一个MCP Server的开发过程进行阐述

aisuite：统一的大模型SDK，简化LLM开发流程

aisuite作为一个开源的Python库，通过提供统一的接口和灵活的模型切换机制，简化了跨多个LLM提供商的集成过程。对于经常使用不同LLM的开发者来说，可以显著降低开发门槛，提高开发效率.

8月前
403
2
评论

aisuite：统一的大模型SDK，简化LLM开发流程

Gemini CLI源码解析：深入工具系统的实现细节

之前的文章介绍过主控Agent以及上下文实现的细节，除了主控Agent和上下文管理外，工具实现也是Agentic的一个重要环节。

9月前
323
点赞
评论

Gemini CLI源码解析：深入工具系统的实现细节

Gemini CLI源码解析：Agent与上下文管理实现细节

gemini-cli 从开源至今仅一个多月，已经收获接近65K Star，作为第一个开源的通用命令行智能体工具，现如今功能已经非常完善。本文将对源码进行解析，学习其中优秀Agent设计思路

9月前
1.0k
3
评论

Gemini CLI源码解析：Agent与上下文管理实现细节

构建AI智能体的“上下文工程”方法论：Manus团队的实战经验

上下文工程已成为现代AI Agent系统不可或缺的一部分。无论模型本身如何进化，对上下文的建模、维护、裁剪与反馈机制的设计，将决定一个智能体是否稳健、高效、可扩展。

9月前
225
点赞
评论

构建AI智能体的“上下文工程”方法论：Manus团队的实战经验

OCRFlux-3B：开源 OCR + LLM 模型的新标杆，支持跨页表格合并

OCRFlux-3B 是目前业内首个开源支持跨页结构智能合并的模型，不仅精度高，而且支持关键的结构化能力，并且能够在消费级硬件上运行，实用性极高。

9月前
509
点赞
评论

OCRFlux-3B：开源 OCR + LLM 模型的新标杆，支持跨页表格合并

Prompt Engineering vs Context Engineering：我们与LLM交互方式的演变

Prompt Engineering 是我们与 LLM 交互的原始技巧，但随着智能体的开发，我们需要的不再是简单的文本生成器，而是一个智能助手。

10月前
495
点赞
评论

Nanonets-OCR：Qwen2.5VL-3B的微调模型更强大的文档解析能力|附效果实测

Nanonets-OCR不再满足于单纯提取文本，它能智能解析图像中的公式、表格、水印、签名、图表、复选框等复杂结构，并输出格式清晰的 Markdown。

10月前
378
点赞
评论

MonkeyOCR：用三元组范式重构文档解析与识别

MonkeyOCR提出一种新的SRR三元组架构，结合传统两种文档解析方式的优化，在精度和效率上都有不错的表现。

10月前
308
点赞
评论

Mem0：新一代AI Agent的持久化记忆体系

Mem0 是一个轻量级、可扩展的长期记忆框架，支持本地部署和云端使用。其设计初衷是为 LLM 提供结构化的记忆支持，帮助智能体记住用户偏好、背景信息等，从而提供更个性化、更连贯的回答

10月前
5.3k
1
4

Ollama-OCR：基于Ollama多模态大模型的端到端文档解析和处理

Ollama-OCR是一个Python的OCR解析库，结合了Ollama的模型能力，可以直接处理 PDF 文件无需额外转换，轻松从扫描版或原生 PDF 文档中提取文本和数据。

11月前
504
点赞
评论

Ollama-OCR：基于Ollama多模态大模型的端到端文档解析和处理