首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
AI工具
深度学习机器
创建于2025-05-14
订阅专栏
介绍最新最实用的AI工具
暂无订阅
共12篇文章
创建于2025-05-14
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
VLM做文档OCR效果如何?我拿了几个常见模型进行对比
国内已经有不少专门针对OCR任务进行训练的开源VLM了。成绩打榜是一方面,实际用起来效果如何、好不好用可能又是另一方面。因此,本文将对比几款最近比较流行的VLM模型
AI IDE如何构建高效代码索引?以一个MCP Server的开发过程进行阐述
本项目采用了经典的RAG架构进行开发,基于向量数据库并结合语义检索,搭配IDE内置的命令行工具,可以减少代码库索引时可能存在的token过度消耗和长时间等待,兼容常见的AI IDE
aisuite:统一的大模型SDK,简化LLM开发流程
aisuite作为一个开源的Python库,通过提供统一的接口和灵活的模型切换机制,简化了跨多个LLM提供商的集成过程。对于经常使用不同LLM的开发者来说,可以显著降低开发门槛,提高开发效率.
Gemini CLI源码解析:深入工具系统的实现细节
之前的文章介绍过主控Agent以及上下文实现的细节,除了主控Agent和上下文管理外,工具实现也是Agentic的一个重要环节。
Gemini CLI源码解析:Agent与上下文管理实现细节
gemini-cli 从开源至今仅一个多月,已经收获接近65K Star,作为第一个开源的通用命令行智能体工具,现如今功能已经非常完善。本文将对源码进行解析,学习其中优秀Agent设计思路
构建AI智能体的“上下文工程”方法论:Manus团队的实战经验
上下文工程已成为现代AI Agent系统不可或缺的一部分。无论模型本身如何进化,对上下文的建模、维护、裁剪与反馈机制的设计,将决定一个智能体是否稳健、高效、可扩展。
OCRFlux-3B:开源 OCR + LLM 模型的新标杆,支持跨页表格合并
OCRFlux-3B 是目前业内首个开源支持跨页结构智能合并的模型,不仅精度高,而且支持关键的结构化能力,并且能够在消费级硬件上运行,实用性极高。
Prompt Engineering vs Context Engineering:我们与LLM交互方式的演变
Prompt Engineering 是我们与 LLM 交互的原始技巧,但随着智能体的开发,我们需要的不再是简单的文本生成器,而是一个智能助手。
Nanonets-OCR:Qwen2.5VL-3B的微调模型 更强大的文档解析能力|附效果实测
Nanonets-OCR不再满足于单纯提取文本,它能智能解析图像中的公式、表格、水印、签名、图表、复选框等复杂结构,并输出格式清晰的 Markdown。
MonkeyOCR:用三元组范式重构文档解析与识别
MonkeyOCR提出一种新的SRR三元组架构,结合传统两种文档解析方式的优化,在精度和效率上都有不错的表现。
Mem0:新一代AI Agent的持久化记忆体系
Mem0 是一个轻量级、可扩展的长期记忆框架,支持本地部署和云端使用。其设计初衷是为 LLM 提供结构化的记忆支持,帮助智能体记住用户偏好、背景信息等,从而提供更个性化、更连贯的回答
Ollama-OCR:基于Ollama多模态大模型的端到端文档解析和处理
Ollama-OCR是一个Python的OCR解析库,结合了Ollama的模型能力,可以直接处理 PDF 文件无需额外转换,轻松从扫描版或原生 PDF 文档中提取文本和数据。