首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
tanis_3
掘友等级
点破咒语
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
2
文章 2
沸点 0
赞
2
返回
|
搜索文章
最新
热门
DeepSeek-TUI 也能读 PDF 了:Skill + MinerU CLI 终端文档解析实战
DeepSeek-TUI 无法直接读 PDF。本文介绍 Skill + MinerU CLI 方案,让终端 Agent 自动解析文档,涵盖安装、两种模式对比和实战演示。
PDF 解析后输出什么格式?MinerU 五类下游场景的选型指南
MinerU 支持 Markdown、JSON、HTML、LaTeX、DOCX 五种输出格式。本文从 RAG、数据挖掘、学术排版、办公协作、网页展示五个下游场景出发,给出选型建议与关键权衡。
mineru-open-sdk 深度指南(Python 版):从 pip install 到百万页文档批处理
MinerU 官方 Python SDK 深度指南,涵盖安装配置、Flash Extract 与 Precision Extract 两种解析模式、本地调用与 Open API 远程调用、批量处理与异步工作流,以及 Markdown/DOCX/HTML/LaTeX 多格式输出选型与性能调优。
把公司知识库装进 Claude:MinerU MCP + 私有文档的智能问答实战
新同事入职第一周,花了两天翻共享文件夹,还是找不到最新版产品手册。技术方案评审会上,架构师想查半年前的决策文档,翻了三个系统才找到。客服同事被客户问到某个功能的配置细节,群里问了五个人没人答得上来,最
学术论文 PDF 的版面自动还原:MinerU 对多栏排版、浮动图表与脚注区域的识别实战
开篇:学术论文 PDF 的版面为什么难解析 一篇双栏 IEEE 论文的典型页面里,你能找到至少六种不同的内容元素:左栏正文与右栏正文并排排列,一张浮动 Figure 横跨两栏插在文字中间,公式独占一行
从 PDF 中精准提取表格、图片与公式:MinerU 结构化元素抽取的 3 种方案
为什么 PDF 元素提取比纯文本难 PDF 是一种视觉格式,不是逻辑格式。PDF 文件的本质是一组绘图指令——把文字放在哪、画多粗的线、用什么字体渲染——而非像 HTML 或 Markdown 那样告
MinerU vs Docling vs Marker:开源文档解析工具深度对比
MinerU vs Docling vs Marker:开源文档解析工具深度对比 1. 核心定位与技术路线差异 1.1 产品定位总览 1.1.1 MinerU:高精度中文文档解析专家 MinerU 由
MinerU + DeepSeek V4:竖排繁体 PDF转简体横排阅读方案
竖排繁体 PDF 的阅读门槛很高。古籍、民国文献、港台早期学术期刊中,文字从上到下排列,列与列之间从右向左推进。普通 PDF 阅读器只能原样显示,MinerU + DeepSeek V4将繁体转简体
扫描版中文 PDF 怎么提取文字:用 MinerU 做 OCR + 结构化一体处理
扫描版PDF转换为可编辑文本时面临版面信息丢失的问题。MinerU通过结合OCR、版面还原和结构化输出,能够保留文档层级、表格和公式等关键信息。提供三种处理方案:1)在线 2 批量 3 本地部署
MinerU2.5-Pro 中文 PDF 识别准确率全解:OmniDocBench v1.6 权威基准数据
OmniDocBench v1.6:文档解析领域的基准评测长期面临碎片化困境:不同团队使用各自的评测协议和指标定义,跨论文性能比较几乎无法直接进行。benchmark致力于解决这个问题
下一页
个人成就
文章被点赞
2
文章被阅读
3,073
掘力值
371
关注了
2
关注者
1
收藏集
0
关注标签
6
加入于
2021-03-12