ocr - YDZ6581的收藏集 - 掘金

ocr

更多收藏集

9篇文章 · 0订阅

Tauri跨端笔记实战(4) - 如何实现系统级截图

基于Notegen开源项目，本系列深度解析如何运用Tauri框架开发跨平台AI笔记应用。涵盖核心技术选型、架构设计、典型场景开发及常见问题解决方案，通过代码级演示带您掌握集成AI能力的全流程开发技巧。

codexu
1年前
1.2k
19
2

Ultrylytics 官宣: YOLO11 全新发布！

YOLO（You Only Look Once）是一个著名的物体检测和图像分割模型，由Joseph Redmon和Ali Farhadi在华盛顿大学开发。

CVHub
1年前
1.2k
2
1

Ultrylytics 官宣: YOLO11 全新发布！

干翻 Typora！MilkUp：完全免费的桌面端 Markdown 编辑器！

不知道大家平时写 markdown 都是用什么软件呢？是多端同步的印象笔记？还是 vscode 内置编辑器？还是大名鼎鼎的 typora？你不会用记事本在写 markdown 吧？不过就我发布这篇文

德莱厄斯
11月前
14k
78
83

干翻 Typora！MilkUp：完全免费的桌面端 Markdown 编辑器！

8.4K Star！本地化高精度OCR神器！GPT驱动，零样本即可识别！

随着信息化的推进，越来越多的企业和个人在工作上需要处理大量的文档。然而，这些文档形式多样，可能包括PDF、扫描文件、图片等，且布局复杂，包含表格、图表等信息。手动处理这些文档不仅耗时耗力，还容易出

开源星探
1年前
1.2k
11
2

PDF工具集：PyPDF / PyPDF2、PDFMiner.six、PyMuPDF（fitz）和 pdfplumber（v2+）

以下是对几个常用 Python PDF 处理库的详细中文对比，包括：PyPDF / PyPDF2、PDFMiner.six、PyMuPDF（fitz）和 pdfplumber（v2+）： 📚 1.

轻松Ai享生活
1年前
2.4k
点赞
1

商业级免费OCR利器！Surya OCR：支持90+种语言识别，复杂布局识别，表格解析全覆盖！

Surya是一款强大的开源OCR工具包，支持90多种语言，能识别文本、分析阅读顺序、检测布局元素及解析表格。免费且跨平台，适合处理敏感信息。安装简单，提供多种功能命令。

蚝油菜花
1年前
2.1k
14
1

商业级免费OCR利器！Surya OCR：支持90+种语言识别，复杂布局识别，表格解析全覆盖！

OmniParser：微软推出的屏幕解析工具，轻松将屏幕截图转换为结构化数据

OmniParser 是微软研究院推出的屏幕解析工具，能将 UI 截图转换为结构化数据，提升基于大型语言模型的 UI 代理系统性能，广泛应用于自动化测试、虚拟助手等领域。

蚝油菜花
1年前
1.9k
10
评论

OmniParser：微软推出的屏幕解析工具，轻松将屏幕截图转换为结构化数据

Magic-PDF：端到端PDF文档解析神器构建高质量RAG必备！

无论是可编辑的PDF还是扫描版的PDF，都能非常好的区分出版面中不同类型的部分，而且最终的结果是以Markdown的格式保存的，可以很容易把不同章节、不同自然段按需进行切分。

深度学习机器
1年前
1.8k
5
评论

基于视觉模型的 OCR 识别探究

目前，在日常工作中需要经常用到 OCR，而目前一些在线工具已不能满足需求，需要更高效的 OCR 工具来解决日常工作需要，于是把探究方向转向了视觉大模型。

今越星礼
1年前
910
点赞
评论