首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
开源
悟空码字
创建于2025-09-20
订阅专栏
开源
等 1 人订阅
共14篇文章
创建于2025-09-20
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
表格、多栏、手写全拿下:开源国产 OCR 终于不再“只会认字”(附源码)
这个OCR,它不只是“识别率又高了几个点”,而是从根上换了个思路:让模型像人一样,带着逻辑去看一页文档,而不是像扫描仪那样机械地从左上角扫到右下角。
把大模型塞进手机,600MB就能跑的智能助手,小到离谱,强到意外,腾讯开源了
这两天刷到一条消息,腾讯混元把自家一个“极小”模型 HY-1.8B-2Bit 开源了,而且明确是面向手机、耳机、智能家居这类消费级硬件的端侧模型。
能本地跑,复杂文档识别,0.9B小模型,GLM-OCR开源即巅峰(附源码)
直接说正事,智谱把自家的新一代OCR模型 GLM-OCR 直接开源了,而且一上来就是“小身材、大能量”的路线。
开源69.9k星标,国产OCR杀进全球第一梯队,全新升级,文档再歪再糊也不怕(附源码)
最近,百度飞桨团队把新一代文档解析模型 PaddleOCR-VL-1.5 开源了,开源Star已获69.9k。
阿里悄悄扔出一张王炸,这台人人能用的AI画图神器开源,免费使用
阿里通义实验室正式开源发布Z-Image基座模型,这个仅有6B参数的大模型却保留全量权重分布,原生支持CFG引导机制。
阿里最新开源,源码地址+部署脚本,支持多语种声音克隆
阿里通义千问的Qwen3-TTS模型正式开源了。看完所有功能介绍和性能数据,我发现声音生成的游戏规则正在被重新定义。
百度开源,一个强大、轻量级的 OCR 工具包(附源码)
如果你也被“手抄文字、手动录数据”折磨过,不妨试试 PaddleOCR。它可能不会让你“瞬间爱上工作”,但至少能让你少掉很多不必要的麻烦。
腾讯最新开源的桌面AI助手,可以解放双手操作电脑(附源码)
从个人角度看,Youtu-Tip 把“会聊天的模型”往前推了一大步,变成了“能动手帮你干活的模型”。在处理那些琐碎、重复、又不想自己动手的电脑操作时,确实能省下不少力气。
腾讯开源翻译模型,源码地址+部署脚本,手机端可部署1GB内存就能跑
腾讯混元团队开源了翻译模型1.5版本,一出手就是两个“王炸”,HY-MT1.5-1.8B和HY-MT1.5-7B两个尺寸的模型,把端侧翻译的门槛拉到了新低,效果还比很多商用API更猛。
智谱开源啦,源码地址+部署脚本,你的手机也能成为AI手机
作为普通用户,我期待的不是更炫酷的技术,而是技术如何让生活更轻松。毕竟,谁不想多睡半小时,让AI替自己“跑腿”呢?
腾讯开源啦,源码地址+部署脚本,1B参数小身板扛起OCR界SOTA大旗
腾讯混元全新开源的HunyuanOCR模型横空出世,参数仅1B却直接拿下多项OCR应用榜单的SOTA。这种端到端设计、多场景适配、小语种支持等这些细节背后,是对开发者真实需求的深度洞察。
美团开源啦,源码地址+部署脚本,全模态实时交互
美团LongCat-Flash系列又添新成员,LongCat-Flash-Omni正式开源了。早在今年9月,美团就悄咪咪放出了LongCat-Flash系列的前两个版本(Chat和Thinking)。
腾讯开源啦,源码地址+部署脚本,工业级原生多模态
混元图像3.0(HunyuanImage 3.0)开源啦!这次他们是真的把“工业级”三个字焊死了。80B参数的原生多模态生图模型混元图像3.0不仅直接开源,还把“画画+思考”的能力打包塞进了一个模型里
阿里通义开源啦,源码地址+部署脚本,让AI会“做研究”
最近,阿里通义正式开源了他们的首个深度研究Agent模型——DeepResearch。简单来说,它是一种能像人类研究员一样,自主完成信息搜集、分析、推理,最后形成有价值结论的AI模型。