获得徽章 0
- #挑战每日一条沸点# 【一键解构,万物可分!腾讯混元 Hunyuan3D-Part 首创「组件思维」3D 生成范式,自动拆分出高质量部件】
近期,腾讯混元团队推出 3D 生成模型 Hunyuan3D-Part,模型由 P3–SAM 和 X–Part 组成,首次实现高精度、可控的组件式 3D 生成,支持 50 + 组件自动生成。
用户可先用混元 3D 2.5 或 3.0 生成整体 Mesh,再由 P3–SAM 进行自动、精确的组件分割,X–Part 将其分解为独立部件,输出高保真、结构一致的部件几何体,同时保持灵活可控性。在游戏建模、3D 打印等领域有广泛应用,如将汽车模型拆分车身和轮子,便于游戏绑定滚动逻辑或 3D 打印分步制作。
目前,「Hunyuan3D-Part:组件式 3D 生成模型」已上线至 HyperAI 官网的「教程」板块,一键克隆即可快速体验!
在线教程:go.hyper.ai
展开等人赞过16 - #挑战每日一条沸点# 【OCR 能力不止于文字!IBM 开源多模态文档处理模型 Granite-Docling-258M,实现公式/表格/图片等结构化文档理解】
近期,IBM 开源轻量级多模态文档处理模型 Granite-Docling-258M,不仅能提取文字,更能清晰理解出表格、公式、图文排版布局等深层结构信息,为高效文档转换设计。
Granite-Docling-258M 在保持轻量参数的同时拥有卓越性能,支持多语言(包括阿拉伯语、中文和日语)处理,使用 DocTags 格式精准描述文档结构,避免信息丢失。该模型能与 Docling 库无缝集成,提供强大的定制化和错误处理能力,适用企业级文档处理,是文档处理领域的强大工具。
目前,「Granite-docling-258M:轻量多模态文档处理模型」已上线至 HyperAI 官网的「教程」板块,一键克隆即可快速体验!
在线教程:go.hyper.ai
展开评论点赞 - #挑战每日一条沸点# 【多图合一、精准编辑!通义千问图像编辑模型新版本 Qwen-Image-Edit-2509 发布,拓宽图像合成能力新边界】
近期,阿里通义千问团队开源图像编辑模型的月度新版本 Qwen-Image-Edit-2509,重点更新了例如「人物+人物」的多图合一能力,在复杂视觉任务的精准度与创造性上树立了新标杆。
Qwen-Image-Edit-2509 是在强大视觉基础模型上迭代的深度编辑模型,支持人物合影、广告合成、场景替换等多元场景。新版本模型相比 8 月份开源的 Qwen-Image-Edit,单图编辑的一致性有所提升,同时新支持多图编辑功能,支持深度图、边缘图、关键点图,可控性更强,出图更自由。
目前,「Qwen-Image-Edit-2509:多图像编辑器」已上线至 HyperAI 官网的「教程」板块,一键克隆即可快速体验多图像智能融合!
在线教程:go.hyper.ai
展开等人赞过评论4 - #挑战每日一条沸点# 【全模态能力新突破!通义千问 Qwen3-Omni 模型多版本齐开源,原生融合文本、图像、音频与视频理解等能力】
近期,阿里通义千问团队开源全模态模型 Qwen3-Omni,包含 Qwen3-Omni-30B-A3B-Instruct(指令跟随)、Qwen3-Omni-30B-A3B-Thinking(推理)和通用音频字幕器 Qwen3-Omni-30B-A3B-Captioner。
Qwen3-Omni 是原生端到端的跨语言多模态基础模型。它处理文本、图像、音频和视频,并以文本和自然语音两种形式提供实时流式响应,在取得强大的音频和音视频结果的同时,单模态文本和图像性能不会下降,解决了长期以来多模态模型需要在不同能力之间进行权衡取舍的难题。
目前,「Qwen3-Omni:突破模态边界的全能选手」已上线至 HyperAI 官网的「教程」板块,一键克隆即可快速体验!
在线教程:go.hyper.ai
go.hyper.ai
展开赞过评论2 - #挑战每日一条沸点# 【会思考、善描述!通义千问团队发布通用音频字幕器 Qwen3-Omni-30B-A3B-Captioner,内置推理引擎提升字幕质量】
近期,阿里通义千问团队开源 Qwen3-Omni 系列模型,其中包含通用音频字幕器 Qwen3-Omni-30B-A3B-Captioner,基于强大的 Qwen3-Omni-30B-A3B-Instruct 微调,集成了「思考者」组件,在对音频进行深度推理分析后再生成内容描述。
Qwen3-Omni-30B-A3B-Captioner 是一个通用型、高细节、低幻觉的音频描述模型,无需任何提示,自动为复杂语音、环境声、音乐、影视声效等生成精准、全面的描述,能识别说话人情绪、音乐元素(如风格、乐器)、敏感信息等,适用于音频内容分析、安全审核、意图识别、音频剪辑等多个领域。
目前,「Qwen3-Omni-30B-A3B-Captioner:音频描述大模型」已上线至 HyperAI 官网的「教程」板块,一键克隆即可快速体验!
在线教程:go.hyper.ai
展开评论点赞 - #挑战每日一条沸点# 【真正懂人类的审美!最新文生图模型 SRPO 让 AI 图像脱离「塑料感」,实现更自然的美学表达】
近期,腾讯混元团队联合香港中文大学、清华大学共同发布了新一代文生图模型 SRPO,实验表明该模型能显著提升生成图像的人类评估真实感和审美质量,且训练效率极高,仅需 10 分钟即可完成优化。
SRPO 通过将奖励信号设计为文本条件信号,实现对奖励的在线调整,减少对离线奖励微调的依赖。SRPO 引入 Direct-Align 技术,通过预定义噪声先验直接从任何时间步恢复原始图像,避免在后期时间步的过度优化问题。与基线 FLUX.1.dev 模型相比,SRPO 在感知真实感上提升了约 3.7 倍,在美学质量上提升了 3.1 倍。
目前,「SRPO:图像生成告别 AI 味!」已上线至 HyperAI 官网的「教程」板块,一键克隆即可快速体验 demo!
在线教程:go.hyper.ai
展开等人赞过17 - 【轻量化、高性能、强思考!文心思考模型 ERNIE-4.5-21B-A3B-Thinking 发布,轻量级规模接近 SOTA 表现】
近期,百度正式开源发布了思考模型 ERNIE-4.5-21B-A3B-Thinking,以总参数 21B、激活仅 3B 的轻量化高效推理,在效率与性能的平衡上树立了新标杆。
ERNIE-4.5-21B-A3B-Thinking 是在 ERNIE-4.5-21B-A3B 基础上训练的深度思考模型,支持 128K 的上下文窗口,适用于需要长上下文的复杂推理任务。该模型采用混合专家(MoE)架构,不仅在逻辑推理、数学、科学,代码与文本生成等需要人类专家的任务上实现了显著提升,还具备高效的工具调用能力,能够支持复杂任务的自动化处理。
目前,「ERNIE-4.5-21B-A3B-Thinkingt:轻量化模型推理能力再升级」已上线至 HyperAI 官网的「教程」板块,一键克隆即可快速体验 demo!
在线教程:go.hyper.ai
展开赞过评论1 - #挑战每日一条沸点# 【哪里不对改哪里!全能图像编辑模型 Qwen-Image-Edit 兼具语义与外观的双重编辑能力,刷新图像编辑 SOTA】
昨天凌晨,阿里通义千问团队发布了全能图像编辑模型 Qwen-Image-Edit,在多个公开基准测试中的评估表明在图像编辑任务上具备 SOTA 性能。
Qwen-Image-Edit 兼具语义与外观双重编辑能力,不仅能准确理解编辑指令的语义意图,还能保持图像视觉风格的一致性。该模型将 Qwen-Image 卓越的中文文本渲染能力延展至图像编辑领域,实现了对图片中文字的精准编辑。作为 Qwen-Image 的全新版本,此次更新构建了从图像生成、链式编辑到最终效果呈现的闭环,大大提高了图像的可用性。
目前,「Qwen-Image-Edit:全能图像编辑模型 Demo」已上线至 HyperAI 官网的「教程」板块,一键克隆即可快速体验 demo!
在线教程:go.hyper.ai
展开1点赞 - #挑战每日一条沸点# 【一键部署 Qwen-Image:首个图像生成基础模型,文字渲染与图像编辑能力获得SOTA】
阿里通义千问团队再开源!今天凌晨,通义千问团队开源了首个图像生成基础模型 Qwen-Image,一个 20B 的 MMDiT 模型。
从中英文双语渲染到长段落生成,从海报设计到 PPT 页面排版,Qwen-Image 均能生成高质量视觉效果。凭借精准的文本渲染能力与稳定的图像编辑性能,Qwen-Image 在多个主流 Benchmark 中达到 SOTA 水平。值得一提的是,Qwen-Image 在中文渲染上的强大性能为开源视觉模型的中文能力建设提供了有益补充,中文从被「翻译」的附加项,正在逐渐转向 AI 视觉认知的「母语」之一。
目前,「Qwen-Image:具有高级文本渲染能力的图像模型」已上线至 HyperAI 官网的「教程」板块,一键克隆即可快速体验 demo。快来体验多元视觉风格!
在线教程:go.hyper.ai
展开评论点赞 - 【一键部署 Qwen3-Coder-Flash:「甜品级」编程模型,轻量高性能领跑开闭源模型生态】
Qwen3-Coder-30B-A3B-Instruct 是由阿里巴巴旗下通义万相实验室推出的大语言模型,在代理编码、代理浏览器使用和其他基础编码任务上的开源模型中具有优越性能。该模型能够高效地处理多种编程语言的编码任务,显著提高编程效率,同时其强大的上下文理解和逻辑推理能力使其在复杂项目开发和代码优化中表现出色。
目前,「一键部署 Qwen3-Coder-30B-A3B-Instruct」已上线至 HyperAI 官网的「教程」板块,一键克隆即可快速体验 demo。立即部署,解锁高效编程新范式!
在线教程:go.hyper.ai
展开评论点赞