
获得徽章 0
#挑战每日一条沸点# 【会思考、善描述!通义千问团队发布通用音频字幕器 Qwen3-Omni-30B-A3B-Captioner,内置推理引擎提升字幕质量】
近期,阿里通义千问团队开源 Qwen3-Omni 系列模型,其中包含通用音频字幕器 Qwen3-Omni-30B-A3B-Captioner,基于强大的 Qwen3-Omni-30B-A3B-Instruct 微调,集成了「思考者」组件,在对音频进行深度推理分析后再生成内容描述。
Qwen3-Omni-30B-A3B-Captioner 是一个通用型、高细节、低幻觉的音频描述模型,无需任何提示,自动为复杂语音、环境声、音乐、影视声效等生成精准、全面的描述,能识别说话人情绪、音乐元素(如风格、乐器)、敏感信息等,适用于音频内容分析、安全审核、意图识别、音频剪辑等多个领域。
目前,「Qwen3-Omni-30B-A3B-Captioner:音频描述大模型」已上线至 HyperAI 官网的「教程」板块,一键克隆即可快速体验!
在线教程:
go.hyper.ai
近期,阿里通义千问团队开源 Qwen3-Omni 系列模型,其中包含通用音频字幕器 Qwen3-Omni-30B-A3B-Captioner,基于强大的 Qwen3-Omni-30B-A3B-Instruct 微调,集成了「思考者」组件,在对音频进行深度推理分析后再生成内容描述。
Qwen3-Omni-30B-A3B-Captioner 是一个通用型、高细节、低幻觉的音频描述模型,无需任何提示,自动为复杂语音、环境声、音乐、影视声效等生成精准、全面的描述,能识别说话人情绪、音乐元素(如风格、乐器)、敏感信息等,适用于音频内容分析、安全审核、意图识别、音频剪辑等多个领域。
目前,「Qwen3-Omni-30B-A3B-Captioner:音频描述大模型」已上线至 HyperAI 官网的「教程」板块,一键克隆即可快速体验!
在线教程:
展开
评论
点赞
#挑战每日一条沸点# 【真正懂人类的审美!最新文生图模型 SRPO 让 AI 图像脱离「塑料感」,实现更自然的美学表达】
近期,腾讯混元团队联合香港中文大学、清华大学共同发布了新一代文生图模型 SRPO,实验表明该模型能显著提升生成图像的人类评估真实感和审美质量,且训练效率极高,仅需 10 分钟即可完成优化。
SRPO 通过将奖励信号设计为文本条件信号,实现对奖励的在线调整,减少对离线奖励微调的依赖。SRPO 引入 Direct-Align 技术,通过预定义噪声先验直接从任何时间步恢复原始图像,避免在后期时间步的过度优化问题。与基线 FLUX.1.dev 模型相比,SRPO 在感知真实感上提升了约 3.7 倍,在美学质量上提升了 3.1 倍。
目前,「SRPO:图像生成告别 AI 味!」已上线至 HyperAI 官网的「教程」板块,一键克隆即可快速体验 demo!
在线教程:
go.hyper.ai
近期,腾讯混元团队联合香港中文大学、清华大学共同发布了新一代文生图模型 SRPO,实验表明该模型能显著提升生成图像的人类评估真实感和审美质量,且训练效率极高,仅需 10 分钟即可完成优化。
SRPO 通过将奖励信号设计为文本条件信号,实现对奖励的在线调整,减少对离线奖励微调的依赖。SRPO 引入 Direct-Align 技术,通过预定义噪声先验直接从任何时间步恢复原始图像,避免在后期时间步的过度优化问题。与基线 FLUX.1.dev 模型相比,SRPO 在感知真实感上提升了约 3.7 倍,在美学质量上提升了 3.1 倍。
目前,「SRPO:图像生成告别 AI 味!」已上线至 HyperAI 官网的「教程」板块,一键克隆即可快速体验 demo!
在线教程:
展开
1
7
【轻量化、高性能、强思考!文心思考模型 ERNIE-4.5-21B-A3B-Thinking 发布,轻量级规模接近 SOTA 表现】
近期,百度正式开源发布了思考模型 ERNIE-4.5-21B-A3B-Thinking,以总参数 21B、激活仅 3B 的轻量化高效推理,在效率与性能的平衡上树立了新标杆。
ERNIE-4.5-21B-A3B-Thinking 是在 ERNIE-4.5-21B-A3B 基础上训练的深度思考模型,支持 128K 的上下文窗口,适用于需要长上下文的复杂推理任务。该模型采用混合专家(MoE)架构,不仅在逻辑推理、数学、科学,代码与文本生成等需要人类专家的任务上实现了显著提升,还具备高效的工具调用能力,能够支持复杂任务的自动化处理。
目前,「ERNIE-4.5-21B-A3B-Thinkingt:轻量化模型推理能力再升级」已上线至 HyperAI 官网的「教程」板块,一键克隆即可快速体验 demo!
在线教程:
go.hyper.ai
近期,百度正式开源发布了思考模型 ERNIE-4.5-21B-A3B-Thinking,以总参数 21B、激活仅 3B 的轻量化高效推理,在效率与性能的平衡上树立了新标杆。
ERNIE-4.5-21B-A3B-Thinking 是在 ERNIE-4.5-21B-A3B 基础上训练的深度思考模型,支持 128K 的上下文窗口,适用于需要长上下文的复杂推理任务。该模型采用混合专家(MoE)架构,不仅在逻辑推理、数学、科学,代码与文本生成等需要人类专家的任务上实现了显著提升,还具备高效的工具调用能力,能够支持复杂任务的自动化处理。
目前,「ERNIE-4.5-21B-A3B-Thinkingt:轻量化模型推理能力再升级」已上线至 HyperAI 官网的「教程」板块,一键克隆即可快速体验 demo!
在线教程:
展开
评论
1