获得徽章 0
- 字节跳动开源 UNO 模型,DreamBench 双指标 (DINO & CLIP) 领先 SOTA!
核心技术:统一框架处理多任务
“模型-数据共同进化” 范式
创新 UnoPE 位置编码,属性混淆降低42%!
AI快站下载模型:aifasthub.com
展开评论点赞 - #挑战每日一条沸点# 开源 OCR 新选择 RolmOCR 发布!
🔹 基于 Qwen2.5-VL (7B)
🔹 速度提升 ~40%,显存占用低
🔹 手写/倾斜识别 >92% 准确率
🔹 智能理解布局、表格、表单
非常适合自动化数据录入、文档数字化等场景!
AI快站下载模型:aifasthub.com
展开评论点赞 - #挑战每日一条沸点# InternVL3 开源多模态模型 (1B-78B) 来了!
🔹 原生多模态预训练 + ViT(InternViT)-MLP-LLM(InternLM/Qwen) 架构
🔹 引入 V2PE 提升空间理解
🔹 MMMU 72.2分,性能领先
🔹 支持 GUI Agent, Tool Use, 工业分析等高级应用!
AI快站下载地址:aifasthub.com
展开赞过11 - #挑战每日一条沸点# 重新定义 AI 音乐生成!🚀 NotaGen 开源模型来了!
🔹 5亿参数,分层双解码器架构
🔹 创新三阶段训练:预训练 -> SFT -> CLaMP-DPO 对齐
🔹 专攻高质量古典乐谱生成 (ABC/MusicXML)主观测试性能卓越!
AI快站下载模型:aifasthub.com
展开评论点赞 - #挑战每日一条沸点# 还在忍受机器音和卡顿?
快试试开源的 Spark-TTS 0.5B!
速度: RTF ≈ 0.04 (快到飞起)
音质: MOS > 4.1 (真假难辨)
5亿参数 + Flow-Matching,开源TTS的天花板来了!
AI快站下载模型:aifasthub.com
展开评论点赞 - #挑战每日一条沸点# 阿里通义 Wan2.1-FLF2V 开源,首尾帧视频生成技术新突破!🚀
🔹 DiT + 自研 Wan-VAE + T5 + FLF2V 条件控制
🔹 首尾帧匹配度 98%,抖动率降低 37%
🔹 支持 720P 高清 + 中英文字幕嵌入!
AI快站下载模型:aifasthub.com
展开评论点赞 - #挑战每日一条沸点# 小模型爆发出大能量!🚀 月之暗面开源 Kimi-VL 系列多模态模型!仅 2.8B 激活参数,却在多项任务中击败 Qwen2.5-VL (7B)、Gemma-3 (12B) 甚至 GPT-4o!
128K 超长上下文
原生分辨率视觉 (细节提升30%)
MoE 架构,推理效率翻倍 (激活参数仅1/5)
性能越级挑战成功!
AI快站下载地址:aifasthub.com
展开评论点赞 - #挑战每日一条沸点# 国产AI图像生成新王诞生!👑 HiDream-I1 (17B) 以 1123 ELO分登顶 Artificial Analysis 图像竞技场Top 2,仅差 GPT-4o (1139分) 0.8%!
这是首个跻身全球T1的国产模型,开源24小时即屠榜!
图像质量 HPSv2.1 全球第一,指令遵循能力比肩 GPT-4o!
AI快站下载:aifasthub.com
展开评论点赞 - 再见,复杂 SQL!你好,OmniSQL(7B/14B/32B)!
中国团队(人大/字节/南科大等)开源 Text-to-SQL 模型,用自然语言与数据库对话。
性能惊艳,9项测试优于 GPT-4o!基于超强 250 万数据集 SynSQL-2.5M (已开源)。
AI快站下载:aifasthub.com
展开评论点赞 - #挑战每日一条沸点# Jina AI 开源 jina-reranker-m0,多模态重排迎来里程碑!
基于强大的 Qwen2-VL-2B 视觉语言模型,24亿参数规模,采用 Decoder-only 架构 + LoRA 微调。
性能亮点:
• 10K 上下文窗口,处理长文档无压力
• 29+ 种语言跨模态交互
• 多模态 ViDoRe NDCG@5 91.02
• 文本 BEIR NDCG@10 58.95 (优于 bge-v2)
模型链接 (AI快站):aifasthub.com
展开评论点赞