首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
小白狮ww
掘友等级
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
0
文章 0
沸点 0
赞
0
返回
|
搜索文章
最新
热门
dots.ocr 基于 1.7B 参数实现多语言文档处理,性能达 SOTA
在这个信息爆炸的时代,我们每天面对堆积如山的文档、报告和表格,如何让机器真正读懂这些复杂排版下的文字信息,始终是技术领域的核心挑战。传统的 OCR 解决方案往往需要多个模块拼凑而成,流程繁琐且容易出错
清华联合字节推出 HuMo,实现三模态协同生成人物视频
如今文本生成图像与视频已不再是天方夜谭。然而,当大多数模型仍在为生成画面的清晰度与稳定性而努力时,一个更为棘手的挑战浮出水面:如何精准、一致地生成以「人物」为核心的高质量视频?对此,清华大学与字节跳动
LiveCC 首个视频解说大模型开源,比赛视频也能轻松拿捏!
你刷视频的时候是否也遇到过这些烦恼:看教学视频没有字幕,步骤总被错过;看比赛时听不懂专业术语,全程不知所云......别怕,你的救星来啦!新加坡国立大学 Show Lab 与字节跳动公司于 2025
小米开源端到端语音模型 MiMo-Audio-7B-Instruct 语音智能与音频理解达 SOTA
想象一下,当语音模型不仅能听懂你的话,还能根据你所给出的例子进行举一反三,搞定全新的语音任务。小米最新推出的 MiMo-Audio-7B-Instruct 做到了这一点。这全都归功于它首次将大语言模型
即时克隆!NeuTTS-Air 引领语音生成新路径
在语音生成领域,TTS(Text-to-Speech)模型的精度和效率一直是难题。传统模型通常需要数小时训练、占用大量显存,并且在克隆个性化声音时往往牺牲音质。NeuTTS-Air 的出现则打破了这一
AI 语音克隆神器 IndexTTS-2 开源,支持零样本声音克隆
IndexTTS-2 是由哔哩哔哩语音团队于 2025 年 6 月开源的新型文本转语音(TTS)模型。模型在情感表达和时长控制方面实现了重大突破,是首个支持精确时长控制的自回归 TTS 模型。支持零样
专为高效文档转换设计,Granite-Docling-258M 小体量干大事成为文档处理「小助手」
Granite-Docling-258M 是由 IBM 于 2025 年 9 月推出的轻量级视觉语言模型,专为高效文档转换设计。模型能将文档转换为机器可读格式,同时完整保留布局、表格、公式等元素。模型
全球首个虚拟细胞模型 STATE ,1.7 亿细胞训练,助力医疗、药物研发
STATE 是由非盈利研究机构 Arc Institute 联合 UC 伯克利、斯坦福等高校的研究团队,推出的虚拟细胞模型。能够预测干细胞、癌细胞和免疫细胞在药物、细胞因子或遗传干预下的响应情况。其训
字节推出 USO 图像生成模型,实现风格、主题双重把握
USO 是由字节跳动 UXO 团队于 2025 年 8 月推出的内容与风格解耦与重组统一框架。能将任何主题与任何风格在任何场景中自由组合,生成具有高度主体一致性、强烈风格保真度且自然、非塑料感的图像。
通义万相开源 Wan2.2-S2V-14B,实现图片+音频生成电影级数字人视频
Wan2.2-S2V-14B 是由阿里巴巴通义万相团队于 2025 年 8 月开源的一款音频驱动的视频生成模型。Wan2.2-S2V-14B 仅需一张静态图片和一段音频,能生成电影级数字人视频,视频时
下一页
个人成就
文章被点赞
14
文章被阅读
26,415
掘力值
1,584
关注了
0
关注者
10
收藏集
0
关注标签
11
加入于
2024-04-02