首页
首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
努力犯错玩AI
掘友等级
前粗粮产品,AIGC爱好者,北漂20年,混迹各大互联网公司
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
4
文章 3
沸点 1
赞
4
返回
|
搜索文章
最新
热门
RTX 3080Ti实测,从零部署FramePack,轻松实现图片转视频
你是否想过用AI将静态图片转化为生动的动态视频,却苦于高昂的硬件门槛和复杂的操作流程?FramePack——这项由ControlNet作者张吕敏与Maneesh Agrawala团队联合开发的开源技术
开源数学推理模型DeepSeek-Prover-V2:88.9%通过率+超长推理链
DeepSeek-Prover-V2是由中国深度求索(DeepSeek)团队推出的开源数学推理大模型,包含6710亿参数(671B)和70亿参数(7B)两个版本。该模型专攻数学形式化证明,支持将自然语
昆仑万维开源SkyReels-V2,解锁无限时长电影级创作,总分83.9%登顶V-Bench榜单
昆仑万维开源了全球首个基于扩散强迫框架(Diffusion-forcing)的无限时长视频生成模型——SkyReels-V2。这一模型以总分83.9%的优异成绩登顶权威评测V-Bench1.0榜单,并
全面超越OpenAI和Claude!字节开源UI-TARS-1.5-7B:7项基准刷新SOTA,一键接管你的电脑和手机
字节跳动豆包大模型团队最新开源的 UI-TARS-1.5-7B,是一款基于视觉-语言模型(VLM)构建的多模态智能体。它不仅能理解屏幕内容,还能像人类一样“思考-行动”,精准操作电脑、手机和浏览器,甚
字节UNO开源:一个模型搞定虚拟试衣/多图融合,DINO/CLIP双榜第一
想象一下,只需要一个AI模型,就能轻松实现逼真的虚拟试衣,还能将多个不同物体、人物无缝融合到一张全新的图片中,听起来是不是很酷?现在,这已成为现实!字节跳动智能创作团队震撼开源了其最新的图像生成模型—
RolmOCR重磅开源:基于Qwen2.5-VL,速度提升40%,手写/倾斜文档识别准确率超92%
向大家介绍一款全新的开源OCR模型——RolmOCR!这款由Reducto AI团队基于阿里巴巴强大的Qwen2.5-VL-7B-Instruct视觉语言模型微调而来的利器,不仅在速度和效率上实现了显
上海 AI Lab放大招!InternVL3开源:1B到78B全尺寸覆盖,工具使用/GUI代理/工业分析一网打尽
2025年4月,上海人工智能实验室(Shanghai AI Lab)正式开源了第三代多模态大模型InternVL3。这一模型系列以1B到78B全量级参数覆盖、七大应用场景突破和原生多模态预训练架构三大
深入解析NotaGen:5亿参数+三阶段训练,解锁高质量AI音乐生成
人工智能(AI)的浪潮正在席卷各个领域,音乐创作也不例外。从简单的旋律生成到复杂的乐曲编排,AI展现出了惊人的潜力。然而,要生成具有深度、结构和情感的高质量古典音乐,一直是一个巨大的挑战。今天,我们将
Spark-TTS 0.5B 震撼发布:RTF低至0.04,开源TTS步入实时高清新纪元!
我们要聊一个足以让语音合成领域为之震动的消息——Spark-TTS 0.5B 模型的震撼发布! 这不仅仅是一款新的开源工具,它凭借低至 0.04 的实时因子(RTF)和媲美真人的音质,正宣告着开源文本
不止Sora!阿里开源14B视频大杀器Wan2.1-FLF2V:720P高清、中英文字幕、首尾帧精准生成
只需一张起始图和一张结束图,就能生成5秒720P高清视频——阿里通义实验室开源的 Wan2.1-FLF2V-14B 模型,凭借首尾帧生成技术,将视频创作门槛降至消费级显卡水平。其核心能力包括: 精准控
下一页
个人成就
文章被点赞
103
文章被阅读
78,285
掘力值
4,308
关注了
1
关注者
56
收藏集
1
关注标签
7
加入于
2023-11-19