努力犯错玩AI

前粗粮产品，AIGC爱好者，北漂20年，混迹各大互联网公司

赞

4

|

搜索文章

AI视频修复技术入门：从Sora水印谈起,我们如何“抹去”未来影像的瑕疵？

随着Sora等先进视频生成模型的普及,一个全新的创作领域正在被打开。但与此同时,一个后期处理的经典命题也再次被摆上桌面：当AI创造的、近乎完美的画面中出现瑕疵时——无论是模型自带的水印,还是偶然生成的

6月前
272
点赞
评论

AI视频修复技术入门：从Sora水印谈起,我们如何“抹去”未来影像的瑕疵？

Sora视频去水印技术深度解析：从像素到AI，一个完美解决方案的诞生

Sora的问世，无疑是AIGC（AI生成内容）领域的又一个里程碑。然而，伴随惊艳而来的，是视频右下角那个标志性的Sora水印。对于追求完美的创作者和技术爱好者来说，这个水印不仅是一个小瑕疵，更是一个有

6月前
343
点赞
评论

Sora视频去水印技术深度解析：从像素到AI，一个完美解决方案的诞生

微软开源TTS模型VibeVoice：一键生成90分钟超长多角色对话，告别机械音！

前言你有没有过这样的经历：在听一段AI生成的有声书时，哪怕音色再好听，几分钟后也开始感到一种难以言说的乏味和“假”？那种平铺直叙、毫无波澜的语调，仿佛一个没有灵魂的报幕员。又或者，你是一个播客主理人

8月前
492
3
评论

微软开源TTS模型VibeVoice：一键生成90分钟超长多角色对话，告别机械音！

RTX 3080Ti实测，从零部署FramePack，轻松实现图片转视频

你是否想过用AI将静态图片转化为生动的动态视频，却苦于高昂的硬件门槛和复杂的操作流程？FramePack——这项由ControlNet作者张吕敏与Maneesh Agrawala团队联合开发的开源技术

12月前
685
点赞
评论

RTX 3080Ti实测，从零部署FramePack，轻松实现图片转视频

开源数学推理模型DeepSeek-Prover-V2：88.9%通过率+超长推理链

DeepSeek-Prover-V2是由中国深度求索（DeepSeek）团队推出的开源数学推理大模型，包含6710亿参数（671B）和70亿参数（7B）两个版本。该模型专攻数学形式化证明，支持将自然语

12月前
212
点赞
评论

开源数学推理模型DeepSeek-Prover-V2：88.9%通过率+超长推理链

昆仑万维开源SkyReels-V2，解锁无限时长电影级创作，总分83.9%登顶V-Bench榜单

昆仑万维开源了全球首个基于扩散强迫框架（Diffusion-forcing）的无限时长视频生成模型——SkyReels-V2。这一模型以总分83.9%的优异成绩登顶权威评测V-Bench1.0榜单，并

1年前
202
点赞
评论

昆仑万维开源SkyReels-V2，解锁无限时长电影级创作，总分83.9%登顶V-Bench榜单

全面超越OpenAI和Claude！字节开源UI-TARS-1.5-7B：7项基准刷新SOTA，一键接管你的电脑和手机

字节跳动豆包大模型团队最新开源的 UI-TARS-1.5-7B，是一款基于视觉-语言模型（VLM）构建的多模态智能体。它不仅能理解屏幕内容，还能像人类一样“思考-行动”，精准操作电脑、手机和浏览器，甚

1年前
397
点赞
评论

全面超越OpenAI和Claude！字节开源UI-TARS-1.5-7B：7项基准刷新SOTA，一键接管你的电脑和手机

字节UNO开源：一个模型搞定虚拟试衣/多图融合，DINO/CLIP双榜第一

想象一下，只需要一个AI模型，就能轻松实现逼真的虚拟试衣，还能将多个不同物体、人物无缝融合到一张全新的图片中，听起来是不是很酷？现在，这已成为现实！字节跳动智能创作团队震撼开源了其最新的图像生成模型—

1年前
372
点赞
评论

字节UNO开源：一个模型搞定虚拟试衣/多图融合，DINO/CLIP双榜第一

RolmOCR重磅开源：基于Qwen2.5-VL，速度提升40%，手写/倾斜文档识别准确率超92%

向大家介绍一款全新的开源OCR模型——RolmOCR！这款由Reducto AI团队基于阿里巴巴强大的Qwen2.5-VL-7B-Instruct视觉语言模型微调而来的利器，不仅在速度和效率上实现了显

1年前
402
点赞
评论

上海 AI Lab放大招！InternVL3开源：1B到78B全尺寸覆盖，工具使用/GUI代理/工业分析一网打尽

2025年4月，上海人工智能实验室（Shanghai AI Lab）正式开源了第三代多模态大模型InternVL3。这一模型系列以1B到78B全量级参数覆盖、七大应用场景突破和原生多模态预训练架构三大

1年前
493
点赞
评论

上海 AI Lab放大招！InternVL3开源：1B到78B全尺寸覆盖，工具使用/GUI代理/工业分析一网打尽

个人成就

文章被点赞 111

文章被阅读 140,949

掘力值 4,695

加入于

2023-11-19