首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
马克学ai
掘友等级
获得徽章 0
动态
文章
专栏
沸点
收藏集
关注
作品
赞
0
文章 0
沸点 0
赞
0
返回
|
搜索文章
马克学ai
15小时前
关注
字节跳动USO:开源图像生成的新突破,统一风格与主题的框架
在人工智能图像生成领域,一个长期存在的技术难题是如何同时保持主题一致性和风格迁移效果。传统方法往往只能专注于其中之一,但字节跳动最新开源的USO(Unified Style...
0
评论
分享
马克学ai
15小时前
关注
字节跳动USO:突破图像生成中风格与主体的统一框架
在AI图像生成领域,长期存在一个技术难题:模型要么擅长保持主体一致性,要么擅长风格迁移,但很难同时兼顾两者。字节跳动最新开源的USO(Unified Style-Subje...
0
评论
分享
马克学ai
15小时前
关注
字节跳动USO模型:突破图像生成的"风格-主题"二元对立
在AI图像生成领域,长期存在一个技术难题:模型要么擅长保持主题一致性,要么擅长风格迁移,但很难同时兼顾两者。字节跳动UXO团队最新开源的USO(Unified Style-...
0
评论
分享
马克学ai
15小时前
关注
字节跳动开源USO模型:图像生成的“六边形战士”实现多任务统一
多功能统一:单一模型应对复杂场景 USO模型的核心优势在于其强大的泛化能力。通过单一框架,该模型可同时处理主体驱动生成、风格驱动生成以及主体风格混合生成等多种任务,仅需一张...
0
评论
分享
马克学ai
15小时前
关注
DeepSeek-OCR:重新定义AI视觉理解的革命性突破
近日,DeepSeek团队推出的OCR模型在AI界引发轰动,这项技术远非简单的文字识别工具,而是一次对人工智能认知方式的根本性重塑。 技术突破:从“识字”到“视觉压缩”的范...
0
评论
分享
马克学ai
15小时前
关注
DeepSeek-OCR:重新定义AI的"视觉记忆"革命
在人工智能领域,一场静悄悄的革命正在发生。DeepSeek团队最新推出的OCR技术,并非传统意义上的文字识别工具,而是一种突破性的"视觉压缩"范式,正在重新定义AI处理信息...
0
评论
分享
马克学ai
15小时前
关注
DeepSeek-OCR:重新定义文档理解的视觉语言模型革命
在人工智能快速发展的浪潮中,DeepSeek团队推出的DeepSeek-OCR模型正以其创新的"视觉即压缩"理念,重新定义着文档理解与多模态处理的边界。这一突破性技术不仅在...
0
评论
分享
马克学ai
15小时前
关注
DeepSeek-OCR:重新定义文本压缩与多模态理解
在人工智能快速发展的浪潮中,DeepSeek团队再次带来突破性创新。最新开源的DeepSeek-OCR模型不仅颠覆了传统OCR技术的边界,更提出了"视觉即压缩"的革命性理念...
0
评论
分享
马克学ai
15小时前
关注
DeepSeek-OCR:消费级显卡上的高效PDF解析方案
近日,DeepSeek-OCR的实际部署测试结果显示,这一突破性的视觉语言模型不仅技术先进,更具备出色的实用性和可及性。令人惊喜的是,仅需一张消费级显卡(12G显存)即可流...
0
评论
分享
马克学ai
15小时前
关注
DeepSeek-OCR:突破传统OCR界限的视觉语言模型
近期,DeepSeek发布的全新开源模型DeepSeek-OCR在AI界引发广泛讨论。然而,许多自媒体对其存在明显误读——这并非简单的光学字符识别工具升级,而是一次从根...
0
评论
分享
马克学ai
15小时前
关注
DeepSeek-OCR:重新定义文本处理的视觉处理效率
在人工智能领域,一场静默的革命正在发生。DeepSeek最新开源的OCR模型不仅突破了传统文字识别的边界,更提出了一个颠覆性的理念:用“看”代替“读”。这一创新正引发全...
0
评论
分享
马克学ai
15小时前
关注
DeepSeek-OCR:AI多模态技术迎来效率提升
视觉与听觉的双重革命:AI多模态技术迎来效率突破 在人工智能快速发展的浪潮中,我们正见证着两个看似不同却同样深刻的技术革命同时发生。一边是DeepSeek-OCR通过视...
0
评论
分享
马克学ai
16天前
关注
Step-Audio 2:开启端到端大模型新格局
在人工智能快速发展的浪潮中,语音交互技术正迎来重要转折点。阶跃星辰最新开源的Step-Audio 2系列模型,凭借其创新的端到端架构和卓越的性能表现,为多模态语音领域树立了...
0
评论
分享
马克学ai
16天前
关注
Step-Audio 2:端到端语音大模型重塑人机交互新范式
近日,阶跃星辰推出的Step-Audio 2系列模型凭借其创新的端到端架构与多项SOTA性能,为多模态语音领域注入新动能。作为开源语音大模型的重要突破,该技术不仅实现了音频...
0
评论
分享
马克学ai
16天前
关注
国产多模态语音大模型再突破!Step-Audio 2 mini开源即登顶SOTA,解锁语音交互新可能
阶跃星辰正式推出开源端到端语音大模型Step-Audio 2 mini,并在国际权威评测中以多项SOTA成绩引发关注。这款模型不仅实现了语音理解、生成与推理的深度融合,更凭...
0
评论
分享
马克学ai
16天前
关注
国产语音大模型再突破!Step-Audio 2 mini 开源:1 秒懂方言辨情绪,翻译能力碾压 GPT-4o
在人工智能语音交互领域,国产技术正以令人惊叹的速度实现突破。2025 年 8 月 29 日,阶跃星辰公司正式开源的 Step-Audio 2 mini 端到端语音大模型,凭...
0
评论
分享
马克学ai
16天前
关注
阶跃 Step-Audio 2 :开源语音大模型天花板,端到端架构听懂 “弦外之音”,普通显卡也能跑
“请分析这段音频里的情绪,再翻译成龙虾的粤语说法”—— 放在半年前,完成这个需求需要调用 “语音识别 + 情绪分析 + 翻译” 三个模型,还得手动拼接结果;现在用阶跃星辰开...
0
评论
分享
马克学ai
16天前
关注
EchoMimicV3 深度解析:1.3B 参数干翻 13B 大模型,单卡速度提升 18 倍,数字人视频生成进入 “轻量时代”
当行业还在为 “13B 参数数字人模型能生成多逼真的动画” 争论时,蚂蚁集团甩出了一张 “王炸”——EchoMimicV3。这款仅 1.3B 参数的小模型,不仅在口型同步、...
0
评论
分享
马克学ai
16天前
关注
EchoMimicV3:免费整合包解锁全身数字人,15 分钟生成带手势的超真实动画,小白也能玩
在 AI 数字人领域,“头部动、身体僵” 曾是行业通病 —— 能让虚拟人张嘴说话不难,但要让它自然抬手、转身,甚至配合场景做手势,要么需要专业动捕设备,要么得手动调整几十组...
0
评论
分享
马克学ai
16天前
关注
蚂蚁 EchoMimicV3 实测:13 亿参数打破数字人制作壁垒,3 分钟出片,小白也能当 “虚拟导演”
“想做个虚拟主播带货视频,还要啥 3D 建模、动作捕捉?”—— 这是实测蚂蚁集团 EchoMimicV3 后最直观的感受。以前需要专业团队花 3 天制作的 1 分钟数字人视...
0
评论
分享
下一页
个人成就
文章被点赞
2
文章被阅读
29,187
掘力值
646
关注了
0
关注者
5
收藏集
0
关注标签
3
加入于
2025-04-29