多模态 - 用户208319915637的收藏集 - 掘金

多模态

用户208319915637

更多收藏集

12篇文章 · 0订阅

一句话，AI帮你P图！Qwen-Image-Edit本地部署教程：能转能改能加字

Qwen-Image-Edit基于 20B Qwen-Image 模型，成功地将 Qwen-Image 独特的文本渲染能力扩展到了图像编辑任务中，实现了精确的文本编辑。

算家计算
6月前
2.5k
2
3

一句话，AI帮你P图！Qwen-Image-Edit本地部署教程：能转能改能加字

马斯克的首款多模态大模型来了，GPT-4V又被超越了一次

自从 2023 年 11 月 Grok 首次亮相以来，马斯克的 xAI 正在大模型领域不断取得进步，向 OpenAI 等先行者发起进攻。

机器之心
1年前
540
1
评论

马斯克的首款多模态大模型来了，GPT-4V又被超越了一次

通用文档理解新SOTA，多模态大模型TextMonkey来了

最近，华中科技大学和金山的研究人员在多模态大模型 Monkey [1]（Li et al., CVPR2024）工作的基础上提出 TextMonkey。

机器之心
1年前
862
点赞
评论

通用文档理解新SOTA，多模态大模型TextMonkey来了

精确指出特定事件发生时间！字节&复旦大学多模态大模型解读视频太香了

基于Vicuna-1.5 7B 字节&复旦大学多模态理解大模型来了：可以精确定位到视频中特定事件的发生时间。比如在下面这个视频中：狗子转身看镜头时的时间戳是多少？什么时候用爪子推开滑板？在这

量子位
2年前
751
3
评论

世界顶尖多模态大模型开源！又是零一万物，又是李开复

中英文两大权威榜单领先领跑中英文两大权威榜单，李开复零一万物交出多模态大模型答卷！距离其首款开源大模型Yi-34B和Yi-6B的发布，仅间隔不到三个月的时间。模型名为Yi Vision Lang

量子位
2年前
1.1k
4
评论

Github揽获3k+星！清华开源CogAgent：基于多模态大模型的GUI Agent

本文提出了视觉 GUI Agent，使用视觉模态（而非文本）对 GUI 界面进行更全面直接的感知，从而做出规划和决策，同时，研发了多模态大模型 CogAgent。

CV技术指南
2年前
1.9k
3
评论

多模态大语言模型综述(下)-任务实用指南

图像字幕、手语识别、情感分析、视频处理、更聪明的数字人、数据集等场景：模态的发展为AI开辟了新途径，使二进制数据能够理解并处理各种类型的数据。多模态模型将在不久的将来更全面和智能化的系统。

_山海
2年前
2.5k
1
评论

一文深度解读多模态大模型视频检索技术的实现与使用

随着视频社会化趋势以及各类视频平台的快速兴起与发展，「视频检索」越来越成为用户和视频平台实现高效查找视频、定位目标内容的新需求。

阿里云CloudImagine
2年前
3.1k
3
评论

一文深度解读多模态大模型视频检索技术的实现与使用

用一句话完成回归测试——多模态大模型与Prompt工程在前端自动化中的融合探索

多模态大模型(MM-LLMs，全称Multimodal Large Language Models)的迅猛发展与提示工程(Prompt Engineering)的深度融合，正在为软件测开领域注入颠覆性

雪球工程师团队
11月前
844
4
评论

用一句话完成回归测试——多模态大模型与Prompt工程在前端自动化中的融合探索

多模态大语言模型综述(上)-摘要与技术要点

本文是Multimodal Large Language Models: A Survey的译文：技术要点有：知识表示、学习目标、模型结构、信息融合、提示(prompt)使用

_山海
2年前
3.9k
5
评论