首页
沸点
课程
数据标注
HOT
AI Coding
更多
直播
活动
APP
插件
直播
活动
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
登录
注册
确定删除此收藏集吗
删除后此收藏集将被移除
取消
确定删除
确定删除此文章吗
删除后此文章将被从当前收藏集中移除
取消
确定删除
编辑收藏集
名称:
描述:
0
/100
公开
当其他人关注此收藏集后不可再更改为隐私
隐私
仅自己可见此收藏集
取消
确定
多模态
订阅
用户208319915637
更多收藏集
微信扫码分享
微信
新浪微博
QQ
12篇文章 · 0订阅
一句话,AI帮你P图!Qwen-Image-Edit本地部署教程:能转能改能加字
Qwen-Image-Edit基于 20B Qwen-Image 模型,成功地将 Qwen-Image 独特的文本渲染能力扩展到了图像编辑任务中,实现了精确的文本编辑。
马斯克的首款多模态大模型来了,GPT-4V又被超越了一次
自从 2023 年 11 月 Grok 首次亮相以来,马斯克的 xAI 正在大模型领域不断取得进步,向 OpenAI 等先行者发起进攻。
通用文档理解新SOTA,多模态大模型TextMonkey来了
最近,华中科技大学和金山的研究人员在多模态大模型 Monkey [1](Li et al., CVPR2024)工作的基础上提出 TextMonkey。
精确指出特定事件发生时间!字节&复旦大学多模态大模型解读视频太香了
基于Vicuna-1.5 7B 字节&复旦大学多模态理解大模型来了: 可以精确定位到视频中特定事件的发生时间。 比如在下面这个视频中: 狗子转身看镜头时的时间戳是多少? 什么时候用爪子推开滑板? 在这
世界顶尖多模态大模型开源!又是零一万物,又是李开复
中英文两大权威榜单领先 领跑中英文两大权威榜单,李开复零一万物交出多模态大模型答卷! 距离其首款开源大模型Yi-34B和Yi-6B的发布,仅间隔不到三个月的时间。 模型名为Yi Vision Lang
Github揽获3k+星!清华开源CogAgent:基于多模态大模型的GUI Agent
本文提出了视觉 GUI Agent,使用视觉模态(而非文本)对 GUI 界面进行更全面直接的感知,从而做出规划和决策,同时,研发了多模态大模型 CogAgent。
多模态大语言模型综述(下)-任务实用指南
图像字幕、手语识别、情感分析、视频处理、更聪明的数字人、数据集等场景:模态的发展为AI开辟了新途径,使二进制数据能够理解并处理各种类型的数据。多模态模型将在不久的将来更全面和智能化的系统。
一文深度解读多模态大模型视频检索技术的实现与使用
随着视频社会化趋势以及各类视频平台的快速兴起与发展,「视频检索」越来越成为用户和视频平台实现高效查找视频、定位目标内容的新需求。
用一句话完成回归测试——多模态大模型与Prompt工程在前端自动化中的融合探索
多模态大模型(MM-LLMs,全称Multimodal Large Language Models)的迅猛发展与提示工程(Prompt Engineering)的深度融合,正在为软件测开领域注入颠覆性
多模态大语言模型综述(上)-摘要与技术要点
本文是Multimodal Large Language Models: A Survey的译文:技术要点有:知识表示、学习目标、模型结构、信息融合、提示(prompt)使用