获得徽章 0
牛马打工人不配买50w的车
奋斗七八年了,真的很想在30岁的时候拿下一台梦寐以求的车,一直都有关注问界M9,真的很想买这台车,即便这要花掉我将近2年的工资,但还是想圆梦,大家说值得吗?
奋斗七八年了,真的很想在30岁的时候拿下一台梦寐以求的车,一直都有关注问界M9,真的很想买这台车,即便这要花掉我将近2年的工资,但还是想圆梦,大家说值得吗?
133
6
多模态大模型任务总结
什么是多模态?
模态指的是数据或者信息的表现形式,如文本、图像、音频、视频等。
多模态学习就是利用模型去同时处理多个模态数据,如同时处理图文,图生文本、文本生图等。通过多模态大模型,可以更好地理解和处理复杂的多模态数据,提高人工智能的应用性能。
多模态的任务有哪些?
Language-Audio
- Text-to-Speech Synthesis: 给定文本,生成一段对应的声音
- Audio Captioning:给定一段语音,生成一句话总结并描述主要内容
Vision-Audio
- Audio-Visual Speech Recognition:给定某人的视频及语音进行语音识别
- Video Sound Separation:给定视频和声音信号,进行声源定位与分离
- Image Generation from Audio: 给定声音,生成与其相关的图像
- Speech-conditioned Face generation:给定一段话,生成说话人的视频
- Audio-Driven 3D Facial Animation:给定一段话与3D人脸模版,生成说话的人脸3D动画
Vision-Language
- Image/Video-Text Retrieval: 图像/视频<-->文本的相互检索
- Image/Video Captioning:给定一个图像/视频,生成文本描述其主要内容
- Visual Question Answering:给定一个图像/视频与一个问题,预测答案
- Image/Video Generation from Text:给定文本,生成相应的图像或视频
- Multimodal Machine Translation:给定一种语言的文本与该文本对应的图像,翻译为另外一种语言
- Vision-and-Language Navigation:给定自然语言进行指导,使得智能体根据视觉传感器导航到特定的目标。
- Multimodal Dialog:给定图像,历史对话,以及与图像相关的问题,预测该问题的回答
定位
什么是多模态?
模态指的是数据或者信息的表现形式,如文本、图像、音频、视频等。
多模态学习就是利用模型去同时处理多个模态数据,如同时处理图文,图生文本、文本生图等。通过多模态大模型,可以更好地理解和处理复杂的多模态数据,提高人工智能的应用性能。
多模态的任务有哪些?
Language-Audio
- Text-to-Speech Synthesis: 给定文本,生成一段对应的声音
- Audio Captioning:给定一段语音,生成一句话总结并描述主要内容
Vision-Audio
- Audio-Visual Speech Recognition:给定某人的视频及语音进行语音识别
- Video Sound Separation:给定视频和声音信号,进行声源定位与分离
- Image Generation from Audio: 给定声音,生成与其相关的图像
- Speech-conditioned Face generation:给定一段话,生成说话人的视频
- Audio-Driven 3D Facial Animation:给定一段话与3D人脸模版,生成说话的人脸3D动画
Vision-Language
- Image/Video-Text Retrieval: 图像/视频<-->文本的相互检索
- Image/Video Captioning:给定一个图像/视频,生成文本描述其主要内容
- Visual Question Answering:给定一个图像/视频与一个问题,预测答案
- Image/Video Generation from Text:给定文本,生成相应的图像或视频
- Multimodal Machine Translation:给定一种语言的文本与该文本对应的图像,翻译为另外一种语言
- Vision-and-Language Navigation:给定自然语言进行指导,使得智能体根据视觉传感器导航到特定的目标。
- Multimodal Dialog:给定图像,历史对话,以及与图像相关的问题,预测该问题的回答
定位
展开
评论
点赞