小羊想说这些的个人主页 - 动态

1月前

开车还热车嘛？
你们现在开车还有热车习惯吗？冬天感觉有必要，但是原地热车又怕积炭….

13

1月前

不带滤镜，特斯拉真的好开吗
特斯拉是真的很好开吗，有没有真实的特斯拉车主来说一说驾驶感受

12

1月前

牛马打工人不配买50w的车
奋斗七八年了，真的很想在30岁的时候拿下一台梦寐以求的车，一直都有关注问界M9，真的很想买这台车，即便这要花掉我将近2年的工资，但还是想圆梦，大家说值得吗？

等人赞过

133

6

1月前

给INFJ 500w，会马上辞职躺平吗

5

1月前

大家上车后第一件事会做什么？
大家上车后第一件事会做什么？我一般上车后的第一件事就是系上安全带，连上蓝牙放音乐

赞过

17

2

1月前

建议年前买车还是年后买车啊？

18

1月前

为什么现在两门精致小车几乎看不到了？

10

1月前

多模态大模型任务总结
什么是多模态？
模态指的是数据或者信息的表现形式，如文本、图像、音频、视频等。
多模态学习就是利用模型去同时处理多个模态数据，如同时处理图文，图生文本、文本生图等。通过多模态大模型，可以更好地理解和处理复杂的多模态数据，提高人工智能的应用性能。
多模态的任务有哪些？
Language-Audio
- Text-to-Speech Synthesis: 给定文本，生成一段对应的声音
- Audio Captioning：给定一段语音，生成一句话总结并描述主要内容
Vision-Audio
- Audio-Visual Speech Recognition：给定某人的视频及语音进行语音识别
- Video Sound Separation：给定视频和声音信号，进行声源定位与分离
- Image Generation from Audio: 给定声音，生成与其相关的图像
- Speech-conditioned Face generation：给定一段话，生成说话人的视频
- Audio-Driven 3D Facial Animation：给定一段话与3D人脸模版，生成说话的人脸3D动画
Vision-Language
- Image/Video-Text Retrieval: 图像/视频<-->文本的相互检索
- Image/Video Captioning：给定一个图像/视频，生成文本描述其主要内容
- Visual Question Answering：给定一个图像/视频与一个问题，预测答案
- Image/Video Generation from Text：给定文本，生成相应的图像或视频
- Multimodal Machine Translation：给定一种语言的文本与该文本对应的图像，翻译为另外一种语言
- Vision-and-Language Navigation：给定自然语言进行指导，使得智能体根据视觉传感器导航到特定的目标。

- Multimodal Dialog：给定图像，历史对话，以及与图像相关的问题，预测该问题的回答
定位

展开