视觉+语言融合是大模型的下一个爆发点
核心内容:
-
图文多模态基础
- CLIP、BLIP原理
- 跨模态对齐技术
- 视觉Token化方法
-
图像生成技术
- Diffusion模型原理(DDPM、DDIM)
- ControlNet、LoRA应用
- Text-to-Image实战
-
视频理解与生成
- 视频特征提取
- 时序建模方法
- Sora类技术原理
-
3D视觉
- NeRF、3D Gaussian Splatting
- 三维重建流程
- SLAM/VIO基础
图文多模态基础(20 题)
- 什么是多模态学习?为什么要把图像和文本结合起来?
- CLIP是怎么工作的?对比学习(Contrastive Learning)是什么?
- CLIP的训练目标是什么?为什么要做图文匹配?
- CLIP能做Zero-shot图像分类吗?原理是什么?
- ALIGN和CLIP有什么区别?数据规模的影响有多大?
- BLIP模型做了什么改进?ITC、ITM、ITG三个任务是什么?
- BLIP-2是怎么连接视觉和语言模型的?Q-Former是干什么的?
- 什么是视觉Token化?怎么把图像变成LLM能理解的序列?
- ViT(Vision Transformer)是怎么处理图像的?Patch Embedding是什么?
- ViT和CNN有什么区别?为什么多模态模型更喜欢用ViT?
- CLIP的视觉编码器用ViT还是ResNet?各有什么优缺点?
- 跨模态检索(Cross-modal Retrieval)怎么做?图搜文、文搜图的原理是什么?
- 图文相似度怎么计算?余弦相似度够用吗?
- 什么是视觉-语言预训练(Vision-Language Pre-training)?有哪些经典任务?
- Masked Language Modeling在多模态里怎么用?
- Image-Text Matching(ITM)任务是怎么设计的?正负样本怎么构造?
- Visual Question Answering(VQA)是什么?怎么让模型回答图片相关的问题?
- Image Captioning(图像描述生成)怎么做?Encoder-Decoder架构怎么用?
- 注意力机制在多模态里怎么用?Cross-Attention是什么?
- 多模态模型的对齐(Alignment)是什么意思?怎么让图文语义对应?
图像生成技术(20 题)
- 扩散模型(Diffusion Model)的原理是什么?前向过程和反向过程是什么?
- DDPM(Denoising Diffusion Probabilistic Model)是怎么训练的?
- DDIM相比DDPM有什么改进?为什么能加速采样?
- Stable Diffusion的架构是什么?为什么要在Latent Space里做扩散?
- VAE在Stable Diffusion里起什么作用?编码器和解码器各干什么?
- U-Net在扩散模型里是怎么用的?时间步嵌入(Time Embedding)是什么?
- Classifier-Free Guidance是什么?为什么能提升生成质量?
- Negative Prompt是怎么工作的?怎么避免生成不想要的内容?
- ControlNet是什么?怎么实现条件可控的图像生成?
- ControlNet支持哪些控制条件?边缘、深度、姿态怎么用?
- LoRA在Stable Diffusion里怎么用?为什么微调这么快?
- DreamBooth是什么?怎么让模型学会生成特定的人或物?
- Textual Inversion是怎么工作的?怎么用几张图教会模型一个概念?
- IP-Adapter是什么?怎么用图像作为Prompt?
- 什么是Inpainting(图像修复)?怎么让模型补全图像的某个区域?
- Outpainting(图像扩展)怎么做?怎么让模型扩展画布?
- 图生图(Image-to-Image)和文生图有什么区别?Img2Img的强度参数是什么?
- 什么是风格迁移(Style Transfer)?怎么让生成的图像保持特定风格?
- 多模态大模型(如GPT-4V)的视觉能力是怎么训练的?
- DALL-E 3和Stable Diffusion有什么区别?各有什么优势?
视频理解与生成(15 题)
- 视频理解和图像理解有什么区别?时序信息怎么建模?
- 3D卷积(3D CNN)在视频里怎么用?和2D CNN有什么区别?
- 双流网络(Two-Stream Network)是什么?RGB流和光流各干什么?
- TimeSformer是怎么用Transformer处理视频的?时空注意力怎么设计?
- VideoMAE是什么?Masked Autoencoder在视频预训练里怎么用?
- 视频分类(Video Classification)怎么做?怎么从视频里提取全局特征?
- 动作识别(Action Recognition)和视频分类有什么区别?
- 视频字幕生成(Video Captioning)怎么做?怎么描述视频内容?
- 视频问答(Video QA)比图像问答难在哪?时序推理怎么做?
- 视频生成模型有哪些?扩散模型能生成视频吗?
- Sora是怎么生成视频的?Transformer架构在视频生成里怎么用?
- 视频生成的时序一致性怎么保证?怎么避免画面抖动?
- 文本生成视频(Text-to-Video)的难点是什么?
- 视频编辑(Video Editing)怎么做?怎么改变视频里的某个物体?
- 视频超分辨率(Video Super-Resolution)是什么?怎么提升视频清晰度?
3D视觉与重建(15 题)
- NeRF(Neural Radiance Fields)是什么?怎么从2D图像重建3D场景?
- NeRF的体渲染(Volume Rendering)原理是什么?
- NeRF训练很慢怎么办?Instant-NGP是怎么加速的?
- 3D Gaussian Splatting(3DGS)是什么?和NeRF有什么区别?
- 3DGS为什么比NeRF快?实时渲染怎么实现的?
- 多视图几何(Multi-View Geometry)是什么?SfM和SLAM有什么区别?
- 深度估计(Depth Estimation)怎么做?单目深度估计可能吗?
- 什么是点云(Point Cloud)?点云怎么处理和渲染?
- 三维目标检测(3D Object Detection)怎么做?和2D检测有什么区别?
- 三维重建的数据集有哪些?ShapeNet、Objaverse是什么?
- 文本生成3D(Text-to-3D)怎么做?DreamFusion的原理是什么?
- Score Distillation Sampling(SDS)是什么?怎么用2D扩散模型指导3D生成?
- 3D人体重建怎么做?SMPL模型是什么?
- 虚拟试穿(Virtual Try-On)技术怎么实现?
- AR/VR场景下的3D视觉有什么特殊需求?
多模态大模型 (10 题)
- GPT-4V(GPT-4 Vision)的多模态能力有多强?能做什么?
- Gemini的多模态融合是怎么做的?Native Multimodal是什么意思?
- LLaVA(Large Language and Vision Assistant)是怎么训练的?
- LLaVA的视觉指令微调数据是怎么生成的?GPT-4的作用是什么?
- Qwen-VL(通义千问视觉版)有什么特点?和GPT-4V差距在哪?
- CogVLM的视觉专家模块是怎么设计的?
- 多模态大模型的Benchmark有哪些?MMBench、SEED-Bench测什么?
- 多模态大模型能做OCR吗?文档理解能力怎么样?
- 视频多模态大模型怎么做?长视频理解的难点是什么?
- 多模态大模型的幻觉问题更严重吗?视觉幻觉怎么缓解?