无需训练的扩散模型通用加速模块；从视频中实时生成Avatar头像；自动去除扩散模型中的冗余结构；GPT-4V在自动驾驶中的应用

mp.weixin.qq.com/s/UI0dt0grQ…

LCM-LoRA: A Universal Stable-Diffusion Acceleration Module

Latent Consistency Models (LCMs)是一种用于加速文本到图像生成任务的模型，它能够产生高质量的图像并且只需要少量的推理步骤。LCMs是由预训练的潜在扩散模型(LDMs)进行知识蒸馏得到的，只需要约32个A100 GPU训练小时。此文进一步扩展了LCMs的潜力，首先，通过将LoRA蒸馏应用于包括SD-V1.5、SSD-1B和SDXL在内的Stable-Diffusion模型，作者将LCM的应用范围扩展到了更大的模型，同时显著降低了内存消耗，并实现了更高质量的图像生成。其次，作者将通过LCM蒸馏获得的LoRA参数作为一个通用的Stable-Diffusion加速模块，命名为LCM-LoRA。LCM-LoRA可以直接插入到各种Stable-Diffusion fine-tuned模型或LoRAs中，且无需训练，因此可以作为各种图像生成任务的通用加速器。与现有的数值PF-ODE求解器(如DDIM、DPM-Solver)相比，LCM-LoRA可以被视为具有强大泛化能力的PF-ODE求解器的插件。

BakedAvatar: Baking Neural Fields for Real-Time Head Avatar Synthesis

该文提出了一种名为BakedAvatar的神经网络模型，它可以从视频中实时生成逼真的4D avatar头像，并可以在标准多边形光栅化管道中部署。该方法首先从学习到的头部等值面中提取可变形多层网格，并计算出与表情、姿态和视角相关的外观，然后将其bake到静态纹理中进行高效的渲染。该文还提出了一种包含三个阶段的neural head avatar合成方案，包括学习连续变形、流形和辐射场，提取分层网格和纹理，以及使用差分光栅化来调整纹理细节。实验结果表明，该方法生成的质量与其他SOTA方法相当，但推理时间大大减少。

Lightweight Diffusion Models with Distillation-Based Block Neural Architecture Search

该文提出了一种名为Diffusion Distillation-based Block-wise Neural Architecture Search（DiffNAS）的方法，用于自动去除扩散模型中的冗余结构。考虑到扩散模型是基于具有块状结构的UNet，因此该方法独立地对每个块进行网络架构搜索(NAS)，大大减少了搜索空间。与以前的块状NAS方法不同，DiffNAS包含一个逐块的局部搜索策略和一个具有联合动态损失的重新训练策略。具体来说，在搜索过程中，逐块选择最佳子网络以避免先前工作中使用的全局搜索策略带来的不公平性。在重新训练搜索到的架构时，作者采用了动态联合损失来维护supernet训练和subnet重新训练之间的一致性，缩短了梯度传播的路径。实验表明，该方法可以显著减少计算量，在潜在扩散模型上可以减少50％MACs和参数。

On the Road with GPT-4V(ision): Early Explorations of Visual-Language Model on Autonomous Driving

实现自动驾驶技术的关键在于将感知、决策和控制等系统进行高度集成，传统方法包括数据驱动方法和基于规则的方法，由于无法理解复杂的驾驶环境和其他驾驶者的意图，这在发展常识推理和细致理解场景等方面是一个重要的瓶颈，而这些又是实现安全可靠的自动驾驶所必需的。视觉语言模型（VLM）的出现展现了在实现全自动驾驶方面的一个全新领域，本文对SOTA VLM进行了全面评估，并探讨了其应用于自动驾驶场景的能力。