Lab4AI大模型实验室

无 | 北京九章云极科技有限公司

大模型实验室Lab4AI是拥有高性能GPU的AI实践内容社区。

赞

0

|

搜索文章

# CVPR 2025| 基于扩散变换器的自适应图像融合框架| 计算机视觉 | 图像编辑

论文名称：DreamFuse: Adaptive Image Fusion with Diffusion Transformer —— 基于扩散变换器的自适应图像融合框架

4月前
118
点赞
评论

从帧到世界：面向世界模型的长视频生成

从帧到世界：面向世界模型的长视频生成世界模型是一种能够“看懂”现实世界规则并“预测”其动态变化的生成式AI，例如理解“抛球会落地”或“太阳东升西落”等常识。其技术本质是通过大量数据学习物理规律、因果

4月前
133
点赞
评论

CVPR 2024 | 赋能大语言模型以精准理解视频时序瞬间 | LLM | 时序预测

CVPR 2024 | 赋能大语言模型以精准理解视频时序瞬间 | LLM | 时序预测论文名称：VTimeLLM: Empower LLM to Grasp Video Moments

4月前
68
点赞
评论

CVPR 2022！经典论文！稳定扩散模型（Stable Diffusion）背后的革命性技术：隐空间扩散模型

CVPR 2022！经典论文！稳定扩散模型（Stable Diffusion）背后的革命性技术：隐空间扩散模型

4月前
131
点赞
评论

VideoLLaMA 3新一代前沿多模态基础模型赋能图像与视频深度理解| LLM | 计算机视觉

VideoLLaMA 3是基于Llama 3的前沿多模态基础模型，深度融合视觉、听觉与语言理解能力，支持高分辨率图像和长视频的端到端分析。其核心技术包括统一的视听语言架构、高效长视频词元化和万亿级多

5月前
77
点赞
评论

VideoLLaMA 3新一代前沿多模态基础模型赋能图像与视频深度理解| LLM | 计算机视觉

AAAI2025！北理工团队提出FBRT-YOLO：面向实时航拍图像更快更好的目标检测 |计算机视觉|目标检测

论文《FBRT-YOLO: Faster and Better for Real-Time Aerial Image Detection》提出了一种针对航拍图像目标检测的优化方法。

5月前
83
点赞
评论

AAAI2025！北理工团队提出FBRT-YOLO：面向实时航拍图像更快更好的目标检测 |计算机视觉|目标检测

视频编辑的新成果！港科大&蚂蚁集团提出Ditto框架刷新SOTA！

论文标题：Scaling Instruction-Based VideoEditing with a High-Quality Synthetic Dataset 作者团队：香港科大、蚂蚁集团、浙江大

5月前
55
点赞
评论

CVPR 2024 目标检测！开放词汇

CVPR 2024 目标检测！开放词汇 01 论文概述论文名称：YOLO-World: Real-Time Open-Vocabulary Object Detection 会议名称：CVPR （2

5月前
219
点赞
评论

【项目复现上新】突破推理瓶颈！LightLLM轻量化部署新范式，打造高性能法律智能体

本文探讨了LightLLM框架在法律智能体中的应用，解决大语言模型知识滞后和幻觉问题。通过RAG框架整合外部知识库，LightLLM实现轻量化部署与高效推理，支持多模型规模与量化策略。文章详细演示了在

5月前
88
点赞
评论

【项目复现上新】突破推理瓶颈！LightLLM轻量化部署新范式，打造高性能法律智能体

【项目复现上新】LLaMA Factory 微调实践：从零构建苏东坡角色扮演大模型 | 附Lab4AI平台一键复现指南

【项目复现上新】LLaMA Factory 微调实践：从零构建苏东坡角色扮演大模型 | 附Lab4AI平台一键复现指南这是微调后大模型的回答，随着人工智能的发展，虚拟角色不再只是冰冷的对话机器，而是

5月前
172
点赞
评论

个人成就

文章被阅读 11,461

加入于

2025-10-13