每日 AI 项目与应用实例

每日 AI 项目与应用实例

每日 AI 项目与应用实例

分享最新 AI 资讯，收集 AI 模型、工具、框架等开源项目。

等 115 人订阅共816篇文章创建于2024-11-02

BALROG：基准测试工具，用于评估 LLMs 和 VLMs 在复杂动态环境中的推理能力

BALROG 是一款用于评估大型语言模型（LLMs）和视觉语言模型（VLMs）在复杂动态环境中推理能力的基准测试工具。它通过一系列挑战性的游戏环境，如 NetHack，测试模型的规划、空间推理和探索能

1年前
300
点赞
评论

BALROG：基准测试工具，用于评估 LLMs 和 VLMs 在复杂动态环境中的推理能力

Optima：清华联合北邮推出优化通信效率和任务有效性的训练框架

Optima是由清华大学和北京邮电大学联合推出的一个优化通信效率和任务有效性的训练框架。该框架通过迭代生成、排名、选择和训练范式，显著提高了基于大型语言模型（LLM）的多智能体系统（MAS）的通信效率

1年前
134
点赞
评论

Optima：清华联合北邮推出优化通信效率和任务有效性的训练框架

Fugatto：英伟达推出的多功能AI音频生成模型

Fugatto是由英伟达推出的多功能AI音频生成模型，能够根据文本提示生成音频或视频，并修改现有音频文件。该模型基于增强型的Transformer模型，支持复杂的组合指令，具有强大的音频生成与转换能力

1年前
312
点赞
评论

Fugatto：英伟达推出的多功能AI音频生成模型

LEOPARD：腾讯AI Lab西雅图实验室推出的视觉语言模型

LEOPARD是由腾讯AI Lab西雅图实验室推出的视觉语言模型，专为处理含有大量文本的多图像任务设计。该模型通过自适应高分辨率多图像编码模块和大规模多模态指令调优数据集。

1年前
272
点赞
评论

LEOPARD：腾讯AI Lab西雅图实验室推出的视觉语言模型

AutoTrain：Hugging Face 开源的无代码模型训练平台

AutoTrain 是 Hugging Face 推出的开源无代码模型训练平台，旨在简化最先进模型的训练过程。用户无需编写代码，只需上传数据即可创建、微调和部署自己的 AI 模型。

1年前
480
点赞
评论

AutoTrain：Hugging Face 开源的无代码模型训练平台

StoryTeller：字节、上海交大、北大共同推出的全自动长视频描述生成一致系统

StoryTeller是由字节跳动、上海交通大学和北京大学共同推出的全自动长视频描述生成系统。该系统通过音频视觉角色识别技术，结合低级视觉概念和高级剧情信息，生成详细且连贯的视频描述。

1年前
147
点赞
评论

StoryTeller：字节、上海交大、北大共同推出的全自动长视频描述生成一致系统

LongRAG：智谱联合清华和中科院推出的双视角鲁棒检索框架

LongRAG是由智谱、清华大学和中国科学院联合推出的双视角鲁棒检索增强生成框架，专为长文本问答设计。该框架通过混合检索器、LLM增强信息提取器、CoT引导过滤器和LLM增强生成器等组件。

1年前
167
点赞
评论

LongRAG：智谱联合清华和中科院推出的双视角鲁棒检索框架

LazyGraphRAG：微软推出的图形增强生成增强检索框架

LazyGraphRAG是微软研究院推出的图形增强生成增强检索框架，旨在大幅降低数据索引成本并提高查询效率。该框架结合了最佳优先搜索和广度优先搜索，支持本地和全局查询。

1年前
111
点赞
评论

LazyGraphRAG：微软推出的图形增强生成增强检索框架

ViewExtrapolator：南洋理工联合UCAS团队推出的新型视图合成方法

南洋理工大学与UCAS团队联合推出了一种新型视图合成方法——ViewExtrapolator。该方法基于稳定视频扩散（SVD）技术，能够在不进行微调的情况下，高效生成超出训练视图范围的新视角图像。

1年前
100
点赞
评论

ViewExtrapolator：南洋理工联合UCAS团队推出的新型视图合成方法

MuCodec：清华、腾讯AI、港中文共同推出的超低比特率音乐编解码器

MuCodec是由清华大学深圳国际研究生院、腾讯AI实验室和香港中文大学联合开发的超低比特率音乐编解码器。它能够在0.35kbps至1.35kbps的比特率下实现高效的音乐压缩和高保真重建。

1年前
199
点赞
评论

MuCodec：清华、腾讯AI、港中文共同推出的超低比特率音乐编解码器

EvolveDirector：阿里联合南洋理工推出文本到图像生成模型的高效训练技术

EvolveDirector是由阿里巴巴和南洋理工大学联合推出的文本到图像生成模型的高效训练技术。该框架通过与高级模型的API交互获取数据对，并利用预训练的大型视觉语言模型（VLMs）动态优化训练数据

1年前
107
点赞
评论

EvolveDirector：阿里联合南洋理工推出文本到图像生成模型的高效训练技术

XGrammar：陈天奇团队推出的LLM结构化生成引擎

XGrammar是由陈天奇团队推出的开源软件库，专为大型语言模型（LLM）设计，提供高效、灵活且可移植的结构化数据生成能力。

1年前
307
点赞
评论

XGrammar：陈天奇团队推出的LLM结构化生成引擎

ebook2audiobookXTTS：开源电子书转有声书 AI 工具，支持 16 种语言

ebook2audiobookXTTS 是一款开源的 AI 工具，能够将电子书转换为有声书，支持多种电子书格式和 16 种语言。该工具利用 Coqui XTTS 技术实现高质量的文本到语音转换。

1年前
839
点赞
评论

ebook2audiobookXTTS：开源电子书转有声书 AI 工具，支持 16 种语言

OneDiffusion：无缝支持双向图像合成和理解的开源扩散模型

OneDiffusion 是一个开源的扩散模型，能够无缝支持双向图像合成和理解。它基于统一的训练框架，支持多种任务，如文本到图像生成、条件图像生成和图像理解等。

1年前
254
点赞
评论

OneDiffusion：无缝支持双向图像合成和理解的开源扩散模型

TÜLU 3：Ai2推出的系列开源指令遵循模型

TÜLU 3是由艾伦人工智能研究所（Ai2）推出的开源指令遵循模型系列，包括8B和70B两个版本，未来计划推出405B版本。该模型在性能上超越了Llama 3.1 Instruct版本。

1年前
177
点赞
评论

TÜLU 3：Ai2推出的系列开源指令遵循模型

Pangea：卡内基梅隆大学开源的多语言多模态大语言模型

Pangea是由卡内基梅隆大学团队开发的多语言多模态大型语言模型，支持39种语言，包含高质量英文指令、机器翻译指令及文化相关任务。

1年前
249
点赞
评论

Pangea：卡内基梅隆大学开源的多语言多模态大语言模型

ACE：阿里通义实验室推出的全能图像生成和编辑模型

ACE是阿里巴巴通义实验室推出的全能图像生成和编辑模型，基于扩散变换器，支持多模态输入和多任务处理。该模型通过长上下文条件单元（LCU）和统一条件格式。

1年前
535
点赞
评论

ACE：阿里通义实验室推出的全能图像生成和编辑模型

Kandinsky-3：开源的文本到图像生成框架，适应多种图像生成任务

Kandinsky-3 是一个开源的文本到图像生成框架，基于潜在扩散模型，能够适应多种图像生成任务。该框架支持高质量和逼真的图像合成，包括文本引导的修复/扩展、图像融合、文本-图像融合及视频生成等功能

1年前
199
1
评论

Kandinsky-3：开源的文本到图像生成框架，适应多种图像生成任务

DynaSaur：Adobe 推出的大语言模型代理框架

Adobe Research 推出的 DynaSaur 是一个突破性的大语言模型代理框架，它允许代理动态创建和组合动作，通过生成和执行 Python 代码与环境互动，从而实现更灵活的问题解决。

1年前
66
点赞
评论

DynaSaur：Adobe 推出的大语言模型代理框架

MVPaint：腾讯PCG联合多所高校共同推出的3D纹理生成框架

MVPaint是由腾讯PCG联合多所高校共同推出的3D纹理生成框架，基于同步多视角扩散技术，实现高分辨率、无缝且多视图一致的3D纹理生成。

1年前
180
点赞
评论

MVPaint：腾讯PCG联合多所高校共同推出的3D纹理生成框架