每日 AI 项目与应用实例

每日 AI 项目与应用实例

每日 AI 项目与应用实例

分享最新 AI 资讯，收集 AI 模型、工具、框架等开源项目。

等 115 人订阅共816篇文章创建于2024-11-02

VSI-Bench：李飞飞谢赛宁团队推出视觉空间智能基准测试集，旨在评估多模态大语言模型在空间认知和理解方面的能力

VSI-Bench是由李飞飞和谢赛宁团队推出的视觉空间智能基准测试集，旨在评估多模态大型语言模型（MLLMs）在空间认知和理解方面的能力。

1年前
399
点赞
评论

VSI-Bench：李飞飞谢赛宁团队推出视觉空间智能基准测试集，旨在评估多模态大语言模型在空间认知和理解方面的能力

CLEAR：新加坡国立大学推出线性注意力机制，使8K图像的生成速度提升6.3倍，显著减少了计算量和时间延迟

新加坡国立大学推出的CLEAR线性注意力机制，通过局部注意力窗口设计，显著提升了预训练扩散变换器生成高分辨率图像的效率，生成8K图像时提速6.3倍。

1年前
116
点赞
评论

CLEAR：新加坡国立大学推出线性注意力机制，使8K图像的生成速度提升6.3倍，显著减少了计算量和时间延迟

Kheish：开源的多智能体开发框架，通过 YAML 配置工作流和多个 Agent 共同协作解决复杂任务

Kheish 是一个开源的多智能体协调平台，基于大型语言模型（LLM）设计，能够通过灵活配置多个智能体来解决复杂任务。平台支持模块化集成、聊天式提示、反馈循环等功能。

1年前
318
点赞
评论

Kheish：开源的多智能体开发框架，通过 YAML 配置工作流和多个 Agent 共同协作解决复杂任务

Bamba-9B：基于 Mamba2 架构的仅解码语言模型，旨在提高大型语言模型在推理时的效率

Bamba-9B 是由 IBM、普林斯顿大学、卡内基梅隆大学和伊利诺伊大学香槟分校联合推出的基于 Mamba2 架构的仅解码语言模型。该模型在开放数据集上训练。

1年前
148
点赞
评论

Bamba-9B：基于 Mamba2 架构的仅解码语言模型，旨在提高大型语言模型在推理时的效率

DisPose：清华北大等多所高校联合推出基于人物图像增强视频生成技术，实现对人物动画的准确控制和一致性

DisPose是由北京大学、中国科学技术大学、清华大学和香港科技大学联合推出的增强人物图像控制动画质量的技术。该技术通过从骨骼姿态和参考图像中提取控制信号，生成密集运动场，并保持对不同体型的泛化能力，

1年前
253
点赞
评论

DisPose：清华北大等多所高校联合推出基于人物图像增强视频生成技术，实现对人物动画的准确控制和一致性

InvSR：开源图像超分辨率生成模型，提升分辨率，修复老旧照片为超清图像

InvSR 是一个创新的图像超分辨率模型，基于扩散模型的逆过程恢复高分辨率图像。它通过深度噪声预测器和灵活的采样机制，能够高效地提升图像分辨率，适用于老旧照片修复、视频监控、医疗成像等多个领域。

1年前
426
点赞
评论

InvSR：开源图像超分辨率生成模型，提升分辨率，修复老旧照片为超清图像

Univer：开源全栈 AI 办公工具，支持 Word、Excel、PPT 等文档处理和多人实时协作

Univer 是一款开源的 AI 办公工具，支持 Word、Excel 等文档处理的全栈解决方案。它具有强大的功能、高度的可扩展性和跨平台兼容性，适用于个人和企业用户，能够显著提高工作效率。

1年前
2.0k
4
2

Univer：开源全栈 AI 办公工具，支持 Word、Excel、PPT 等文档处理和多人实时协作

3D-Speaker：阿里通义开源的多模态说话人识别项目，支持说话人识别、语种识别、多模态识别、说话人重叠检测和日志记录

3D-Speaker是阿里巴巴通义实验室推出的多模态说话人识别开源项目，结合声学、语义和视觉信息，提供高精度的说话人识别和语种识别功能。

1年前
710
点赞
评论

3D-Speaker：阿里通义开源的多模态说话人识别项目，支持说话人识别、语种识别、多模态识别、说话人重叠检测和日志记录

VisionFM：通用眼科 AI 大模型，具备眼科疾病诊断能力，展现出专家级别的准确性

VisionFM 是一个多模态多任务的视觉基础模型，专为通用眼科人工智能设计。通过预训练大量眼科图像，模型能够处理多种眼科成像模态，并在多种眼科任务中展现出专家级别的智能性和准确性。

1年前
285
点赞
评论

VisionFM：通用眼科 AI 大模型，具备眼科疾病诊断能力，展现出专家级别的准确性

LeviTor：蚂蚁集团开源3D目标轨迹控制视频合成技术，能够控制视频中3D物体的运动轨迹

LeviTor是由南京大学、蚂蚁集团等机构联合推出的3D目标轨迹控制视频合成技术，通过结合深度信息和K-means聚类点控制视频中3D物体的轨迹，无需显式的3D轨迹跟踪。

1年前
536
点赞
评论

LeviTor：蚂蚁集团开源3D目标轨迹控制视频合成技术，能够控制视频中3D物体的运动轨迹

AgentScope：阿里开源多智能体低代码开发平台，支持一键导出源码、多种模型API和本地模型部署

AgentScope是阿里巴巴集团开源的多智能体开发平台，旨在帮助开发者轻松构建和部署多智能体应用。该平台提供分布式支持，内置多种模型API和本地模型部署选项，支持多模态数据处理。

1年前
1.4k
点赞
评论

AgentScope：阿里开源多智能体低代码开发平台，支持一键导出源码、多种模型API和本地模型部署

StyleStudio：支持图像风格迁移的文生图模型，能将融合参考图像的风格和文本提示内容生成风格一致的图像

StyleStudio 是一种文本驱动的风格迁移模型，能够将参考图像的风格与文本提示内容融合。通过跨模态 AdaIN 机制、基于风格的分类器自由引导等技术。

1年前
347
点赞
评论

StyleStudio：支持图像风格迁移的文生图模型，能将融合参考图像的风格和文本提示内容生成风格一致的图像

PromptWizard：微软开源 AI 提示词自动化优化框架，能够迭代优化提示指令和上下文示例，提升 LLMs 特定任务的表现

PromptWizard 是微软开源的 AI 提示词自动化优化框架，通过自我演变和自我适应机制，迭代优化提示指令和上下文示例，提升大型语言模型（LLMs）在特定任务中的表现。

1年前
407
点赞
评论

PromptWizard：微软开源 AI 提示词自动化优化框架，能够迭代优化提示指令和上下文示例，提升 LLMs 特定任务的表现

RWKV-7：RWKV系列开源最新的大模型架构，具有强大的上下文学习能力，超越传统的Attention范式

RWKV-7是RWKV系列的最新大模型架构版本，具有强大的上下文学习能力，超越了传统的attention和linear attention范式。本文详细介绍了RWKV-7的主要功能、技术原理。

1年前
383
点赞
评论

RWKV-7：RWKV系列开源最新的大模型架构，具有强大的上下文学习能力，超越传统的Attention范式

OpenAI 12天发布会内容全纪录！一文快速回顾获知亮点信息，原文附发布会中文字幕视频

OpenAI 于12月5日宣布将举行为期12天的系列发布活动，期间每天发布一个产品或样品，包括备受期待的AI视频生成工具Sora和新的推理模型。本文将介绍这12天的发布会每日的发布内容和相关亮点信息。

1年前
456
1
评论

OpenAI 12天发布会内容全纪录！一文快速回顾获知亮点信息，原文附发布会中文字幕视频

Gemini 2.0 Flash Thinking：谷歌推出实验性多模态推理模型，在快速生成的同时展示详细的思考过程

谷歌推出的实验性推理模型Gemini 2.0 Flash Thinking，展示了详细的思考过程，能够在多个领域快速解决问题，并提供推理路径。本文将详细介绍该模型的功能、技术原理及使用限制。

1年前
471
点赞
评论

Gemini 2.0 Flash Thinking：谷歌推出实验性多模态推理模型，在快速生成的同时展示详细的思考过程

AniDoc：蚂蚁集团开源 2D 动画上色 AI 模型，基于视频扩散模型自动将草图序列转换成彩色动画，保持动画的连贯性

AniDoc 是一款基于视频扩散模型的 2D 动画上色 AI 模型，能够自动将草图序列转换为彩色动画。该模型通过对应匹配技术和背景增强策略，实现了色彩和风格的准确传递。

1年前
352
点赞
评论

AniDoc：蚂蚁集团开源 2D 动画上色 AI 模型，基于视频扩散模型自动将草图序列转换成彩色动画，保持动画的连贯性

Genesis：卡内基梅隆大学联合 20 多所研究机构开源生成式物理引擎，能够模拟各种材料、物体和物理运动现象

Genesis是由卡内基梅隆大学联合20多所研究机构开源的生成式物理引擎，能够模拟世界万物，具有高度的物理准确性和快速的模拟速度，适用于机器人仿真、游戏开发、电影特效制作等多个领域。

1年前
849
点赞
评论

Genesis：卡内基梅隆大学联合 20 多所研究机构开源生成式物理引擎，能够模拟各种材料、物体和物理运动现象

WeaveFox：蚂蚁集团推出 AI 前端智能研发平台，能够根据设计图直接生成源代码，支持多种客户端和技术栈

蚂蚁团队推出的AI前端研发平台WeaveFox，能够根据设计图直接生成前端源代码，支持多种应用类型和技术栈，提升开发效率和质量。本文将详细介绍WeaveFox的功能、技术原理及应用场景。

1年前
878
点赞
2

WeaveFox：蚂蚁集团推出 AI 前端智能研发平台，能够根据设计图直接生成源代码，支持多种客户端和技术栈

GitHub 推出免费版 GitHub Copilot：提供每月2,000次代码补全和50条聊天消息，支持多种主流大模型

GitHub 推出了 GitHub Copilot Free，提供每月 2,000 代码补全和 50 聊天消息，支持多种模型和功能，助力 1.5 亿开发者。

1年前
668
点赞
评论

GitHub 推出免费版 GitHub Copilot：提供每月2,000次代码补全和50条聊天消息，支持多种主流大模型