每日 AI 项目与应用实例

每日 AI 项目与应用实例

每日 AI 项目与应用实例

分享最新 AI 资讯，收集 AI 模型、工具、框架等开源项目。

等 115 人订阅共816篇文章创建于2024-11-02

Agent-E：基于 AutoGen 代理框架构建的 AI 浏览器自动化系统

Agent-E 是一个基于 AutoGen 代理框架构建的智能自动化系统，专注于浏览器内的自动化操作。它能够执行多种复杂任务，如填写表单、搜索和排序电商产品、定位网页内容等，从而提高在线效率，减少重复

1年前
216
点赞
评论

Agent-E：基于 AutoGen 代理框架构建的 AI 浏览器自动化系统

GLM-Edge：智谱开源的端侧大语言和多模态系列模型

GLM-Edge是智谱开源的一系列端侧部署优化的大语言对话模型和多模态理解模型，旨在实现模型性能、实机推理效果和落地便利性之间的最佳平衡。该系列模型支持在手机、车机和PC等端侧设备上高效运行，适用于智

1年前
282
点赞
评论

GLM-Edge：智谱开源的端侧大语言和多模态系列模型

Make-It-Animatable：中科大联合腾讯推出的自动生成即时动画准备资产

Make-It-Animatable是由中国科学技术大学和腾讯联合推出的数据驱动框架，能够在不到一秒内将任何3D人形模型转换为可用于动画的状态。该框架支持多种3D数据格式，并采用从粗到细的表示策略和结

1年前
210
点赞
评论

Make-It-Animatable：中科大联合腾讯推出的自动生成即时动画准备资产

Voice-Pro：开源AI音频处理工具，集成转录、翻译、TTS等一站式服务

Voice-Pro是一款开源的多功能音频处理工具，集成了语音转文字、文本转语音、实时翻译、YouTube视频下载和人声分离等多种功能。

1年前
895
4
评论

Voice-Pro：开源AI音频处理工具，集成转录、翻译、TTS等一站式服务

iDP3：斯坦福大学联合多所高校推出的改进型3D视觉运动策略

iDP3是由斯坦福大学联合多所高校推出的改进型3D视觉运动策略，旨在提升人形机器人在多样化环境中的自主操作能力。该策略基于自我中心的3D视觉表征，无需精确相机校准和点云分割。

1年前
257
点赞
评论

iDP3：斯坦福大学联合多所高校推出的改进型3D视觉运动策略

OminiControl：AI图像生成框架，实现图像主题控制和空间精确控制

OminiControl 是一个高度通用且参数高效的 AI 图像生成框架，专为扩散变换器模型设计，能够实现图像主题控制和空间精确控制。该框架通过引入极少量的额外参数（0.1%），支持主题驱动控制和空间

1年前
96
点赞
评论

OminiControl：AI图像生成框架，实现图像主题控制和空间精确控制

Proactive Agent：清华联合面壁智能开源的新一代主动Agent交互范式

Proactive Agent是由清华大学联合面壁智能等团队推出的新一代主动Agent交互范式。它具备主动性，能够预测用户需求并在没有直接指令的情况下采取行动。

1年前
297
点赞
评论

Proactive Agent：清华联合面壁智能开源的新一代主动Agent交互范式

Mooncake：月之暗面Kimi联合清华等机构推出的大模型推理架构

Mooncake是由月之暗面Kimi联合清华大学等机构共同开源的大模型推理架构。该架构以KVCache为中心，通过分布式设计和资源优化，显著提升了大模型推理的吞吐量和效率，同时降低了算力开销。

1年前
510
点赞
评论

Mooncake：月之暗面Kimi联合清华等机构推出的大模型推理架构

Devika AI：开源的 AI 软件开发工具，理解和执行复杂的人类指令

Devika AI 是一款开源的 AI 软件开发工具，能够理解和执行复杂的人类指令。它通过分解任务、信息搜集和代码生成，帮助开发者提高效率，减少人工干预。

1年前
241
点赞
评论

Devika AI：开源的 AI 软件开发工具，理解和执行复杂的人类指令

Sketch2Lineart：AI绘画工具，自动将手绘草图转换成清晰的线条画

Sketch2Lineart是一款基于人工智能的绘画工具，能够自动将手绘草图转换成清晰的线条画。该工具支持多种功能，如草图转线稿、自动描述生成、细节调整和风格定制等

1年前
636
点赞
评论

Sketch2Lineart：AI绘画工具，自动将手绘草图转换成清晰的线条画

ShowUI：新加坡国立联合微软推出用于 GUI 自动化的视觉-语言-操作模型

ShowUI是由新加坡国立大学Show Lab和微软联合推出的视觉-语言-行动模型，旨在提升图形用户界面（GUI）助手的效率。该模型通过UI引导的视觉令牌选择和交错视觉-语言-行动流，有效减少计算成本

1年前
230
点赞
评论

ShowUI：新加坡国立联合微软推出用于 GUI 自动化的视觉-语言-操作模型

Find3D：加州理工学院推出的3D部件分割模型

Find3D是由加州理工学院推出的3D部件分割模型，能够根据任意文本查询分割任意对象的任何部分。该模型利用强大的数据引擎自动从互联网上的3D资产生成训练数据，并通过对比训练方法训练出一个可扩展的3D模

1年前
235
点赞
评论

Find3D：加州理工学院推出的3D部件分割模型

SAM 2.1：Meta 开源的图像和视频分割，支持实时视频处理

SAM 2.1是由Meta（Facebook的母公司）推出的先进视觉分割模型，专为图像和视频处理设计。该模型基于Transformer架构和流式记忆设计，实现了实时视频处理，并引入了数据增强技术。

1年前
532
点赞
评论

SAM 2.1：Meta 开源的图像和视频分割，支持实时视频处理

Fancy123：华中科技和华南理工推出的3D网格生成技术

Fancy123是由华中科技大学和华南理工大学联合推出的3D网格生成技术，能够从单张图片生成高质量的3D网格。该技术通过即插即用的变形技术，解决了多视图图像的局部不一致性，提高了网格对输入图像的保真度

1年前
211
点赞
评论

Fancy123：华中科技和华南理工推出的3D网格生成技术

Promptriever：信息检索模型，支持自然语言提示响应用户搜索需求

Promptriever 是一种新型信息检索模型，由约翰斯·霍普金斯大学和 Samaya AI 联合推出。该模型能够接受自然语言提示，并以直观的方式响应用户的搜索需求。

1年前
105
点赞
评论

Promptriever：信息检索模型，支持自然语言提示响应用户搜索需求

Qwen2VL-Flux：开源的多模态图像生成模型，支持多种生成模式

Qwen2VL-Flux 是一个开源的多模态图像生成模型，结合了 Qwen2VL 的视觉语言理解和 FLUX 框架，能够基于文本提示和图像参考生成高质量的图像。

1年前
502
点赞
评论

Qwen2VL-Flux：开源的多模态图像生成模型，支持多种生成模式

LongLLaVA：香港中文大学推出的多模态上下文混合架构大语言模型

LongLLaVA是由香港中文大学推出的多模态大型语言模型，采用混合架构，结合Mamba和Transformer模块，旨在高效处理大量图像数据。

1年前
169
点赞
评论

LongLLaVA：香港中文大学推出的多模态上下文混合架构大语言模型

EchoMimicV2：阿里推出的开源数字人项目，能生成完整数字人半身动画

EchoMimicV2是阿里蚂蚁集团推出的开源数字人项目，能够生成完整的数字人半身动画。该项目基于参考图片、音频剪辑和手部姿势序列，通过音频-姿势动态协调策略生成高质量动画视频，确保音频内容与半身动作

1年前
567
点赞
评论

EchoMimicV2：阿里推出的开源数字人项目，能生成完整数字人半身动画

Markdown-to-Image：开源的在线 Markdown 转海报编辑器

Markdown-to-Image 是一款开源的在线 Markdown 转海报编辑器，能够将 Markdown 文本内容转换为图像，适用于创建社交媒体帖子、海报和其他视觉内容。该工具支持多种输出格式，

1年前
534
点赞
评论

Markdown-to-Image：开源的在线 Markdown 转海报编辑器

SmolVLM：Hugging Face推出的轻量级视觉语言模型

SmolVLM是Hugging Face推出的轻量级视觉语言模型，专为设备端推理设计。以20亿参数量，实现了高效内存占用和快速处理速度。SmolVLM提供了三个版本以满足不同需求，并完全开源，所有模型

1年前
557
1
评论

SmolVLM：Hugging Face推出的轻量级视觉语言模型