每日 AI 项目与应用实例

每日 AI 项目与应用实例

每日 AI 项目与应用实例

分享最新 AI 资讯，收集 AI 模型、工具、框架等开源项目。

等 115 人订阅共816篇文章创建于2024-11-02

Browser Use：40.7K Star！一句话让AI完全接管浏览器！自动规划完成任务，多标签页同时管理

Browser Use 是一款专为大语言模型设计的智能浏览器自动化工具，支持多标签页管理、视觉识别、内容提取等功能，并能记录和重复执行特定动作，适用于多种应用场景。

1年前
533
点赞
评论

Browser Use：40.7K Star！一句话让AI完全接管浏览器！自动规划完成任务，多标签页同时管理

VideoPainter：开源视频修复神器！双分支架构一键修复，对象身份永久在线

VideoPainter 是由香港中文大学、腾讯ARC Lab等机构联合推出的视频修复和编辑框架，基于双分支架构和预训练扩散模型，支持任意长度视频的修复与编辑，具备背景保留、前景生成、文本指导编辑等功

1年前
257
点赞
评论

VideoPainter：开源视频修复神器！双分支架构一键修复，对象身份永久在线

TrajectoryCrafter：腾讯黑科技！单目视频运镜自由重构，4D生成效果媲美实拍

TrajectoryCrafter 是腾讯与香港中文大学联合推出的单目视频相机轨迹重定向技术，支持后期自由调整视频的相机位置和角度，生成高质量的新型轨迹视频，广泛应用于沉浸式娱乐、创意视频制作等领域。

1年前
544
点赞
评论

TrajectoryCrafter：腾讯黑科技！单目视频运镜自由重构，4D生成效果媲美实拍

COMET：字节跳动开源MoE训练加速神器，单层1.96倍性能提升，节省百万GPU小时

COMET是字节跳动推出的针对Mixture-of-Experts（MoE）模型的优化系统，通过细粒度的计算-通信重叠技术，显著提升分布式训练效率，支持多种并行策略和大规模集群部署。

1年前
361
点赞
评论

COMET：字节跳动开源MoE训练加速神器，单层1.96倍性能提升，节省百万GPU小时

Heygem：开源数字人克隆神器！1秒视频生成4K超高清AI形象，1080Ti显卡也能轻松跑

Heygem 是硅基智能推出的开源数字人模型，支持快速克隆形象和声音，30秒内完成克隆，60秒内生成4K超高清视频，适用于内容创作、直播、教育等场景。

1年前
692
点赞
评论

Heygem：开源数字人克隆神器！1秒视频生成4K超高清AI形象，1080Ti显卡也能轻松跑

AppAgentX：告别重复点击！自我进化式GUI代理自动生成高级操作，效率翻倍

AppAgentX 是西湖大学推出的新型自我进化式 GUI 代理框架，通过记忆和进化机制提升智能手机交互的效率和智能性，支持复杂任务和跨应用操作，显著优于现有方法。

1年前
249
1
评论

AppAgentX：告别重复点击！自我进化式GUI代理自动生成高级操作，效率翻倍

IMAGPose：南理工突破性人体生成框架！多姿态适配+细节语义融合，刷新图像生成范式

IMAGPose 是南京理工大学推出的用于人体姿态引导图像生成的统一条件框架，解决了传统方法在姿态引导的人物图像生成中的局限性，支持多场景适应、细节与语义融合、灵活的图像与姿态对齐以及全局与局部一致性

1年前
236
点赞
评论

IMAGPose：南理工突破性人体生成框架！多姿态适配+细节语义融合，刷新图像生成范式

Nanobrowser：开源版OpenAI Operator！AI自动操控浏览器，复杂网页任务一键搞定

Nanobrowser 是一款开源的 Chrome 扩展工具，基于多智能体系统实现复杂的网页任务自动化，支持多种大型语言模型，完全免费且注重隐私保护。

1年前
625
点赞
评论

Nanobrowser：开源版OpenAI Operator！AI自动操控浏览器，复杂网页任务一键搞定

autoMate：无需视觉模型！用DeepSeek-V3/R1就能实现自动化操作电脑，支持任何可视化界面

autoMate是一款基于AI和RPA的本地自动化工具，通过自然语言实现复杂任务的自动化操作，支持本地部署，确保数据安全和隐私，适合需要高效处理重复性工作的用户。

1年前
234
1
评论

autoMate：无需视觉模型！用DeepSeek-V3/R1就能实现自动化操作电脑，支持任何可视化界面

URO-Bench：端到端语音对话模型评测黑马！多语言/多轮/副语言全维度一键开测

URO-Bench 是一款专为端到端语音对话模型设计的全面基准测试工具，涵盖多语言、多轮对话、副语言信息等多维度任务，帮助开发者全面评估模型性能。

1年前
429
点赞
评论

URO-Bench：端到端语音对话模型评测黑马！多语言/多轮/副语言全维度一键开测

中文法律AI大模型！LaWGPT 一键生成法律文书，司法考试通过率提升50%

LaWGPT 是南京大学推出的中文法律大语言模型，基于 LLaMA 模型进行二次预训练，融入大量中文法律知识，适用于法律咨询、文书生成、司法考试辅助等多种场景。

1年前
498
点赞
评论

中文法律AI大模型！LaWGPT 一键生成法律文书，司法考试通过率提升50%

OWL：告别繁琐任务！开源多智能体系统实现自动化协作，效率提升10倍

OWL 是基于 CAMEL-AI 框架开发的多智能体协作系统，通过智能体之间的动态交互实现高效的任务自动化，支持角色分配、任务分解和记忆功能，适用于代码生成、文档撰写、数据分析等多种场景。

1年前
648
点赞
评论

OWL：告别繁琐任务！开源多智能体系统实现自动化协作，效率提升10倍

无需邀请码！MetaGPT 开源AI助手 OpenManus，实时反馈+模块化设计，开发者福音

OpenManus 是 MetaGPT 团队推出的开源 AI Agent 复刻版，支持多种语言模型和工具链，能够执行代码、处理文件、搜索网络信息等复杂任务，具备实时反馈机制和灵活的配置选项。

1年前
314
1
评论

无需邀请码！MetaGPT 开源AI助手 OpenManus，实时反馈+模块化设计，开发者福音

还在蹲Manus的邀请码？别等了！开源版Manus为你快速创建AI工位，给AI一台电脑，然后你就玩去吧！

OpenManus 是 MetaGPT 的开源 AI 平台，支持多语言模型和工具链，执行代码、处理文件等任务，具备实时反馈。OWL 基于 CAMEL-AI，支持角色分配、任务分解和记忆功能，实现高效任

1年前
299
2
评论

还在蹲Manus的邀请码？别等了！开源版Manus为你快速创建AI工位，给AI一台电脑，然后你就玩去吧！

Resume Matcher：增加面试机会！开源AI简历优化工具，一键解析简历和职位描述并优化

Resume Matcher 是一款开源AI简历优化工具，通过解析简历和职位描述，提取关键词并计算文本相似性，帮助求职者优化简历内容，提升通过自动化筛选系统（ATS）的概率，增加面试机会。

1年前
573
点赞
评论

Resume Matcher：增加面试机会！开源AI简历优化工具，一键解析简历和职位描述并优化

阿里通义开源推理模型新王者！QwQ-32B：性能直逼671B的DeepSeek-R1

QwQ-32B 是阿里巴巴开源的新型推理模型，基于强化学习训练，具备强大的数学推理和编程能力，性能媲美更大参数量的模型。

1年前
348
点赞
评论

阿里通义开源推理模型新王者！QwQ-32B：性能直逼671B的DeepSeek-R1

Archon – 开源 AI 智能体框架，自主生成代码构建 AI 智能体

Archon 是一个开源的 AI 智能体框架，能够自主生成代码并优化智能体性能，支持多智能体协作、领域知识集成和文档爬取等功能，适用于企业、教育、智能家居等多个领域。

1年前
814
1
评论

Archon – 开源 AI 智能体框架，自主生成代码构建 AI 智能体

TheoremExplainAgent – AI教学双智能体，数理化定理自动转动画

TheoremExplainAgent 是一个由滑铁卢大学和 Votee AI 等机构开发的多模态代理系统，能够将数学和科学定理自动转化为长篇动画视频，帮助用户更好地理解复杂概念。该系统支持多学科、多

1年前
355
点赞
评论

TheoremExplainAgent – AI教学双智能体，数理化定理自动转动画

PodAgent：港中文、微软、小红书联合推出的播客生成框架

PodAgent 是由香港中文大学、微软和小红书联合推出的播客生成框架，基于多智能体协作系统，自动生成高质量对话内容，支持声音角色匹配和语音合成，适用于媒体、教育、企业推广等多个场景。

1年前
196
点赞
评论

PodAgent：港中文、微软、小红书联合推出的播客生成框架

Chat2SVG – 文本描述实现高质量矢量图形的生成框架

Chat2SVG 是一个创新的文本到矢量图形生成框架，结合大型语言模型和图像扩散模型，通过多阶段流程生成高质量的 SVG 图形，支持自然语言指令编辑，适用于设计、教育和艺术创作等领域。

1年前
224
1
评论

Chat2SVG – 文本描述实现高质量矢量图形的生成框架