每日 AI 项目与应用实例

每日 AI 项目与应用实例

每日 AI 项目与应用实例

分享最新 AI 资讯，收集 AI 模型、工具、框架等开源项目。

等 115 人订阅共816篇文章创建于2024-11-02

1天消化完Spring全家桶文档！DevDocs：一键深度解析开发文档，自动发现子URL并建立图谱

DevDocs是一款基于智能爬虫技术的开源工具，支持1-5层深度网站结构解析，能将技术文档处理时间从数周缩短至几小时，并提供Markdown/JSON格式输出与AI工具无缝集成。

1年前
390
3
评论

1天消化完Spring全家桶文档！DevDocs：一键深度解析开发文档，自动发现子URL并建立图谱

阶跃星辰推出新一代多模态推理模型 Step-R1-V-Mini：视觉+数学+代码全能王

Step-R1-V-Mini是阶跃星辰推出的多模态推理模型，采用PPO强化学习策略，在视觉推理、数学求解和代码生成等任务中表现优异，支持图文输入与文字输出。

1年前
174
点赞
评论

阶跃星辰推出新一代多模态推理模型 Step-R1-V-Mini：视觉+数学+代码全能王

14B小模型代码成绩紧逼O3-Mini！DeepCoder-14B-Preview：基于Deepseek-R1蒸馏优化的开源代码生成模型

DeepCoder-14B-Preview是基于Deepseek-R1蒸馏优化的140亿参数模型，通过强化学习微调在LiveCodeBench达到60.6%准确率，开源训练数据与系统优化方案。

1年前
188
点赞
评论

14B小模型代码成绩紧逼O3-Mini！DeepCoder-14B-Preview：基于Deepseek-R1蒸馏优化的开源代码生成模型

从商业海报到二次元插画多风格通吃！HiDream-I1：智象未来开源文生图模型，17亿参数秒出艺术大作

HiDream-I1是智象未来团队推出的开源图像生成模型，采用扩散模型技术和混合专家架构，在图像质量、提示词遵循能力等方面表现优异，支持多种风格生成。

1年前
205
点赞
评论

从商业海报到二次元插画多风格通吃！HiDream-I1：智象未来开源文生图模型，17亿参数秒出艺术大作

GitHub官方开源MCP服务！GitHub MCP Server：无缝集成GitHub API，实现Git流程完全自动化

GitHub MCP Server是基于Model Context Protocol的服务器工具，提供与GitHub API的无缝集成，支持自动化处理问题、Pull Request和仓库管理等功能。

1年前
654
2
评论

GitHub官方开源MCP服务！GitHub MCP Server：无缝集成GitHub API，实现Git流程完全自动化

AI图像质感还原堪比专业摄影！Miracle F1：美图WHEE全新AI图像生成模型，支持超写实与多风格生成

美图WHEE推出的Miracle F1采用扩散模型技术，通过精准语义理解和多风格生成能力，可产出具有真实光影质感的专业级图像作品。

1年前
235
点赞
评论

AI图像质感还原堪比专业摄影！Miracle F1：美图WHEE全新AI图像生成模型，支持超写实与多风格生成

亚马逊推出AI语音模型新标杆！Nova Sonic：多语言识别错误率仅4.2%，碾压GPT-4o-transcribe

亚马逊推出的Nova Sonic是一款整合语音理解与生成能力的AI模型，支持多语言交互，在LibriSpeech基准测试中平均单词错误率低至4.2%，具备实时双向流式传输能力。

1年前
276
点赞
评论

亚马逊推出AI语音模型新标杆！Nova Sonic：多语言识别错误率仅4.2%，碾压GPT-4o-transcribe

Llama Nemotron：英伟达开源基于Llama架构优化的推理模型，253B参数持平DeepSee

NVIDIA推出的Llama Nemotron系列推理模型，基于Llama架构优化，包含Nano/Super/Ultra三款，在数学推理、编程和工具调用等任务中展现卓越性能。

1年前
171
点赞
评论

Llama Nemotron：英伟达开源基于Llama架构优化的推理模型，253B参数持平DeepSee

能够双向推理的LLM！Dream-7B：港大联合华为开源的扩散推理模型，能够同时考虑前后文信息

Dream-7B是由香港大学与华为诺亚方舟实验室联合研发的开源扩散大语言模型，采用独特的掩码扩散范式，在文本生成、数学推理和代码编写等任务中展现出卓越性能。

1年前
398
点赞
评论

能够双向推理的LLM！Dream-7B：港大联合华为开源的扩散推理模型，能够同时考虑前后文信息

覆盖16省方言的老人语音数据集！SeniorTalk：智源研究院开源全球首个超高龄老年人中文语音数据集

SeniorTalk是由智源研究院与南开大学联合推出的全球首个中文超高龄老年人对话语音数据集，包含202位75岁及以上老年人的55.53小时语音数据，涵盖16个省市的不同地域口音。

1年前
284
1
评论

覆盖16省方言的老人语音数据集！SeniorTalk：智源研究院开源全球首个超高龄老年人中文语音数据集

AI终于能听懂宝宝说话了！ChildMandarin：智源研究院开源的低幼儿童中文语音数据集，覆盖22省方言

ChildMandarin是由智源研究院与南开大学联合推出的开源语音数据集，包含41.25小时3-5岁儿童普通话语音数据，覆盖中国22个省级行政区，为儿童语音识别和语言发展研究提供高质量数据支持。

1年前
814
点赞
评论

AI终于能听懂宝宝说话了！ChildMandarin：智源研究院开源的低幼儿童中文语音数据集，覆盖22省方言

漫画师福音！开源AI神器让线稿着色快如闪电！MagicColor：港科大开源多实例线稿着色框架，一键生成动画级彩图

MagicColor是香港科技大学推出的多实例线稿着色框架，基于扩散模型和自监督训练策略，实现单次前向传播完成多实例精准着色，大幅提升动画制作和数字艺术创作效率。

1年前
403
点赞
评论

漫画师福音！开源AI神器让线稿着色快如闪电！MagicColor：港科大开源多实例线稿着色框架，一键生成动画级彩图

这个AI能把PSD变视频！人物/场景/道具任意组合！SkyReels-A2：昆仑万维推出的可控多元素视频生成框架

SkyReels-A2是昆仑万维推出的创新视频生成框架，通过扩散模型和图像-文本联合嵌入技术，实现多元素精准组合与高质量视频输出。

1年前
270
点赞
评论

这个AI能把PSD变视频！人物/场景/道具任意组合！SkyReels-A2：昆仑万维推出的可控多元素视频生成框架

OmniCam：浙大联合上海交大推出多模态视频生成框架，虚拟导演打造百万级影视运镜

OmniCam是由浙江大学与上海交通大学联合研发的多模态视频生成框架，通过LLM与视频扩散模型结合实现高质量视频生成，支持文本、轨迹和图像等多种输入模态。

1年前
138
点赞
评论

OmniCam：浙大联合上海交大推出多模态视频生成框架，虚拟导演打造百万级影视运镜

重定义数字人交互！OmniTalker：阿里推出实时多模态说话头像生成框架，音视频实现唇语级同步

阿里巴巴推出的OmniTalker框架通过Thinker-Talker架构实现文本驱动的实时说话头像生成，创新性采用TMRoPE技术确保音视频同步，支持流式多模态输入处理。

1年前
277
点赞
评论

重定义数字人交互！OmniTalker：阿里推出实时多模态说话头像生成框架，音视频实现唇语级同步

32.7K Star！Awesome MCP Servers：开源MCP资源聚合平台，覆盖20+垂直领域

Awesome MCP Servers 是一个开源项目，汇集了3000多个基于Model Context Protocol的服务器实现，支持本地和云端部署，为AI大模型提供丰富的外部数据访问和工具调用

1年前
471
点赞
1

32.7K Star！Awesome MCP Servers：开源MCP资源聚合平台，覆盖20+垂直领域

OpenRouter 推出百万 token 上下文 AI 模型！Quasar Alpha：提供完全免费的 API 服务，同时支持联网搜索和多模态交互

Quasar Alpha 是 OpenRouter 推出的预发布 AI 模型，具备百万级 token 上下文处理能力，在代码生成、指令遵循和低延迟响应方面表现卓越，同时支持联网搜索和多模态交互。

1年前
566
点赞
评论

OpenRouter 推出百万 token 上下文 AI 模型！Quasar Alpha：提供完全免费的 API 服务，同时支持联网搜索和多模态交互

Meta开源多模态AI新王炸！Llama 4：MoE架构仅用17B参数碾压Gemma 3，支持1000万token上下文

Meta最新开源的Llama 4系列多模态AI模型，采用混合专家架构，支持200种语言处理，最高达2万亿参数规模，在语言理解、图像分析和代码生成等任务中展现突破性性能。

1年前
216
点赞
评论

Meta开源多模态AI新王炸！Llama 4：MoE架构仅用17B参数碾压Gemma 3，支持1000万token上下文

ACTalker：港科大联合腾讯清华推出，多模态驱动的说话人视频生成神器

ACTalker是由香港科技大学联合腾讯、清华大学研发的端到端视频扩散框架，采用并行Mamba结构和多信号控制技术，能生成高度逼真的说话人头部视频。

1年前
178
点赞
评论

ACTalker：港科大联合腾讯清华推出，多模态驱动的说话人视频生成神器

打破次元壁！AnimeGamer：腾讯开源黑科技让动漫角色听你指挥，一句话生成专属冒险动画

AnimeGamer是基于多模态大语言模型的动态游戏系统，支持玩家通过自然语言指令操控动漫角色，实时生成具有上下文一致性的动画镜头和角色状态更新。

1年前
540
点赞
评论

打破次元壁！AnimeGamer：腾讯开源黑科技让动漫角色听你指挥，一句话生成专属冒险动画