每日 AI 项目与应用实例

每日 AI 项目与应用实例

每日 AI 项目与应用实例

分享最新 AI 资讯，收集 AI 模型、工具、框架等开源项目。

等 115 人订阅共816篇文章创建于2024-11-02

Baichuan-M1-14B：AI 助力医疗推理，为患者提供专业的建议！百川智能开源业内首个医疗增强大模型，普及医学的新渠道！

Baichuan-M1-14B 是百川智能推出的首个开源医疗增强大模型，专为医疗场景优化，支持多语言、快速推理，具备强大的医疗推理能力和通用能力。

1年前
396
1
评论

Baichuan-M1-14B：AI 助力医疗推理，为患者提供专业的建议！百川智能开源业内首个医疗增强大模型，普及医学的新渠道！

微软开源课程！21节课程教你开发生成式 AI 应用所需了解的一切

微软推出的生成式 AI 入门课程，涵盖 21 节课程，帮助开发者快速掌握生成式 AI 应用开发，支持 Python 和 TypeScript 代码示例。

1年前
350
点赞
评论

微软开源课程！21节课程教你开发生成式 AI 应用所需了解的一切

UI-TARS：字节跳动开源专注于多平台 GUI 自动化交互的视觉语言模型

UI-TARS 是字节跳动推出的新一代原生图形用户界面（GUI）代理模型，支持跨平台自动化交互，具备强大的感知、推理、行动和记忆能力，能够通过自然语言指令完成复杂任务。

1年前
1.2k
点赞
评论

UI-TARS：字节跳动开源专注于多平台 GUI 自动化交互的视觉语言模型

用自然语言控制电脑，字节跳动开源 UI-TARS 的桌面版应用！内附详细的安装和配置教程

UI-TARS Desktop 是一款基于视觉语言模型的 GUI 代理应用，支持通过自然语言控制电脑操作，提供跨平台支持、实时反馈和精准的鼠标键盘控制。

1年前
3.1k
4
评论

用自然语言控制电脑，字节跳动开源 UI-TARS 的桌面版应用！内附详细的安装和配置教程

PaSa：字节跳动开源学术论文检索智能体，自动调用搜索引擎、浏览相关论文并追踪引文网络

PaSa 是字节跳动推出的基于强化学习的学术论文检索智能体，能够自动调用搜索引擎、阅读论文并追踪引文网络，帮助用户快速获取精准的学术文献。

1年前
602
1
评论

PaSa：字节跳动开源学术论文检索智能体，自动调用搜索引擎、浏览相关论文并追踪引文网络

VideoChat-Flash：上海AI Lab开源高效处理超长视频的多模态大模型

VideoChat-Flash 是上海人工智能实验室等机构推出的多模态大模型，通过分层压缩技术高效处理长视频，支持长达数小时的视频输入，推理速度提升5-10倍。

1年前
296
点赞
评论

VideoChat-Flash：上海AI Lab开源高效处理超长视频的多模态大模型

子曰-o1：网易有道开源国内首个分步式讲解推理模型，支持K12数学教学

子曰-o1是网易有道推出的国内首个分步式讲解推理模型，采用14B轻量级架构，专为消费级显卡设计，支持K12数学教学，提供精准的解题思路和答案。

1年前
367
2
评论

子曰-o1：网易有道开源国内首个分步式讲解推理模型，支持K12数学教学

Doubao-1.5-pro：字节跳动最新豆包大模型，性能超越GPT-4o和Claude 3.5 Sonnet

豆包大模型1.5是字节跳动推出的最新大模型，采用大规模稀疏MoE架构，支持多模态输入输出，具备低时延语音对话能力，综合性能优于GPT-4o和Claude 3.5 Sonnet。

1年前
1.1k
点赞
评论

Doubao-1.5-pro：字节跳动最新豆包大模型，性能超越GPT-4o和Claude 3.5 Sonnet

WebWalker：阿里巴巴推出评估LLMs在网页浏览任务中性能的基准工具

WebWalker是阿里巴巴开发的用于评估大型语言模型在网页浏览任务中性能的工具，支持多智能体框架和垂直探索策略，提供WebWalkerQA数据集进行性能测试。

1年前
209
点赞
评论

WebWalker：阿里巴巴推出评估LLMs在网页浏览任务中性能的基准工具

MangaNinja：开源线稿着色工具，自动匹配图像风格，一键快速上色

MangaNinja 是一款基于参考图像的线稿着色工具，通过创新的补丁重排模块和点驱动控制方案，实现精准颜色匹配和复杂场景处理，适用于漫画、插画和数字艺术创作。

1年前
495
点赞
评论

MangaNinja：开源线稿着色工具，自动匹配图像风格，一键快速上色

X-Dyna：一张图片就能实现动画化！字节联合斯坦福推出动画生成框架

X-Dyna 是由字节跳动联合斯坦福等高校推出的动画生成框架，基于扩散模型实现单张图像动画化，支持面部表情和身体动作控制，生成高质量动态细节。

1年前
161
点赞
评论

X-Dyna：一张图片就能实现动画化！字节联合斯坦福推出动画生成框架

k1.5：性能超越 GPT-4 和 Claude 3.5！Kimi 新一代多模态推理模型

Kimi k1.5 是月之暗面推出的多模态思考模型，具备强大的推理和多模态处理能力，支持长链思维与短链思维，性能超越GPT-4和Claude 3.5。

1年前
527
点赞
评论

k1.5：性能超越 GPT-4 和 Claude 3.5！Kimi 新一代多模态推理模型

OmniThink：浙大联合阿里通义开源 AI 写作框架，基于深度思考扩展知识边界，实时展示思考过程

OmniThink 是浙江大学与阿里通义实验室联合开发的机器写作框架，通过模拟人类迭代扩展和反思过程，生成高质量长篇文章，显著提升知识密度和内容深度。

1年前
132
点赞
评论

OmniThink：浙大联合阿里通义开源 AI 写作框架，基于深度思考扩展知识边界，实时展示思考过程

Roop-Unleashed：开源 AI 换脸神器！支持批量、VR、直播实时换脸

Roop-Unleashed 是一款基于 Roop 的开源 AI 换脸工具，支持批量处理、VR 换脸和直播换脸，提供简单易用的图形界面，适用于多种场景。

1年前
973
点赞
评论

Roop-Unleashed：开源 AI 换脸神器！支持批量、VR、直播实时换脸

VideoWorld：字节开源自回归视频生成模型，支持输入视频指导AI生成视频！弥补文本生成视频的短板

VideoWorld 是由字节跳动、北京交通大学和中国科学技术大学联合推出的自回归视频生成模型，能够从未标注的视频数据中学习复杂知识，支持长期推理和规划任务。

1年前
525
点赞
评论

VideoWorld：字节开源自回归视频生成模型，支持输入视频指导AI生成视频！弥补文本生成视频的短板

DeepSeek 开源 R1 系列推理模型，性能对标 OpenAI o1，基于纯强化学习完成自我进化，无需监督微调

DeepSeek R1-Zero 是一款基于纯强化学习的开源推理模型，无需监督微调数据，支持多任务泛化与自我进化，适用于数学推理、代码生成等场景。

1年前
411
1
评论

DeepSeek 开源 R1 系列推理模型，性能对标 OpenAI o1，基于纯强化学习完成自我进化，无需监督微调

CogView-3-Flash：智谱首个免费AI图像生成模型，支持多种分辨率，快速生成创意图像

CogView-3-Flash 是智谱推出的首个免费AI图像生成模型，支持多种分辨率，快速生成高质量图像，广泛应用于广告、设计、艺术创作等领域。

1年前
311
点赞
评论

CogView-3-Flash：智谱首个免费AI图像生成模型，支持多种分辨率，快速生成创意图像

Kokoro-TTS：超轻量级文本转语音模型，支持生成多种语言和多种语音风格

Kokoro-TTS 是一款轻量级文本转语音模型，支持多语言和多语音风格生成，具备实时处理能力和低资源占用，适用于多种应用场景。

1年前
1.0k
点赞
评论

Kokoro-TTS：超轻量级文本转语音模型，支持生成多种语言和多种语音风格

Titans：谷歌新型神经记忆架构，突破 Transformer 长序列处理的瓶颈

Titans 是谷歌推出的新型神经网络架构，通过神经长期记忆模块突破 Transformer 在处理长序列数据时的瓶颈，支持并行计算，显著提升训练效率。

1年前
285
点赞
评论

Titans：谷歌新型神经记忆架构，突破 Transformer 长序列处理的瓶颈

Zerox：AI驱动的万能OCR工具，精准识别复杂布局并输出Markdown格式，支持PDF、DOCX、图片等多种文件格式

Zerox 是一款开源的本地化高精度OCR工具，基于GPT-4o-mini模型，支持PDF、DOCX、图片等多种格式文件，能够零样本识别复杂布局文档，输出Markdown格式结果。

1年前
531
1
评论

Zerox：AI驱动的万能OCR工具，精准识别复杂布局并输出Markdown格式，支持PDF、DOCX、图片等多种文件格式