每日 AI 项目与应用实例

每日 AI 项目与应用实例

每日 AI 项目与应用实例

分享最新 AI 资讯，收集 AI 模型、工具、框架等开源项目。

等 115 人订阅共816篇文章创建于2024-11-02

SmolDocling：256M多模态小模型秒转文档！开源OCR效率提升10倍

SmolDocling 是一款轻量级的多模态文档处理模型，能够将图像文档高效转换为结构化文本，支持文本、公式、图表等多种元素识别，适用于学术论文、技术报告等多类型文档。

1年前
261
点赞
评论

SmolDocling：256M多模态小模型秒转文档！开源OCR效率提升10倍

Stable Virtual Camera：2D秒变3D电影！Stability AI黑科技解锁无限运镜，自定义轨迹一键生成

Stable Virtual Camera 是 Stability AI 推出的 AI 模型，能够将 2D 图像转换为具有真实深度和透视感的 3D 视频，支持自定义相机轨迹和多种动态路径，生成高质量且

1年前
328
点赞
评论

Stable Virtual Camera：2D秒变3D电影！Stability AI黑科技解锁无限运镜，自定义轨迹一键生成

UniAct：清华团队突破！跨平台机器人通用模型，仅需50条数据就能快速适配新环境

UniAct 是由清华、商汤、北大、上海AI Lab联合推出的具身基础模型框架，旨在解决不同机器人之间的行为异构性问题，通过学习通用行为实现跨平台控制。

1年前
384
点赞
评论

UniAct：清华团队突破！跨平台机器人通用模型，仅需50条数据就能快速适配新环境

Manus再遭复刻！开源多智能体协作工具，实时查看每个AI员工的"脑回路"

LangManus 是一个基于分层多智能体系统的 AI 自动化框架，支持多种语言模型和工具集成，能够高效完成复杂任务，适用于人力资源、房产决策、旅行规划等多个场景。

1年前
290
1
评论

Manus再遭复刻！开源多智能体协作工具，实时查看每个AI员工的"脑回路"

Instella：AMD开源30亿参数语言模型！训练效率碾压同级选手

Instella是AMD推出的30亿参数开源语言模型，基于自回归Transformer架构，支持多轮对话、指令跟随和自然语言理解，适用于智能客服、内容创作和教育辅导等多个领域。

1年前
123
点赞
评论

Instella：AMD开源30亿参数语言模型！训练效率碾压同级选手

GR00T N1：全球首个开源人形机器人基座模型！双系统架构解锁通用操作

GR00T N1 是英伟达推出的全球首个开源人形机器人基础模型，基于多模态输入和双系统架构，能够执行复杂操作任务，适用于物流、制造、零售等多个领域。

1年前
431
点赞
评论

GR00T N1：全球首个开源人形机器人基座模型！双系统架构解锁通用操作

OLMo 2 32B：开源界新王！32B参数碾压GPT-4，1/3算力屠榜多任务

OLMo 2 32B 是 Allen Institute for AI 推出的最新开源语言模型，拥有 320 亿参数，性能超越 GPT-3.5-Turbo 和 GPT-4o-mini，支持多任务处理，

1年前
177
1
评论

OLMo 2 32B：开源界新王！32B参数碾压GPT-4，1/3算力屠榜多任务

ReCamMaster：视频运镜AI革命！单镜头秒变多机位，AI重渲染颠覆创作

ReCamMaster 是由浙江大学与快手科技联合推出的视频重渲染框架，能够根据用户指定的相机轨迹重新生成视频内容，广泛应用于视频创作、后期制作、教育等领域，提升创作自由度和质量。

1年前
368
点赞
评论

ReCamMaster：视频运镜AI革命！单镜头秒变多机位，AI重渲染颠覆创作

I2V3D：微软+港城大黑科技！单图秒变3D动态视频，相机轨迹自由操控

I2V3D 是由香港城市大学和微软联合开发的图像到视频生成框架，支持将静态图像转换为动态视频，基于3D几何引导实现精确的动画控制，适用于动画制作、视频编辑和内容创作等领域。

1年前
227
点赞
评论

I2V3D：微软+港城大黑科技！单图秒变3D动态视频，相机轨迹自由操控

Hunyuan3D 2.0：腾讯混元开源3D生成大模型！图生/文生秒建高精度模型，细节纹理自动合成

Hunyuan3D 2.0 是腾讯推出的大规模 3D 资产生成系统，专注于从文本和图像生成高分辨率的 3D 模型，支持几何生成和纹理合成。

1年前
544
点赞
评论

Hunyuan3D 2.0：腾讯混元开源3D生成大模型！图生/文生秒建高精度模型，细节纹理自动合成

amis：百度开源低代码神器！JSON秒建后台，开发效率飙升300%

amis 是百度开源的低代码前端框架，基于 JSON 配置快速生成后台页面，支持表单、表格、图表等功能，提供丰富的组件和可视化编辑器，极大提升开发效率。

1年前
2.1k
2
1

amis：百度开源低代码神器！JSON秒建后台，开发效率飙升300%

昆仑万维开源 Skywork R1V：开源多模态推理核弹！视觉链式分析超越人类专家

Skywork R1V 是昆仑万维开源的多模态思维链推理模型，具备强大的视觉链式推理能力，能够在多个权威基准测试中取得领先成绩，推动多模态推理模型的发展。

1年前
207
点赞
评论

昆仑万维开源 Skywork R1V：开源多模态推理核弹！视觉链式分析超越人类专家

Chirp 3：248种真人级语音库！谷歌云语音合成黑科技秒杀机械音

Chirp 3 是谷歌云推出的高清语音合成模型，支持 248 种声音和 31 种语言，能生成自然流畅的语音，适用于智能语音助手、有声读物和视频配音等多种场景。

1年前
318
点赞
评论

Chirp 3：248种真人级语音库！谷歌云语音合成黑科技秒杀机械音

Mistral Small 3.1：240亿参数多模态黑马！128k长文本+图像分析，推理速度150token/秒

Mistral Small 3.1 是 Mistral AI 开源的多模态人工智能模型，具备 240 亿参数，支持文本和图像处理，推理速度快，适合多种应用场景。

1年前
187
1
评论

Mistral Small 3.1：240亿参数多模态黑马！128k长文本+图像分析，推理速度150token/秒

OpenBioMed：开源生物医学AI革命！20+工具链破解药物研发「死亡谷」

OpenBioMed 是清华大学智能产业研究院（AIR）和水木分子共同推出的开源平台，专注于 AI 驱动的生物医学研究，提供多模态数据处理、丰富的预训练模型和多样化的计算工具，助力药物研发、精准医疗和

1年前
322
点赞
评论

OpenBioMed：开源生物医学AI革命！20+工具链破解药物研发「死亡谷」

Cursor 上线最新 AI 模型 Claude 3.7 Max：200k上下文+200次工具调用！史上最强代码助手硬核上线

Claude 3.7 Max 是 Cursor 推出的最新 AI 模型，支持 200k 上下文窗口和 200 次工具调用，专为复杂代码任务设计，适合硬核开发者和大型项目。

1年前
299
点赞
评论

Cursor 上线最新 AI 模型 Claude 3.7 Max：200k上下文+200次工具调用！史上最强代码助手硬核上线

AudioX：颠覆创作！多模态AI一键生成电影级音效+配乐，耳朵的终极盛宴

AudioX 是香港科技大学和月之暗面联合推出的扩散变换器模型，能够从文本、视频、图像等多种模态生成高质量音频和音乐，具备强大的跨模态学习能力和泛化能力。

1年前
321
点赞
评论

AudioX：颠覆创作！多模态AI一键生成电影级音效+配乐，耳朵的终极盛宴

MedRAG：医学AI革命！知识图谱+四层诊断，临床准确率飙升11.32%

MedRAG是南洋理工大学推出的医学诊断模型，结合知识图谱与大语言模型，提升诊断准确率11.32%，支持多模态输入与智能提问，适用于急诊、慢性病管理等多种场景。

1年前
248
点赞
评论

MedRAG：医学AI革命！知识图谱+四层诊断，临床准确率飙升11.32%

MM-Eureka：多模态推理新纪元！54K训练量吊打百万级模型，K12数学能力暴增8.2%

MM-Eureka 是由上海人工智能实验室、上海创智学院、上海交通大学和香港大学联合开发的多模态推理模型，通过基于规则的强化学习，显著提升了多模态推理能力，尤其在数据效率和推理准确性方面表现突出。

1年前
331
点赞
评论

MM-Eureka：多模态推理新纪元！54K训练量吊打百万级模型，K12数学能力暴增8.2%

Open-LLM-VTuber：宅男福音！开源AI老婆离线版上线，实时语音+Live2D互动还会脸红心跳

Open-LLM-VTuber 是一个开源的跨平台语音交互 AI 伴侣项目，支持实时语音对话、视觉感知和生动的 Live2D 动态形象，完全离线运行，保护用户隐私。

1年前
2.3k
6
2

Open-LLM-VTuber：宅男福音！开源AI老婆离线版上线，实时语音+Live2D互动还会脸红心跳