每日 AI 项目与应用实例

每日 AI 项目与应用实例

每日 AI 项目与应用实例

分享最新 AI 资讯，收集 AI 模型、工具、框架等开源项目。

等 115 人订阅共816篇文章创建于2024-11-02

HealthGPT：你的AI医疗助手上线了：支持X光到病理切片，诊断建议+报告生成全自动

HealthGPT 是浙江大学联合阿里巴巴等机构开发的先进医学视觉语言模型，具备医学图像分析、诊断辅助和个性化治疗方案建议等功能。

1年前
901
4
评论

HealthGPT：你的AI医疗助手上线了：支持X光到病理切片，诊断建议+报告生成全自动

OSUM：告别ASR单一功能，西工大开源的语音大模型会「读心」！识别+情感分析+年龄预测等8大任务1个模型全搞定

OSUM 是西北工业大学开发的开源语音理解模型，支持语音识别、情感分析、说话者性别分类等多种任务，基于 ASR+X 训练策略，具有高效和泛化能力强的特点。

1年前
818
点赞
评论

OSUM：告别ASR单一功能，西工大开源的语音大模型会「读心」！识别+情感分析+年龄预测等8大任务1个模型全搞定

谷歌放大招！多模态模型PaliGemma 2 Mix上线：通吃问答+OCR+检测等多项视觉理解任务，28B参数无需额外加载模型

PaliGemma 2 Mix 是谷歌DeepMind发布的多任务视觉语言模型，支持图像描述、OCR、目标检测等功能，适用于文档理解、科学问题解答等场景。

1年前
363
点赞
评论

谷歌放大招！多模态模型PaliGemma 2 Mix上线：通吃问答+OCR+检测等多项视觉理解任务，28B参数无需额外加载模型

BioEmu：微软黑科技炸场！生成式AI重构蛋白质模拟：千倍效率碾压传统计算，新药研发周期砍半

BioEmu 是微软推出的生成式深度学习系统，可在单个 GPU 上每小时生成数千种蛋白质结构样本，支持模拟动态变化、预测热力学性质，并显著降低计算成本。

1年前
284
点赞
评论

BioEmu：微软黑科技炸场！生成式AI重构蛋白质模拟：千倍效率碾压传统计算，新药研发周期砍半

HiveChat：告别模型选择困难！开源ChatGPT聚合神器上线：一键切换10+模型，权限管控全免费

HiveChat 是一款专为中小团队设计的开源 AI 聊天应用，支持多种主流 AI 模型，提供高效的团队沟通和智能辅助功能。

1年前
409
2
评论

HiveChat：告别模型选择困难！开源ChatGPT聚合神器上线：一键切换10+模型，权限管控全免费

Stirling-PDF：51.4K Star！用Docker部署私有PDF工作站，支持50多种PDF操作，从此告别在线工具

Stirling-PDF 是一款基于 Docker 的本地化 PDF 编辑工具，支持 50 多种 PDF 操作，包括合并、拆分、转换、压缩等，同时提供多语言支持和企业级功能，满足个人和企业用户的多样化

1年前
551
点赞
评论

Stirling-PDF：51.4K Star！用Docker部署私有PDF工作站，支持50多种PDF操作，从此告别在线工具

Crawl4LLM：你的模型还在吃垃圾数据？CMU博士开源AI爬虫，自动筛选高价值网页，数据抓取质量飙升300%

Crawl4LLM 是清华大学和卡内基梅隆大学联合开发的智能爬虫系统，通过网页价值评估和优先级队列技术，显著提升大语言模型预训练数据采集效率。

1年前
365
1
评论

Crawl4LLM：你的模型还在吃垃圾数据？CMU博士开源AI爬虫，自动筛选高价值网页，数据抓取质量飙升300%

Magma：微软放大招！新型多模态AI能看懂视频+浏览网页+UI交互+控制机器人，数字世界到物理现实无缝衔接

Magma 是微软研究院开发的多模态AI基础模型，结合语言、空间和时间智能，能够处理图像、视频和文本等多模态输入，适用于UI导航、机器人操作和复杂任务规划。

1年前
347
点赞
评论

Magma：微软放大招！新型多模态AI能看懂视频+浏览网页+UI交互+控制机器人，数字世界到物理现实无缝衔接

Aider：27.6K Star！这个终端AI编程神器能用语音改代码，自动生成Git记录并提交，接入DeepSeek斩获编程基准最高分

Aider 是一款基于命令行的开源 AI 编程助手，支持多种编程语言和主流 LLM，可自动完成代码修改、Git 提交及语音交互。

1年前
385
点赞
评论

Aider：27.6K Star！这个终端AI编程神器能用语音改代码，自动生成Git记录并提交，接入DeepSeek斩获编程基准最高分

ToddlerBot：告别百万经费！6000刀就能造人形机器人，斯坦福开源全套方案普及机器人研究

ToddlerBot 是斯坦福大学推出的低成本开源人形机器人平台，支持强化学习、模仿学习和零样本模拟到现实转移，适用于运动操作研究和多场景应用。

1年前
295
点赞
评论

ToddlerBot：告别百万经费！6000刀就能造人形机器人，斯坦福开源全套方案普及机器人研究

Agentic Reasoning：推理界RAG诞生！牛津大学框架让LLM学会『组队打怪』：动态调用搜索/代码代理，复杂任务准确率飙升50%

Agentic Reasoning 是牛津大学推出的增强大型语言模型（LLM）推理能力的框架，通过整合外部工具提升多步骤推理、实时信息检索和复杂逻辑关系组织的能力。

1年前
218
点赞
评论

Agentic Reasoning：推理界RAG诞生！牛津大学框架让LLM学会『组队打怪』：动态调用搜索/代码代理，复杂任务准确率飙升50%

CLaMP 3：音乐搜索AI革命！多模态AI能听懂乐谱/MIDI/音频，用27国语言搜索全球音乐

CLaMP 3是由清华大学团队开发的多模态、多语言音乐信息检索框架，支持27种语言，能够进行跨模态音乐检索、零样本分类和音乐推荐等任务。

1年前
343
点赞
评论

CLaMP 3：音乐搜索AI革命！多模态AI能听懂乐谱/MIDI/音频，用27国语言搜索全球音乐

SWE-Lancer：OpenAI发布衡量AI工程能力的「血汗标尺」！1400个百万美元任务实测，GPT-4o仅能赚2.9万刀？

SWE-Lancer 是 OpenAI 推出的基准测试，评估语言模型在自由职业软件工程任务中的表现，涵盖真实任务、端到端测试和多选项评估。

1年前
470
点赞
评论

SWE-Lancer：OpenAI发布衡量AI工程能力的「血汗标尺」！1400个百万美元任务实测，GPT-4o仅能赚2.9万刀？

DynamicCity：上海AI Lab开源4D场景神器助力自动驾驶场景！128帧动态LiDAR生成，1:1还原城市早晚高峰

DynamicCity 是上海 AI Lab 推出的 4D 动态场景生成框架，专注于生成具有语义信息的大规模动态 LiDAR 场景，适用于自动驾驶、机器人导航和交通流量分析等多种应用场景。

1年前
205
点赞
评论

DynamicCity：上海AI Lab开源4D场景神器助力自动驾驶场景！128帧动态LiDAR生成，1:1还原城市早晚高峰

MoBA：LLM长文本救星！月之暗面开源新一代注意力机制：处理1000万token能快16倍，已在Kimi上进行验证

MoBA 是一种新型注意力机制，通过块稀疏注意力和无参数门控机制，显著提升大型语言模型在长上下文任务中的效率。

1年前
571
1
评论

MoBA：LLM长文本救星！月之暗面开源新一代注意力机制：处理1000万token能快16倍，已在Kimi上进行验证

Omnitool：开发者桌面革命！开源神器一键整合ChatGPT+Stable Diffusion等主流AI平台，本地运行不联网

Omnitool 是一款开源的 AI 桌面环境，支持本地运行，提供统一交互界面，快速接入 OpenAI、Stable Diffusion、Hugging Face 等主流 AI 平台，具备高度扩展性。

1年前
409
1
评论

Omnitool：开发者桌面革命！开源神器一键整合ChatGPT+Stable Diffusion等主流AI平台，本地运行不联网

Light-A-Video：好莱坞级打光自由！上海AI Lab开源视频打光AI，无需训练秒改画面氛围，3步让阴天变夕阳

Light-A-Video 是由上海AI Lab联合交大等高校推出的无需训练的视频重照明方法，支持高质量、时间一致的光照控制，零样本生成和前景背景分离处理。

1年前
265
1
评论

Light-A-Video：好莱坞级打光自由！上海AI Lab开源视频打光AI，无需训练秒改画面氛围，3步让阴天变夕阳

AutoAgents：比LangChain更激进的AI开发神器！自然语言生成AI智能体军团，1句话搞定复杂任务

AutoAgents 是基于大型语言模型的自动智能体生成框架，能够根据用户设定的目标自动生成多个专家角色的智能体，通过协作完成复杂任务。支持动态生成智能体、任务规划与执行、多智能体协作等功能。

1年前
188
点赞
评论

AutoAgents：比LangChain更激进的AI开发神器！自然语言生成AI智能体军团，1句话搞定复杂任务

SkyReels-V1：短剧AI革命来了！昆仑开源视频生成AI秒出影视级短剧，比Sora更懂表演！

SkyReels-V1是昆仑万维开源的首个面向AI短剧创作的视频生成模型，支持高质量影视级视频生成、33种细腻表情和400多种自然动作组合。

1年前
1.2k
7
评论

SkyReels-V1：短剧AI革命来了！昆仑开源视频生成AI秒出影视级短剧，比Sora更懂表演！

SkyReels-A1：解放动画师！昆仑开源「数字人制造机」：一张照片生成逼真虚拟主播，表情连眉毛颤动都可控

SkyReels-A1 是昆仑万维开源的首个 SOTA 级别表情动作可控的数字人生成模型，支持高保真肖像动画生成和精确的表情动作控制。

1年前
764
2
评论

SkyReels-A1：解放动画师！昆仑开源「数字人制造机」：一张照片生成逼真虚拟主播，表情连眉毛颤动都可控