每日 AI 项目与应用实例

每日 AI 项目与应用实例

每日 AI 项目与应用实例

分享最新 AI 资讯，收集 AI 模型、工具、框架等开源项目。

等 115 人订阅共816篇文章创建于2024-11-02

还在手动验证文献引用？ScholarCopilot：开源AI学术写作工具，生成时实时插入文献引用

基于 Qwen-2.5-7B 模型的 ScholarCopilot 通过动态检索标记和联合优化技术，实现学术文本生成与文献引用的精准匹配，在 50 万篇论文库中实现 40.1% 的检索准确率，生成文本

1年前
307
点赞
评论

还在手动验证文献引用？ScholarCopilot：开源AI学术写作工具，生成时实时插入文献引用

设计师集体破防！UNO：字节跳动创新AI图像生成框架，多个参考主体同框生成，位置/材质/光影完美对齐

UNO是字节跳动开发的AI图像生成框架，通过渐进式跨模态对齐和通用旋转位置嵌入技术，解决了多主体场景下的生成一致性问题。该框架支持单主体特征保持与多主体组合生成，在虚拟试穿、产品设计等领域展现强大泛化

1年前
343
点赞
评论

设计师集体破防！UNO：字节跳动创新AI图像生成框架，多个参考主体同框生成，位置/材质/光影完美对齐

AgentPrune：开源多智能体通信优化框架，无缝兼容AutoGen，让对话成本直降95%！

同济大学与香港中文大学联合研发的AgentPrune框架，通过时空图建模与低秩稀疏剪枝技术，显著优化多智能体系统的通信效率。该框架在保持性能的同时减少72.8%的通信量，并具备防御对抗攻击能力。

1年前
382
2
评论

AgentPrune：开源多智能体通信优化框架，无缝兼容AutoGen，让对话成本直降95%！

32B模型性能直逼671B的DeepSeek-R1！Skywork-OR1：昆仑万维开源推理模型，突破数学与代码双极限

Skywork-OR1系列模型通过强化学习框架与多阶段训练策略，在数学推理与代码生成领域实现突破性进展，其7B参数版本在AIME数学数据集上超越同规模模型，32B版本性能接近671B参数竞品。

1年前
190
1
评论

32B模型性能直逼671B的DeepSeek-R1！Skywork-OR1：昆仑万维开源推理模型，突破数学与代码双极限

快速切换多种画风！FlexIP：腾讯开源双适配器图像生成框架，精准平衡身份保持与个性化编辑

本文解析腾讯最新开源的FlexIP图像框架，其通过双适配器架构与动态门控机制实现身份保持与个性化编辑的精准平衡，在CLIP-I指标上取得0.873的高分验证了技术突破。

1年前
127
点赞
评论

快速切换多种画风！FlexIP：腾讯开源双适配器图像生成框架，精准平衡身份保持与个性化编辑

胶佬狂喜！一键分解和修改建模！HoloPart：港大开源神器能将3D物体分解为完整、可编辑的语义部件

香港大学与VAST团队联合推出开源3D部件生成模型HoloPart，通过两阶段扩散模型实现被遮挡部件的完整重构，支持几何超分辨率与多场景应用，在ABO等数据集上展现显著技术优势。

1年前
256
1
评论

胶佬狂喜！一键分解和修改建模！HoloPart：港大开源神器能将3D物体分解为完整、可编辑的语义部件

超越 DeepSeek-R1！Seed-Thinking-v1.5：字节跳动开源MoE架构推理模型，200B总参数仅激活20B，推理效率提升5倍

字节跳动推出的200B参数混合专家模型，在AIME/Codeforces/GPQA等基准测试中实现多项突破，采用强化学习框架与流式推理系统，支持7大领域复杂推理任务。

1年前
413
点赞
评论

超越 DeepSeek-R1！Seed-Thinking-v1.5：字节跳动开源MoE架构推理模型，200B总参数仅激活20B，推理效率提升5倍

一键生成魔童哪吒数字人！FantasyTalking：阿里北邮联手打造静态肖像生成可控数字人框架

该框架基于双阶段视听对齐策略与视频扩散变换器模型，通过面部专注注意力机制实现身份保持，支持表情与动作强度的显式调控，生成高保真多姿态的虚拟形象动态视频。

1年前
551
点赞
评论

一键生成魔童哪吒数字人！FantasyTalking：阿里北邮联手打造静态肖像生成可控数字人框架

月之暗面开源16B轻量级多模态视觉语言模型！Kimi-VL：推理仅需激活2.8B，支持128K上下文与高分辨率输入

月之暗面开源的Kimi-VL采用混合专家架构，总参数量16B推理时仅激活2.8B，支持128K上下文窗口与高分辨率视觉输入，通过长链推理微调和强化学习实现复杂任务处理能力。

1年前
424
点赞
评论

月之暗面开源16B轻量级多模态视觉语言模型！Kimi-VL：推理仅需激活2.8B，支持128K上下文与高分辨率输入

傅利叶开源人形机器人，提供完整的开源套件！Fourier N1：具备23个自由度和3.5米/秒运动能力

傅利叶推出的开源人形机器人N1搭载自研动力系统与多模态交互模块，具备23个自由度和3.5米/秒运动能力，提供完整开源套件助力开发者验证算法。

1年前
185
点赞
评论

傅利叶开源人形机器人，提供完整的开源套件！Fourier N1：具备23个自由度和3.5米/秒运动能力

传统OCR集体阵亡！Versatile-OCR-Program：开源多语言OCR工具，精准解析表格和数学公式等复杂结构

本文解析开源OCR工具Versatile-OCR-Program的技术实现，其基于多模态融合架构实现90%以上识别准确率，支持数学公式与图表的结构化输出，为教育资料数字化提供高效解决方案。

1年前
1.2k
7
1

传统OCR集体阵亡！Versatile-OCR-Program：开源多语言OCR工具，精准解析表格和数学公式等复杂结构

GPT-4o测评准确率竟不到1%！BrowseComp：OpenAI开源AI代理评测新基准，1266道高难度网络检索问题

OpenAI最新开源的BrowseComp基准包含1266个高难度网络检索问题，覆盖影视、科技、艺术等九大领域，其最新Deep Research模型以51.5%准确率展现复杂信息整合能力，为AI代理的

1年前
378
点赞
评论

GPT-4o测评准确率竟不到1%！BrowseComp：OpenAI开源AI代理评测新基准，1266道高难度网络检索问题

AI智能体内战终结者！A2A：谷歌开源的首个标准智能体交互协议，让AI用同一种“语言”交流

A2A是谷歌推出的首个标准化智能体交互协议，通过统一通信规范实现不同框架AI智能体的安全协作，支持多模态交互和长时任务管理，已有50多家企业加入生态。

1年前
261
点赞
评论

AI智能体内战终结者！A2A：谷歌开源的首个标准智能体交互协议，让AI用同一种“语言”交流

推理速度开挂！谷歌推出 Gemini 2.5 Flash：在保持Gemini 2.5精度的同时，延迟降低到竞品的1/3

谷歌最新推出的Gemini 2.5 Flash AI模型在保持低延迟和成本效益的同时，通过引入思考能力为开发者解锁了智能代理构建、代码辅助等新应用场景。

1年前
175
点赞
评论

推理速度开挂！谷歌推出 Gemini 2.5 Flash：在保持Gemini 2.5精度的同时，延迟降低到竞品的1/3

还在手写SVG？OmniSVG：复旦团队开源多模态矢量生成神器，文本图像秒变可编辑SVG！

复旦大学与StepFun联合推出的OmniSVG是全球首个端到端多模态SVG生成模型，通过创新的标记化方法实现高效矢量图形生成，支持文本、图像等多种输入方式。

1年前
238
2
评论

还在手写SVG？OmniSVG：复旦团队开源多模态矢量生成神器，文本图像秒变可编辑SVG！

无需配置开箱即用！MoLing：基于MCP开发的自动化办公服务，一键搞定文件与网页操作

MoLing是一款基于Go语言开发的跨平台办公自动化工具，通过操作系统API和浏览器自动化框架实现文件操作、命令执行及网页控制，无需额外依赖即可运行。

1年前
242
1
评论

无需配置开箱即用！MoLing：基于MCP开发的自动化办公服务，一键搞定文件与网页操作

【内附榜单】评估AI大模型的代码修复能力！Multi-SWE-bench：字节开源代码修复能力评估基准，覆盖7大主流编程语言

Multi-SWE-bench是首个覆盖Python外7种主流编程语言的代码修复基准，包含1632个真实GitHub问题样本，通过严格筛选与人工验证确保数据质量。

1年前
690
1
评论

【内附榜单】评估AI大模型的代码修复能力！Multi-SWE-bench：字节开源代码修复能力评估基准，覆盖7大主流编程语言

用AI精准定位问题代码，调试时间直接砍半！LocAgent：斯坦福开源代码调试神器，多跳推理锁定问题代码

LocAgent是由斯坦福大学、耶鲁大学等顶尖机构联合开发的代码定位框架，通过将代码库转化为图结构并利用大语言模型的多跳推理能力，实现精准的问题代码定位。

1年前
627
2
评论

用AI精准定位问题代码，调试时间直接砍半！LocAgent：斯坦福开源代码调试神器，多跳推理锁定问题代码

Cloudflare推出托管式RAG服务！AutoRAG：从数据上传到索引更新全程托管，文档变动自动同步

AutoRAG是Cloudflare推出的全托管检索增强生成服务，基于自动索引和向量化技术，帮助开发者快速构建上下文感知的AI应用，无需管理底层基础设施。

1年前
139
点赞
评论

Cloudflare推出托管式RAG服务！AutoRAG：从数据上传到索引更新全程托管，文档变动自动同步

让AI绘画进入「指哪画哪」的精准时代！EasyControl：Tiamat AI 联合上海科大开源图像生成控制框架

EasyControl 是基于扩散变换器架构的高效灵活控制框架，通过轻量级条件注入模块实现多模态预训练支持，具备任意分辨率生成能力和显著优化的推理效率。

1年前
384
2
评论

让AI绘画进入「指哪画哪」的精准时代！EasyControl：Tiamat AI 联合上海科大开源图像生成控制框架