首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
每日 AI 项目与应用实例
蚝油菜花
创建于2024-11-02
订阅专栏
分享最新 AI 资讯,收集 AI 模型、工具、框架等开源项目。
等 102 人订阅
共816篇文章
创建于2024-11-02
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
AgentSquare:清华推出优化智能体模块化设计和搜索的新框架
AgentSquare 是清华大学团队推出的模块化智能体设计和搜索新框架,通过自动优化 LLM 代理设计,显著提升智能体性能。
Ichigo:开源 AI 语音助手,能够实时处理语音和文本的交织序列,提供接近实时的语音交互体验
Ichigo 是一个开源的多模态 AI 语音助手,能够实时处理语音和文本的交织序列,提供接近实时的语音交互体验。
Magentic-One:微软推出多智能体系统,用于解决跨领域的复杂网络和文件任务
Magentic-One 是微软推出的一个通用多智能体系统,旨在解决跨领域的复杂网络和文件任务。Magentic-One 基于微软 AutoGen 框架实现,支持模块化和灵活性,易于扩展和适应新任务。
AndroidLab:系统评估 Android 自主代理的基准测试框架,支持大型语言模型和多模态模型
本文介绍了 AndroidLab,一个用于训练和系统评估 Android 自主代理的框架,涵盖了多模态操作环境、基准测试、评估指标、数据集构建等方面。
VQAScore:文本到视觉生成模型的评估工具,用于衡量模型生成图像、视频和 3D 模型的质量
VQAScore 是 CMU 和 Meta 联合推出的一种评估文本到视觉图像生成质量的方法,基于视觉问答(VQA)模型,提供了自动化和更准确的评估方案。
OuteTTS:基于纯语言建模的开源文本到语音合成项目,支持语音克隆等多种语音合成任务
OuteTTS 是一个基于纯语言建模方法的开源文本到语音合成项目,支持语音克隆功能,以及用户创建自定义说话人的声音。
Cerebellum:浏览器 AI 助手,基于 Claude 3.5 Sonnet 和 Selenium WebDriver 执行网页自动化任务
Cerebellum 是基于 Claude 3.5 Sonnet 和 Selenium WebDriver 构建的浏览器 AI 助手,能够执行网页自动化任务和行动规划。
WebRL:自进化在线课程强化学习框架,提升开源大模型网络任务能力的新框架
WebRL 是清华大学和智谱 AI 联合推出的自进化在线课程强化学习框架,通过自我进化课程学习和结果监督奖励模型(ORM)评估任务成功与否,显著提升了开源 LLM 在 WebArena-Lite 基准
Docling:开源的文档解析工具,支持多种格式的解析和转换,可与其他 AI 工具集成
Docling 是一个开源的文档解析工具,支持多种格式的文档解析和转换,具备高级 PDF 理解、OCR 功能,并且易于与其他 AI 工具集成。
Claude 3.5 Sonnet API 新增计算机使用功能,支持通过自然语言完成自动化操作电脑任务
Claude 3.5 Sonnet 新增的计算机使用功能,使其可以像人类一样进行鼠标操作、键盘输入等,实现自动化操作桌面环境的任务。
Cofounder:全栈 AI 应用开发 Agent,基于单一提示生成完整的应用程序
Cofounder 是一个开源的全栈 AI 开发代理,帮助开发者自动生成完整的应用程序,包括后端、前端、数据库和有状态的 Web 应用。
MagicTailor:组件可控的个性化图像生成框架,减少语义污染提高图像生成质量
MagicTailor 是一种专为组件可控个性化设计的新框架,支持在文本到图像生成过程中精确控制特定组件。该框架解决了语义污染和语义不平衡的问题,提高了图像生成的质量和控制能力。
Hunyuan-Large:腾讯发布业界参数规模最大的开源 MoE 模型,支持超长文本输入,超越主流开源模型
Hunyuan-Large 是腾讯推出的一款大规模混合专家(MoE)模型,具有 3890 亿总参数和 520 亿激活参数,支持高达 256K 的文本序列输入。该模型在长上下文处理、多语言支持和各类基准
Hunyuan3D-1.0:腾讯开源超高效 3D 生成模型,支持文本和图像输入
Hunyuan3D-1.0 是腾讯推出的一种高效的 3D 生成模型,支持文本和图像输入,可以在短时间内生成高质量的 3D 资产,广泛应用于游戏开发、工业设计、建筑设计等多个领域。
MMBench-Video:上海 AI Lab 联合多所高校推出长视频理解基准测试工具,全面评估 LVLMs 视频理解的能力
MMBench-Video 是一款用于评估大型视觉语言模型在视频理解能力上的基准测试,涵盖了 16 个类别的长视频,每个视频时长从 30 秒到 6 分钟不等。
HiCo:360 AI 开源布局可控 AI 绘画模型,实现对对象位置和文本描述的精确控制
HiCo 是一种基于扩散模型的层次化可控布局到图像生成模型,通过多分支结构实现对对象位置和文本描述的精确控制。
ComfyUI-MochiEdit: 开源的 AI 视频编辑工具,支持局部编辑和视频转视频功能
ComfyUI-MochiEdit 是一款开源的 AI 视频编辑工具,通过将视频转换为噪声并重新采样来实现视频编辑,支持局部编辑和视频转视频功能。
Stagehand:可扩展的 AI 网页浏览框架,支持使用自然语言执行网页操作
Stagehand 是一个简单且可扩展的 AI 网页浏览框架,提供自然语言驱动的网页操作,支持多种模型和提供商。
Fish Agent:集成 ASR 和 TTS 的端到端语音处理模型,支持多语言转换
Fish Agent 是 FishAudio 推出的端到端语音处理模型,支持多语言的语音到语音转换,集成 ASR 和 TTS 功能,无需传统编解码器。
Fast GraphRAG:微软推出高效的知识图谱检索框架,结合了知识图谱和 RAG 技术
Fast GraphRAG 是微软推出的一款高效的知识图谱检索框架,结合了检索增强生成(RAG)技术和知识图谱,旨在提供可解释性和高精度的代理驱动检索工作流。
下一页