每日 AI 项目与应用实例

每日 AI 项目与应用实例

每日 AI 项目与应用实例

分享最新 AI 资讯，收集 AI 模型、工具、框架等开源项目。

等 115 人订阅共816篇文章创建于2024-11-02

MagicQuill：蚂蚁集团联合多所高校共同开源的 AI 互动式图像编辑工具

MagicQuill 是一款由香港科技大学、蚂蚁集团、浙江大学和香港大学共同开发的智能互动图像编辑工具，通过用户友好的界面和 AI 支持的智能建议，实现精确的局部图像编辑。

1年前
107
点赞
评论

MagicQuill：蚂蚁集团联合多所高校共同开源的 AI 互动式图像编辑工具

Free Video-LLM：无需训练的高效视频语言理解模型，展现出与最先进的视频 LLM 相媲美的性能

Free Video-LLM 是一种无需训练的高效视频语言模型，通过提示引导的视觉感知技术，实现了对视频内容的高效理解。

1年前
2.6k
点赞
评论

Free Video-LLM：无需训练的高效视频语言理解模型，展现出与最先进的视频 LLM 相媲美的性能

TinyTroupe：微软推出的多智能体角色模拟库，支持虚拟人物之间的互动，模拟复杂的社交场景

TinyTroupe 是微软推出的一款实验性 Python 库，用于模拟具有特定个性、兴趣和目标的人工代理在模拟环境中的互动。基于大型语言模型生成逼真的行为，研究人类行为和消费者类型，旨在理解人类行为

1年前
509
1
评论

TinyTroupe：微软推出的多智能体角色模拟库，支持虚拟人物之间的互动，模拟复杂的社交场景

OmniParse：AI 数据解析平台，提取和解析任何非结构化数据

OmniParse 是一个数据解析平台，能够将多种非结构化数据转换为结构化、可操作的数据，优化适用于大型语言模型（LLM）应用。

1年前
581
点赞
评论

OmniParse：AI 数据解析平台，提取和解析任何非结构化数据

Promptim：AI 提示自动迭代优化库，生成最佳提示

Promptim 是一个实验性的提示优化库，旨在帮助用户系统地改善 AI 系统的提示效果，支持自动化优化和人工反馈。

1年前
392
点赞
评论

Promptim：AI 提示自动迭代优化库，生成最佳提示

Text Behind Image：开源的在线图像处理工具，在图中角色背后添加文字

Text Behind Image 是一款开源的在线工具，支持用户在图片中的角色背后添加文字，创建具有视觉冲击力的海报和社交媒体图像。

1年前
304
点赞
评论

Text Behind Image：开源的在线图像处理工具，在图中角色背后添加文字

RMBG-2.0：开源的图像背景移除模型，具备高精度并支持各类图像

RMBG-2.0 是 BRIA AI 推出的最新图像背景移除模型，基于深度学习技术实现高精度的前景与背景分离，适用于电子商务、广告、游戏开发等多个领域。

1年前
612
1
评论

RMBG-2.0：开源的图像背景移除模型，具备高精度并支持各类图像

84.7k Star！Excalidraw：开源的在线白板工具，具备手绘风格和实时协作功能

Excalidraw 是一款开源的在线白板工具，具备手绘风格和实时协作功能，适用于快速草图、头脑风暴和远程协作。

1年前
573
2
评论

84.7k Star！Excalidraw：开源的在线白板工具，具备手绘风格和实时协作功能

Chonkie：轻量高效的 RAG 分块库，支持 Token、单词、句子和语义相似性等多种分块方法

Chonkie 是一个轻量级、快速且功能丰富的 RAG 分块库，支持多种分块方法，适用于各种自然语言处理任务。

1年前
384
点赞
评论

Chonkie：轻量高效的 RAG 分块库，支持 Token、单词、句子和语义相似性等多种分块方法

Vision Search Assistant：结合视觉语言模型和网络搜索的开源视觉理解框架

Vision Search Assistant (VSA) 是一种结合视觉语言模型和网络代理搜索的框架，能够显著提升模型对未知视觉内容的理解能力，广泛应用于图像识别、新闻分析等多个领域。

1年前
436
1
评论

Vision Search Assistant：结合视觉语言模型和网络搜索的开源视觉理解框架

Kiroku：模拟学生与导师间互动、组织和撰写文档的多智能体系统

Kiroku 是一个多智能体系统，旨在帮助用户组织和撰写文档。它通过模拟导师与学生之间的互动，加速文档的构思和成文过程。

1年前
430
点赞
评论

Kiroku：模拟学生与导师间互动、组织和撰写文档的多智能体系统

AgentReview：基于 LLM Agents 模拟同行评审过程的框架

AgentReview 是一个基于大型语言模型（LLM）的框架，用于模拟学术同行评审过程，旨在探索和解决评审过程中的复杂多变量因素，同时保护隐私。

1年前
182
点赞
评论

AgentReview：基于 LLM Agents 模拟同行评审过程的框架

MoneyPrinterTurbo：开源的 AI 短视频生成工具，一键生成高清视频，包括视频文案、素材、字幕和背景音乐

MoneyPrinterTurbo 是一款强大的视频生成工具，通过提供视频主题或关键词，可以全自动地生成高清视频，包括视频文案、素材、字幕和背景音乐。

1年前
825
点赞
评论

MoneyPrinterTurbo：开源的 AI 短视频生成工具，一键生成高清视频，包括视频文案、素材、字幕和背景音乐

PDFMathTranslate：开源的 PDF 文档翻译和双语对照工具

PDFMathTranslate 是一款开源的 PDF 文档翻译工具，支持科技论文等 PDF 文件的翻译，保留原文排版，包括公式和图表。同时支持双语对照，保持原有目录结构，兼容多种翻译服务。

1年前
965
点赞
评论

PDFMathTranslate：开源的 PDF 文档翻译和双语对照工具

TableGPT2-7B：浙大推出专注于分析和处理表格数据的大模型

TableGPT2-7B 是浙江大学推出的大规模解码器，专为数据密集型任务设计，尤其擅长处理和分析表格数据。

1年前
270
1
评论

TableGPT2-7B：浙大推出专注于分析和处理表格数据的大模型

VideoChat：开源的数字人实时对话系统，支持自定义数字人的形象和音色

VideoChat 是一款开源的实时数字人对话系统，支持语音输入和实时对话功能，首包延迟低至 3 秒，适用于多种实时语音交互场景。

1年前
1.2k
点赞
评论

VideoChat：开源的数字人实时对话系统，支持自定义数字人的形象和音色

OpenCoder：首个完全透明化开源的大型语言模型，提供了模型权重和推理代码，包括可复现的训练数据等

OpenCoder 是一个由墨尔本大学、复旦大学等高校研究人员联合推出的开源代码大型语言模型（LLM），旨在提升开源代码 LLM 的性能，推动代码 AI 研究的透明化和可重复性。

1年前
321
点赞
评论

OpenCoder：首个完全透明化开源的大型语言模型，提供了模型权重和推理代码，包括可复现的训练数据等

DimensionX：从单张图片生成高度逼真的 3D 和 4D 场景

DimensionX 能够从单张图片生成高逼真度的 3D 和 4D 场景。该框架利用 ST-Director 技术解耦空间和时间因素，实现精确控制，并包含轨迹感知和身份保持去噪策略，以增强场景的一致性

1年前
231
点赞
评论

DimensionX：从单张图片生成高度逼真的 3D 和 4D 场景

HK-O1aw：HKGAI 与北大联合推出全球首个法律推理大模型

HK-O1aw 是一个专为香港法律系统设计的法律助理，旨在处理复杂的法律推理问题。HK-O1aw 在合同法、消费者权益保护法等多个法律领域表现出色，提供逻辑严密的法律意见和咨询服务。

1年前
247
点赞
评论

HK-O1aw：HKGAI 与北大联合推出全球首个法律推理大模型

CogVideoX v1.5：智谱最新开源的 AI 视频生成模型，支持任意尺寸比例的图像到视频的转换

CogVideoX 是智谱研发的开源 AI 视频生成模型，最新版本为 CogVideoX v1.5，支持生成 5 至 10 秒、768P 分辨率、16 帧的视频，以及任意尺寸比例的图像到视频的转换。

1年前
441
点赞
评论

CogVideoX v1.5：智谱最新开源的 AI 视频生成模型，支持任意尺寸比例的图像到视频的转换