首页
首页
BOT
沸点
课程
直播
活动
AI刷题
NEW
商城
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
关注
综合
后端
前端
Android
iOS
人工智能
开发工具
代码人生
阅读
排行榜
综合
后端
排行榜
前端
Android
iOS
人工智能
开发工具
代码人生
阅读
全部
人工智能
后端
AIGC
LLM
算法
Python
开源
前端
OpenAI
展开
全部
人工智能
后端
AIGC
LLM
算法
Python
开源
前端
OpenAI
深度学习
机器学习
GitHub
架构
豆包MarsCode
JavaScript
暂无数据
推荐
最新
重要的AIGC开源热点都在这里了 AIGC Weekly #2
每周精选最具潜力的 AI 开源工具与技术。我们为你解析项目亮点与应用场景,并推荐实用资源,帮助你在 AI 开发中领先一步!无论是学习还是实践,《开源 AIGC 周刊》都是你的每周灵感来源! 本周不可错
首次覆盖超 11 类真实编程场景!豆包大模型团队开源代码大模型全新基准
字节跳动豆包大模型团队开源 FullStack Bench,一个专注于全栈编程和多语言编程的代码评估数据集。
5.3K Star!开源 AI 搜索引擎框架 MindSearch:打造属于你的 Perplexity Pro!
在AI搜索领域,出色的闭源产品很多,国外有Perplexity、Gemini、You.com、KOMO等,国内有夸克、跃问、360纳米等。 但在开源产品上,很少有让人眼前一亮的AI搜索引擎。 刚好最近
Perplexideez:开源本地 AI 搜索助手,智能搜索信息来源追溯
Perplexideez 是一款开源的本地 AI 搜索助手,旨在通过智能搜索和信息来源追溯功能,提升用户的搜索体验。它支持多用户、单点登录(SSO),并提供美观的搜索结果展示。Perplexideez
StableAnimator:复旦联合微软等机构推出的端到端身份一致性视频扩散框架
StableAnimator是由复旦大学、微软亚洲研究院、虎牙公司和卡内基梅隆大学联合推出的端到端身份一致性视频扩散框架。该框架能够根据一张参考图像和一系列姿态,直接合成高保真度且保持人物身份一致性的
大幅降低数据科学门槛!豆包大模型团队开源AutoKaggle,端到端解决数据处理
字节跳动豆包大模型团队与 M-A-P 社区于近日提出 AutoKaggle,为数据科学家提供了一个端到端的数据处理解决方案。目前,该成果已经开源,本文将介绍其立项缘起、技术亮点及实验中的更多结论。
ComfyUI 官方桌面版重磅发布!支持 Windows 和 macOS 双系统。
对于 AI 工具爱好者和开发者来说,昨天有个值得关注的好消息: 备受期待的 ComfyUI V1 桌面版 正式开源! 如果你正苦于搭建和优化 AI 工作流,或者觉的现在使用的ComfyUI工具不给力,
白嫖Google免费GPU结合faster-whisper快速将音视频转为srt字幕
Google Colab 是一个免费的云端编程环境,你可以把它想象成一台放在云端的电脑,可以运行代码、处理数据,甚至进行复杂的 AI 计算,比如把你的音视频文件通过大模型快速准确地转换成字幕。 本文将
开发者必备!微软开源的项目翻译好帮手,一站式解决多语言翻译需求。
在全球化的开发环境中,多语言支持已经成为项目的必备能力。 然而,手动进行翻译工作费时费力,且难以保证翻译质量。 而微软 Azure 开源的 Co-op-Translator,正是一款面向开发者的 多语
Voice-Pro:开源AI音频处理工具,集成转录、翻译、TTS等一站式服务
Voice-Pro是一款开源的多功能音频处理工具,集成了语音转文字、文本转语音、实时翻译、YouTube视频下载和人声分离等多种功能。
aisuite:吴恩达发布开源Python库,一个接口调用多个大模型
吴恩达发布的开源Python库aisuite,提供了一个统一的接口来调用多个大型语言模型(LLM)服务。支持包括OpenAI、Anthropic、Azure等在内的11个模型平台。
AI虚拟人像有新玩法!首款具有身体动作的 AI 口型同步项目:EchoMimic V2。
AI 领域再添重磅工具:EchoMimic V2! 这一免费开源的工具不仅能让虚拟形象开口说话,做到口型同步,还能在音频驱动下添加头部和身体动作,将数字形象的表现力提升到一个全新的高度。 如果你对 A
搭了一个ChatTTS WebUI界面和api接口
最近几天,ChatTTS挺火,号称是专门为对话场景设计的文本转语音模型,拉下来玩了玩,开源版效果距离宣传视频还有不少差距,据说是故意限制。 马马虎虎至少能用,先来搭个web界面和懒人包,使用方便点。
3.1K Star 截图OCR也卷起来了!开源、全能、免费、跨平台的桌面工具,让屏幕操作更高效
今天又刷到了一个桌面截图OCR开源项目 eSearch,值得大家体验入手一番! eSearch开发背景 作者一直使用的是 Snipaste 的截图+贴图功能,但是经常需要再Linux中使用到截图的功能
iDP3:斯坦福大学联合多所高校推出的改进型3D视觉运动策略
iDP3是由斯坦福大学联合多所高校推出的改进型3D视觉运动策略,旨在提升人形机器人在多样化环境中的自主操作能力。该策略基于自我中心的3D视觉表征,无需精确相机校准和点云分割。
【Triton 教程】Libdevice (tl_extra.libdevice) 函数
Triton 是一种用于并行编程的语言和编译器。它旨在提供一个基于 Python 的编程环境,以高效编写自定义 DNN 计算内核,并能够在现代 GPU 硬件上以最大吞吐量运行。
17K star!30秒偷走你的声音,开源声音克隆工具
现在的AI发展越来越快,生成一段语音不是难事,那如果生成的是你自己的声音,你觉得如何? 今天我们分享一款开源的声音克隆工具,只需30秒的一般音源,他就可以偷走你的声音,它就是:OpenVoice。
让声音更纯净:一个简单的音频降噪工具
为什么要降噪? 在许多语音相关的应用场景中,噪声的存在会严重影响性能和用户体验。例如: 语音识别: 噪声会降低语音识别的准确率,尤其是在低信噪比环境下。 语音克隆: 噪声会使依据参考音频合成语音的
小模型干大事情,基于LLaMA-Factory+Lora入门级微调开源AI模型
《小模型干大事情,基于LLaMA-Factory+Lora入门级微调开源AI模型》 开源模型 说到开源模型就得提起huggingface 它是专注于人工智能模型的开源社区,里面提供了大量的预训练模型和
OCR小白也能上手!Llama-OCR只需5行代码,轻松实现高质量识别!
最简单且高质量的OCR工具,它来了! 一款基于 Llama 模型实现的开源OCR:Llama-OCR。 对于经常需要将图片、收据或包含表格的 PDF 文档转换为可编辑的文本时候,这款工具就显得尤为重要