今天深度学习了没

今天深度学习了没

今天深度学习了没

学习点 AI

等 1 人订阅共20篇文章创建于2025-04-22

4核CPU+4G内存流畅运行！Duix-Mobile开源SDK颠覆数字人硬件门槛

轻量级跨平台数字人引擎 Duix-Mobile 是硅基智能推出的全球首款开源2D真人级数字人移动端SDK（GitHub开源仓库：https://github.com/duixcom/D

7月前
763
1
评论

4核CPU+4G内存流畅运行！Duix-Mobile开源SDK颠覆数字人硬件门槛

Rembg开源项目全面解析：从原理到实践应用

Rembg项目是深度学习时代的典型产物，其采用的U²-Net架构在2020年刷新了图像分割领域的多个基准测试记录。

7月前
319
2
评论

Rembg开源项目全面解析：从原理到实践应用

2025年 GitHub 主流开源视频生成模型介绍

2025年 GitHub 主流开源视频生成模型介绍：包括阿里的wan2.1、腾讯混元等等，希望你可以更多实践~

7月前
3.6k
点赞
评论

从一张图到毫秒级万物锁定：一口气追完YOLO v1→v13的史诗级进化路

单阶段检测的范式革命目标检测是计算机视觉的基石任务。2015年，Joseph Redmon提出YOLO（You Only Look Once），颠覆了传统的两阶段检测范式。

7月前
535
1
评论

从一张图到毫秒级万物锁定：一口气追完YOLO v1→v13的史诗级进化路

GitHub 开源 AI 图像超分辨率工具 upscayl 介绍

Upscayl 是一款免费开源的 AI 图像超分辨率工具，专注于通过深度学习模型提升低分辨率图像的清晰度。项目基于 Linux-First 理念开发，支持跨平台运行

9月前
784
1
评论

GitHub 开源 AI 图像超分辨率工具 upscayl 介绍

Windows 环境下安装 Anaconda 并适配到 PowerShell 的保姆级教程

Windows 环境下安装 Anaconda 并适配到 PowerShell 的保姆级教程，Anaconda 是一个流行的 Python 数据科学和机器学习平台。

9月前
882
1
评论

Windows 环境下安装 Anaconda 并适配到 PowerShell 的保姆级教程

多模态实时交互边界的高效语音语言模型 VITA-Audio 介绍

VITA-Audio是由Zuwei Long等研究者提出的端到端大型语音语言模型，其核心目标是通过跨模态令牌生成技术，解决传统语音交互系统中首音频令牌生成延迟高的问题。

9月前
412
1
评论

多模态实时交互边界的高效语音语言模型 VITA-Audio 介绍

PyTorch 是一个开源的机器学习库，广泛用于计算机视觉和自然语言处理等应用。它由 Facebook 的人工智能研究团队开发，并得到了许多其他机构和个人的贡献。

9月前
428
1
评论

Windows 环境实战开源项目GFPGAN 教程

GFPGAN（Generative Facial Prior-GAN）是由腾讯ARC（Applied Research Center）开发的一种实用的真实世界人脸修复算法。

9月前
549
1
评论

Windows 环境实战开源项目GFPGAN 教程

开源语音-文本基础模型和全双工语音对话框架 Moshi 介绍

Moshi是一种语音-文本基础模型和全双工语音对话框架。它使用了Mimi这一业界领先的流式神经音频编解码器。Mimi能够以完全流式处理的方式（80毫秒的延迟，即帧大小）

9月前
471
2
评论

Windows 环境部署 ChatGLM2-6b 入门教程

ChatGLM2-6B是智谱AI及清华KEG实验室发布的中英双语对话模型，它是 ChatGLM-6B 的第二代版本。

9月前
172
1
评论

Windows 环境部署 ChatGLM2-6b 入门教程

DDColor：AI黑科技让老照片“一键复活”！阿里巴巴达摩院双解码器技术，还原历史色彩

DDColor 是由阿里巴巴达摩院研发的基于深度学习的图像上色工具，通过双解码器技术和多尺度特征分析，实现了黑白或灰度图像的高质量彩色化。 GitHub：https://github.com/p

9月前
206
1
评论

DDColor：AI黑科技让老照片“一键复活”！阿里巴巴达摩院双解码器技术，还原历史色彩

Windows下安装 LLama-Factory 保姆级教程

LLaMA Factory 是一个旨在简化大型语言模型训练和微调流程的平台。它支持多种预训练模型，如LLaMA、LLaVA、Mistral等。

9月前
1.0k
1
评论

手写 VGG 网络模型实现 CIFAR10 数据集分类

VGG 网络 VGG是一个经典的卷积神经网络（CNN）架构，由牛津大学的视觉几何组（Visual Geometry Group）在2014年提出。VGG网络因其简单而有效的设计而闻名，

10月前
262
1
评论

轻量级证件照制作 AI 工具 HivisionIDPhotos 介绍

HivisionIDPhotos 是一款基于 AI 技术的开源证件照生成工具，支持智能抠图、背景替换、多尺寸生成等功能，适合个人和企业快速制作标准证件照。智能抠图与背景替换采用深度学习模型

10月前
753
3
2

轻量级证件照制作 AI 工具 HivisionIDPhotos 介绍

Conda 虚拟环境创建：加不加 Python 版本的深度剖析

在 conda 中创建虚拟环境时，是否指定 Python 具体版本会直接影响环境构建的底层逻辑、依赖管理方式以及后续开发的可控性。

10月前
695
1
评论

Kyutai开源实时语音对话模型Moshi

新闻法国人工智能实验室Kyutai在巴黎举行的一次活动上推出了能够进行自然交互的对话式人工智能助手Moshi，并计划将其作为开源技术发布。Kyutai表示，Moshi是首款可公开访问的人工智能助手，

10月前
145
1
评论

Kyutai开源实时语音对话模型Moshi

文生视频、图生视频 AI 大模型开源项目介绍【持续更新】

文生视频、图生视频 AI 大模型开源项目介绍，助你深度学习，把玩各类 AI，带你体验不一样的技术魅力！

10月前
1.4k
2
评论

文生视频、图生视频 AI 大模型开源项目介绍【持续更新】

开源大语言模型应用 Dify 让你轻松部署 AI 应用

Dify 是一款开源的大语言模型（LLM）应用开发平台，旨在简化生成式 AI 应用的开发与部署。它融合了后端即服务（BaaS）和 LLMOps（大语言模型运维）的理念，提供可视化工具与全栈功能，

10月前
493
1
评论

开源大语言模型应用 Dify 让你轻松部署 AI 应用

阿里重磅开源 LHM：开源3D数字人神器

阿里巴巴通义实验室开源的LHM（Large Animatable Human Reconstruction Model）是当前3D建模领域的突破性工具，能够从单张图像快速生成高质量可动画化

10月前
3.2k
30
5

阿里重磅开源 LHM：开源3D数字人神器