《The AI Journal》2025.06.15大家好，2025年第11期《The AI Journal》半月刊发布

大家好，2025年第11期《The AI Journal》半月刊发布啦！本期为大家精选了5个优质项目，分别是：

📄 BongoCat: 跨平台电脑桌面宠物

🧠 void: 开源版Cursor代码编辑器

🤖 AI-Media2Doc: 智能视频转文档神器

📧 FramePack: 突破显存限制的视频生成框架

📝 nn-zero-to-hero: AI大神Karpathy的神经网络课程

1 BongoCat - 跨平台桌面宠物

1.1 简介

BongoCat 是一款轻量级的跨平台桌面宠物应用，其可爱的猫咪形象能够实时响应用户的键盘和鼠标操作。这个项目的灵感来源于 Bongo Cat Mver，但通过Tauri框架实现了跨平台支持，让更多用户都能与这只可爱的猫咪互动。本项目完全开源，代码透明，绝不收集任何用户数据，支持离线运行，是一款真正绿色无害的桌面伴侣。

1.2 功能

全平台兼容：基于Tauri v2开发，完美支持macOS、Windows和Linux三大操作系统
实时互动响应：根据键盘按键或鼠标操作，猫咪会同步做出相应的敲击动作，互动感十足
自定义模型支持：允许用户导入自定义猫咪模型，打造专属的个性化桌面宠物形象
绿色安全保障：完全开源免费，代码公开透明，无需联网运行，绝不收集用户隐私数据
轻量化设计：资源占用极低，不会影响系统性能，可在后台静默运行
社区支持丰富：提供活跃的QQ交流群和GitHub社区，更有专门的模型资源库供下载

1.3 适用

直播主播：为直播间增添趣味元素，通过猫咪的实时互动吸引观众注意力
程序员群体：作为编程时的桌面小伙伴，缓解长时间工作的枯燥感
游戏玩家：在游戏过程中提供可爱的视觉反馈，让每次操作都更加有趣
设计师和创作者：为创作环境增添灵感源泉，让工作氛围更加轻松愉快
一般用户：任何希望为桌面增添乐趣和陪伴感的普通电脑用户

1.4 点评

在这个快节奏的数字时代，BongoCat为我们提供了一种简单而温暖的陪伴方式。这只会跟着你敲键盘的小猫咪，虽然功能看起来很简单，但却能在无形中为日常的电脑操作增添不少乐趣。

2 void - 开源版Cursor代码编辑器

2.1 简介

void是一款基于VS Code深度定制的开源AI代码编辑器，定位为Cursor的开源替代品。这个项目由Y Combinator支持，旨在为开发者提供一个完全自主可控的AI编程环境。与Cursor等商业产品不同，void直接连接到各种AI提供商，不会通过私有后端中转用户数据，让开发者能够真正掌控自己的数据隐私。项目继承了VS Code的强大生态，同时集成了最先进的AI辅助编程功能，让开发者既能享受熟悉的编辑体验，又能获得强大的AI助力。

void

2.2 功能

AI助手完整套件：提供Tab自动补全、快速编辑、智能对话等核心AI编程功能
多模型直连支持：直接连接OpenAI、Claude、Gemini、Grok等主流AI模型，无需中转
本地模型兼容：支持Ollama、DeepSeek、Llama等开源模型的本地部署和使用
Agent模式：具备文件搜索、创建、编辑、删除以及终端访问等高级自动化能力
数据隐私保护：消息直接发送给AI提供商，void不保留任何用户数据
VS Code完全兼容：一键迁移现有主题、快捷键和设置，零学习成本
高级功能集成：包含检查点管理、错误检测、原生工具使用等专业特性

2.3 适用

专业开发者：需要AI辅助但重视数据隐私的软件工程师和技术团队
开源项目贡献者：参与开源项目开发，需要可定制化AI编程环境的开发者
企业技术团队：对代码安全要求严格，不希望代码经过第三方服务器的企业
学生和教育工作者：学习AI辅助编程，需要免费且功能完整的开发环境
AI研究人员：需要测试不同AI模型编程能力，进行对比研究的技术人员

2.4 点评

虽然项目logo设计容易让人联想到Cursor，但其开源特性确实解决了开发者的核心痛点。对于既想享受AI编程便利，又不愿意把代码"交给别人"的开发者来说，void无疑是当前最佳选择。

3 AI-Media2Doc - 智能视频转文档神器

3.1 简介

AI-Media2Doc是一款基于AI大模型的视频图文创作助手，专为内容创作者打造完全免费、本地部署的视频转文档解决方案。这个项目旨在为内容创作者提供一个完全免费、本地部署的AI视频处理方案。与市面上需要登录注册的付费工具不同，AI-Media2Doc支持完全离线运行，用户无需担心隐私泄露问题。项目采用前后端分离架构，前端使用ffmpeg wasm技术实现音视频处理，后端集成多种AI模型，能够将视频内容一键转换为小红书文案、公众号文章、思维导图等多种格式。

3.2 功能

多格式输出支持：一键生成小红书文案、公众号文章、知识笔记、思维导图、视频字幕等多种风格文档
无服务器架构：采用ffmpeg wasm技术，音视频处理在前端完成，无需安装额外软件
AI二次对话：支持基于视频内容进行AI问答，深度挖掘视频信息价值
字幕导出功能：处理结果可一键导出为标准字幕文件，方便后期制作
自定义提示词：支持前端自定义配置prompt，灵活适应不同的创作需求
隐私完全保护：任务记录保存在本地，无需登录注册，保障用户隐私安全
Docker一键部署：提供完整的Docker部署方案，轻松搭建个人AI视频处理服务

3.3 适用

内容创作者：需要将视频内容转换为图文的自媒体从业者和内容制作团队
学习笔记整理：将课程视频、讲座内容转换为结构化笔记的学生和职场人士
企业培训部门：需要将培训视频转换为文档资料的企业内训团队
科研工作者：整理会议录音、访谈视频为研究资料的学术研究人员
视频字幕制作：需要为视频添加字幕的影视后期工作者和UP主

3.4 点评

AI-Media2Doc击中了当下内容创作的一个真实痛点。在短视频时代，优质的视频内容层出不穷，但要想深度消化这些内容，文字形式往往比视频更高效。这种从实际使用场景出发的开发思路值得赞赏。技术实现层面，通过ffmpeg wasm将传统需要服务器处理的音视频任务搬到了前端，既保护了隐私又降低了部署成本。特别值得称赞的是完全开源且MIT协议的选择，让任何人都能以极低成本体验AI视频转文档服务。如果说有什么不足，就是目前还是1.0版本，某些高级功能还在路线图中，但相信随着社区反馈的增加，功能会越来越完善。

4 FramePack - 突破显存限制的视频生成框架

4.1 简介

FramePack是由斯坦福大学张吕敏和Maneesh Agrawala教授联合开发的革命性视频生成框架，专门解决AI视频生成中的显存爆炸问题。这个项目实现了真正意义上的O(1)复杂度视频扩散生成，无论视频长度如何变化，显存占用都保持恒定。通过创新的帧上下文打包技术，FramePack能在6GB显存的笔记本上生成数千帧30fps的高质量视频，彻底改变了视频生成对硬件的苛刻要求。项目不仅提供了完整的技术框架，还包含了用户友好的Gradio界面和详细的学术论文支持。

4.2 功能

O(1)显存复杂度：无论视频长度如何，显存占用保持恒定，突破传统视频生成的硬件瓶颈
反漂移采样：通过双向采样策略解决长视频生成中的质量衰减问题，确保视频一致性
低配硬件友好：6GB显存即可生成60秒1800帧视频，RTX 4090达到1.5秒/帧的高效速度
灵活调度策略：支持多种FramePack调度模式，可根据需求调整不同帧的重要性权重
实时预览生成：提供逐秒实时预览功能，让用户能够观察视频生成的每个阶段
检查点管理：支持LLM变更检查点，方便实验和版本控制
开源生态完整：提供完整的开源代码、论文、演示视频和社区支持

4.3 适用

AI视频研究者：研究视频生成算法，需要在有限硬件条件下进行实验的学术人员
独立创作者：拥有消费级GPU，希望制作长时间AI生成视频的个人创作者
小型工作室：预算有限但需要视频生成能力的创意工作室和初创公司
教育机构：在教学中演示AI视频生成原理，硬件配置相对有限的院校
技术爱好者：对前沿AI技术感兴趣，希望在个人设备上体验最新视频生成技术的用户

4.4 点评

FramePack的出现可以说是AI视频生成领域的一个重要突破。过去，生成长视频往往需要昂贵的GPU和大量显存，这将很多人拒之门外。其开发团队通过巧妙的数学优化，将这个"显存吞噬怪兽"驯服为一只温顺的小猫，让普通消费者也能享受到前沿的AI视频生成技术。看似学术的"O(1)复杂度"设计实则影响深远——这意味着无论你想生成10秒还是10分钟的视频，显存需求都是一样的。当然，作为一个相对较新的框架，在易用性和生态完善程度上可能还有提升空间，但考虑到其开源属性和作者的学术背景，相信社区会很快跟上。

5 nn-zero-to-hero - AI大神Karpathy的神经网络课程

5.1 简介

nn-zero-to-hero是由前OpenAI研究总监、特斯拉AI负责人Andrej Karpathy开发的神经网络系列教程，被誉为深度学习领域最受欢迎的入门课程之一。这个项目通过一系列YouTube视频和配套的Jupyter notebook，从最基础的反向传播开始，逐步构建到现代深度神经网络如GPT。Karpathy以其独特的"拼写式"教学风格，将复杂的AI概念用最直观的方式呈现，让初学者能够真正理解神经网络的工作原理。整个课程完全免费，所有代码和材料都在GitHub上开源。

nn-zero-to-hero

5.2 功能

从零开始构建：从最基础的micrograd开始，逐步构建完整的神经网络系统
实战代码教学：每个概念都有对应的可运行代码，边学边练，理论与实践完美结合
GPT完整实现：包含从头构建GPT模型的完整过程，深入理解Transformer架构
多语言模型覆盖：涵盖字符级语言模型、多层感知机、卷积神经网络等多种架构
分词器详解：专门讲解GPT分词器的实现，解释AI"奇怪行为"的根本原因
配套练习丰富：每个视频都提供详细的练习题，巩固学习效果
社区支持活跃：拥有专门的Discord频道，学习者可以相互交流讨论

5.3 适用

AI初学者：对机器学习感兴趣但缺乏深度学习基础的编程新手
计算机专业学生：需要系统学习神经网络原理的本科生和研究生
转行AI的工程师：有编程基础但想转入AI领域的软件开发者
企业技术人员：需要理解AI技术原理以便更好应用到业务中的技术团队
AI研究人员：希望深入理解基础算法，为进一步研究打下坚实基础的研究者

5.4 点评

虽然课程问世已有两年，但由AI领域权威Andrej Karpathy亲自操刀，在众多教程中依然是独一无二的存在。不同于很多"黑盒式"的AI教程，Karpathy坚持"拼写式"教学——每一行代码都有详细解释，每一个概念都从最基本的数学原理讲起。这种教学方式虽然看似"笨拙"，但能让学习者真正理解AI的工作机制，而不是只会调用API。特别值得一提的是课程的实用性——直接从micrograd构建到GPT，让学习者能够跟随AI发展的历史脉络，理解每个技术突破的价值。唯一的"缺点"可能是内容相对硬核，需要一定的数学基础和耐心，但这恰恰是优质教育资源的特点。

本期内容就到这里啦，如果你有更好的推荐或者对哪个项目特别感兴趣，欢迎在评论区给我留言，我将根据情况进行收录，并将大家喜欢的项目加入专栏，进行更加详细的介绍。我们下期再见！