「Vibe Coding」使用 notebooklm 构建 Vibe Coding 学习指南🧣「Vibe Coding

「Vibe Coding」使用 notebooklm 构建 Vibe Coding 学习指南🧣

截屏2025-07-01 上午4.30.19.png 25marchwk2.my.canva.site/riley-s-boa…

第一部分：参考视频：

www.youtube.com/watch?v=2it…

第二部分：提示词：

1.提取逐字稿

2.将逐字稿，按照工具的讲解顺序和案例，完成数字化的罗列

3.按照整体的内容体系，撰写一份 Vibe Codeing 的学习指南

第三部分：结果输出

Vibe Coding 学习指南文本输出

导言：迎接 AI 时代的应用构建

您是否感到自己正在被这场全球最重要的革命甩在后面？不必担心，本指南旨在为您提供最深入的 AI 空间解析，即使您在过去两年半的时间里一直与世隔绝，通过本指南您也能走在时代前沿。本指南将涵盖超过 100 种实用、有趣且实用的 AI 使用方法，并最终引导您了解如何不编写任何一行代码来构建应用程序，利用这些流行的 AI 工具解决问题，甚至创造商业价值。

整个学习过程将分为三个主要部分：Vibe Stack（流行 AI 工具及其用例）、**自动化与代理（Vibe Flows）**以及 Vibe Coding（AI 赋能的应用开发）。

第一部分：Vibe Stack（核心 AI 工具与用例）

Vibe Stack 是构建自动化和代理的基础，也是理解如何利用 AI 工具创建有用、酷炫且有趣事物的基础。本部分将介绍当前最流行的聊天、图像、视频和声音 AI 工具及其核心功能。

1. 聊天 AI 工具

聊天 AI 工具的核心优势在于能够显著提升工作速度并保持高质量，它们能够即时搜索所有书籍、维基百科、Reddit 以及整个互联网的内容。

ChatGPT
- 核心优势: 能够即时搜索互联网上的海量信息，显著提高工作效率和内容质量。
- 基本功能:
  - 问答: 直接提出问题，例如“如何协商更高的薪水？”。
  - 搜索: 开启搜索功能后，可搜索网络信息，并根据要求生成内容，例如搜索 NBA 季后赛球队并撰写推文。
- 高级功能:
  - 项目（Projects） : 创建项目（文件夹）来组织聊天记录，保持上下文和信息集中。
  - 自定义指令（Custom Instructions） : 在项目中添加自定义指令，以影响 AI 的风格和输出，确保内容与用户偏好一致（例如，推文不使用表情符号或话题标签，每句话单独一行）。
  - 文件上传（File Upload） : 在项目中或直接在聊天中上传文件（如 PDF 文档、图片）作为参考或输入。例如，上传包含推文风格范例的 PDF，让 AI 模仿其风格撰写推文。
  - Canvas 功能: 允许用户直接编辑 AI 生成的文本输出。可以调整文本、添加段落，并改变语气（例如，从 Sam Altman 的语气改为 Jeff Bezos 或 Elon Musk 的语气）。
  - GPT-4o 模型: 最新的高级推理模型，尤其在深度分析图像方面表现出色。它能够分析上传的图片并根据指令撰写关于图片的报告或备忘录。
Gemini
- 核心功能: 与 ChatGPT 的大型语言模型 (LLM) 工具功能类似。
- Canvas 模式: 同样具备 Canvas 模式，便于编辑生成内容，且提供更多样式选项。
- 一键导出到 Google Docs: 独特且非常实用的功能，可以将生成内容直接导出到 Google Docs。
- 搜索功能: 默认开启搜索功能，可以进行深度研究。
- Gemini Studio App: 其独特功能是视频分析。可以上传视频，让 AI 分析视频内容，理解每个时间戳的细节，并提供建议（例如，B-roll 插入点或如何调整视频）。该模型能完全理解视频，并能识别图表等内容以进行自动添加。
Perplexity
- 搜索功能: 首个引入搜索功能的模型，被认为是搜索功能最好的工具之一。
- 项目功能（Spaces） : 拥有类似 ChatGPT 项目的“spaces”功能，支持上传文件和链接。
- 无 Canvas 功能: 不具备 Canvas 模式。
其他聊天工具:
- Claude: 被提及具有出色的“artifacts”功能，这是其原始的侧边弹出窗口。
- Grok。

2. 图像 AI 模型

图像 AI 模型是视觉工作流的核心，能够将创意转化为图像。

ChatGPT 4o
- 最佳整体模型: 被认为是日常使用、商业和内容创作场景中最佳的整体图像模型。
- 文本生成: 在图像中生成文本方面表现卓越，是目前最好的。
- 自然语言编辑图像: 能够通过自然语言指令对现有图像进行编辑，例如：
  - 改变房屋颜色: 上传房屋图片，指令其将房屋涂成深灰色。
  - 添加物体: 在车道上添加一辆红色吉普车。
  - 产品照片专业化: 将产品（如香水）照片转化为专业级、更具吸引力的产品照片。
  - 编辑图像特定区域文本: 选择图片中特定文本区域，修改文字内容，并保持原有字体和颜色风格。
Midjourney
- 最强真实感: 在真实感（photorealism）方面仍是市场最佳。
- 艺术性与发现: 更具艺术性，适合大量生成图像并探索不同风格。
- 批量生成与变体: 可以同时生成多达 30 张图像，并基于喜欢的风格创建更多变体。
- 图像放大（Upscale） : 可以将图像放大至 2048x2048 或更大，用于海报或全网站，不失真。
- 精细编辑（Editor） : 通过内置编辑器进行更精细的编辑，例如给猴子添加紫色毛线帽和绒球。
- 案例:
  - 应用图标设计: 为“Vibe Code”应用设计橙色猴子主题的简约 iOS 图标，并进行多轮迭代和变体生成。
  - 艺术概念: 生成老虎滑板在白宫楼梯上做踢翻动作的逼真图像。

3. 视频 AI 工具

视频 AI 工具可以帮助您快速生成视频内容，并与图像和声音工具结合使用。

视频生成工具
- Crea AI (Cling 2.0) : 被认为是目前最好的 AI 视频模型之一。它能创建细节更丰富、控制力更强的视频（例如，老虎滑板摔倒的物理效果，以及控制角色嘴部不动）。
- RunwayML (Gen 4 Turbo) : 另一个顶级的 AI 视频模型。Turbo 版本生成 10 秒视频剪辑的速度非常快（约 30 秒）。有时可能在控制人物动作（如嘴部是否说话）方面存在问题。
- 其他提及: Google VO (紧随其后)，Sora, Lumalabs, PLABS。
视频创作流程（案例：30 秒“一无是处按钮”广告）
- 创意阶段: 使用 ChatGPT 生成产品创意（如“一无是处按钮”——一个按下后什么都不做的按钮）。
- 图像生成: 使用 GPT-4o 生成初始图片（例如，Studio Ghibli 风格的男人即将按下按钮的图像，以及按钮的特写产品照）。
- 视频生成: 将图像输入 Runway 或 Crea，生成视频剪辑（例如，男人按下按钮后感到压力，按钮特写并变暗）。
- 音效和对话: 使用 11Labs 生成音效（如按钮按下时的失败声）和对话（如“Introducing the do nothing button, it does nothing”）。
- 背景音乐: 使用 Suno 生成背景音乐（如轻松、焦虑的氛围音乐或讽刺有趣的鼓点）。
- 后期组装: 在 Premiere Pro（或 Cap Cut）中将所有视频、音效、音乐和对话剪辑组装在一起。
- 字幕: 使用 AI 自动生成字幕。
头像（Avatar）/“Slop”类别
- HeyGen: 可用于生成 AI 头像视频，但目前可能存在“恐怖谷”效应，看起来有点“死气沉沉”或“诡异”。
- 成功案例: 提及 Rowan Chung 等博主通过结合大量 B-roll 镜头来弥补 AI 头像的不足，使其内容更具说服力。

4. 声音 AI 工具

声音是视频内容不可或缺的一部分，AI 工具可以自动化声音的生成。

11Labs: 用于生成音效和对话。
Suno: 用于生成背景音乐。

第二部分：自动化与代理（Vibe Flows）

理解 Vibe Stack 中的工具是第一步，接下来我们将学习如何将这些工具串联起来，创建自动化工作流和 AI 代理，实现更复杂的功能。这被称为“Vibe Flows”。

1. 自动化流程（Deterministic Workflow Automation）

自动化流程用于执行确定性的工作流，即一系列预设的步骤。

Zapier
- 定义: 用于创建“Zap”（自动化流程），每个 Zap 包含一个“触发器”和一系列“动作”。
- 案例:
  - Notion 数据库与 AI 图像生成: 当 Notion 数据库中添加新项目时（触发器），自动使用 OpenAI 的 DALL-E（或未来的 GPT-4o Vision）生成一张与项目名称相关的图片，然后将图片更新回 Notion 数据库。
  - Notion 数据库与 ChatGPT 文本生成: 在此基础上，可以进一步添加步骤，让 ChatGPT（GPT-4o 模型，以 Sam Altman 的语气）根据 Notion 项目主题生成一段简短、有观点的文本，并将其更新回 Notion 数据库。
- 其他工具: Lindy, n8n, make.com 也提供类似功能。

2. 代理工具（Non-Deterministic Workflow）

代理工具用于处理非确定性的工作流，它们能够自主思考、规划并执行复杂任务。

ChatGPT 的深度研究（Deep Research）
- 被视为一种代理流程，可以自主搜索互联网、思考、汇编来源并生成详细报告（例如关于最佳 AI 视频、图像和文本模型的报告）。
- 用户可以提供公司网站信息以提供更多上下文。
- 该过程可能需要 5 到 20 分钟，用户可以离开 AI 自主运行。
Manis
- 一个多代理 AI 系统，能够自主执行复杂任务，包括研究、数据分析、生成报告、编写代码和部署网站。
- 规划能力: 具有详细的计划能力，可以导航网站、处理数据、编写代码并创建可交付成果。
- 可视化执行: 用户可以实时查看 Manis 的执行计划和每一步骤的进展，有助于理解其推理过程和调试问题。
- 案例: 生成关于现代 AI 视频工具的 PDF 报告，并包含图片。
- 概念: 提出了“多表代理（Multi-Table Agents, MTA） ”的概念，预测未来公司 CEO 可能会同时管理多个 AI 代理来异步完成大量任务，类似于在线扑克玩家同时玩多张牌桌。

第三部分：Vibe Coding（AI 赋能的应用开发）

Vibe Coding 的核心理念是利用 AI 工具和 API 来创建应用程序，无需成为技术人员即可“编程”和构建应用。

1. AI 驱动的应用/网站构建器

Vzero
- 一个 AI 驱动的应用/网站构建器，允许用户通过自然语言指令创建登录页面和网站。
- 可以集成 AI 生成的图像和视频。
- 案例: 创建销售“slug bug”汽车的网站，实现鼠标悬停时图像转换为视频并弹出购买界面和音效。

2. API（Power-ups）

API 被视为应用的“强化道具”，通过 API 可以为应用添加强大的外部功能。

OpenAI API
- 可以将图像转换为结构化文本输出，这对于创建列表或表格非常有用。
- API 密钥: 通常需要 API 密钥才能使用，但在某些工具中（如 Vibe Code App）测试阶段可能无需密钥。

3. AI 赋能的编码工具

Cursor
- 被认为是构建 AI 应用的最佳 Vibe Coding 工具。
- AI 代理能力: 其 AI 代理能够自主搜索网络、进行规划和思考，然后生成代码。
- 案例: 构建一个分摊账单的 Next.js 移动应用，该应用通过 OpenAI GPT-4o API 分析收据图片并提取结构化数据（JSON 格式），然后用户可以分配每项支出给不同的人并计算总额。
Vibe Code App
- 一个更容易上手的应用创建平台，尤其适合移动应用开发。
- 内置 API: 内置了 API，测试时通常无需 API 密钥，进一步简化了开发流程。
- 案例: 快速创建一个移动分摊账单应用，并通过图片识别收据内容，允许用户分配支出，并添加了本地的 iPhone 分享功能，可以轻松通过短信分享账单详情。

4. 应用开发建议

聚焦痛点: 开发应用时应专注于解决一个特定痛点。
精简交互: 尽量减少用户交互步骤，避免过度添加功能。
避免功能蔓延: 在单个功能达到最佳体验之前，避免添加过多功能。功能越多，维护难度呈指数级增加，且可能使用户感到困惑。

总结与展望

通过本指南的学习，您应该对 Vibe Stack 中的核心 AI 工具、如何通过自动化和代理创建 Vibe Flows，以及如何利用 Vibe Coding 来构建自己的应用程序有了全面的理解。从创意构思到图像和视频生成，再到复杂的自动化工作流和无代码应用开发，AI 正以惊人的速度改变着我们工作和创造的方式。未来，AI 代理将变得更加智能，拥有更多工具访问权限，甚至能够自主处理整个项目，例如根据您的风格和素材完成视频剪辑。

现在，您已拥有驾驭这些强大工具的能力，可以十倍地提升解决问题的效率，并在任何领域中取得优势。