「Vibe Coding」使用 notebooklm 构建 Vibe Coding 学习指南🧣

441 阅读12分钟

「Vibe Coding」使用 notebooklm 构建 Vibe Coding 学习指南🧣

截屏2025-07-01 上午4.30.19.png 25marchwk2.my.canva.site/riley-s-boa…

98.gif

第一部分:参考视频:

www.youtube.com/watch?v=2it…

第二部分:提示词:

1.提取逐字稿

2.将逐字稿,按照工具的讲解顺序和案例,完成数字化的罗列

3.按照整体的内容体系,撰写一份 Vibe Codeing 的学习指南

第三部分:结果输出

Vibe Coding 学习指南文本输出

导言:迎接 AI 时代的应用构建

您是否感到自己正在被这场全球最重要的革命甩在后面?不必担心,本指南旨在为您提供最深入的 AI 空间解析,即使您在过去两年半的时间里一直与世隔绝,通过本指南您也能走在时代前沿。本指南将涵盖超过 100 种实用、有趣且实用的 AI 使用方法,并最终引导您了解如何不编写任何一行代码来构建应用程序,利用这些流行的 AI 工具解决问题,甚至创造商业价值。

整个学习过程将分为三个主要部分:Vibe Stack(流行 AI 工具及其用例)、**自动化与代理(Vibe Flows)**以及 Vibe Coding(AI 赋能的应用开发)。


第一部分:Vibe Stack(核心 AI 工具与用例)

Vibe Stack 是构建自动化和代理的基础,也是理解如何利用 AI 工具创建有用、酷炫且有趣事物的基础。本部分将介绍当前最流行的聊天、图像、视频和声音 AI 工具及其核心功能。

1. 聊天 AI 工具

聊天 AI 工具的核心优势在于能够显著提升工作速度并保持高质量,它们能够即时搜索所有书籍、维基百科、Reddit 以及整个互联网的内容。

  • ChatGPT

    • 核心优势: 能够即时搜索互联网上的海量信息,显著提高工作效率和内容质量。

    • 基本功能:

      • 问答: 直接提出问题,例如“如何协商更高的薪水?”。
      • 搜索: 开启搜索功能后,可搜索网络信息,并根据要求生成内容,例如搜索 NBA 季后赛球队并撰写推文。
    • 高级功能:

      • 项目(Projects) : 创建项目(文件夹)来组织聊天记录,保持上下文和信息集中。
      • 自定义指令(Custom Instructions) : 在项目中添加自定义指令,以影响 AI 的风格和输出,确保内容与用户偏好一致(例如,推文不使用表情符号或话题标签,每句话单独一行)。
      • 文件上传(File Upload) : 在项目中或直接在聊天中上传文件(如 PDF 文档、图片)作为参考或输入。例如,上传包含推文风格范例的 PDF,让 AI 模仿其风格撰写推文。
      • Canvas 功能: 允许用户直接编辑 AI 生成的文本输出。可以调整文本、添加段落,并改变语气(例如,从 Sam Altman 的语气改为 Jeff Bezos 或 Elon Musk 的语气)。
      • GPT-4o 模型: 最新的高级推理模型,尤其在深度分析图像方面表现出色。它能够分析上传的图片并根据指令撰写关于图片的报告或备忘录。
  • Gemini

    • 核心功能: 与 ChatGPT 的大型语言模型 (LLM) 工具功能类似。
    • Canvas 模式: 同样具备 Canvas 模式,便于编辑生成内容,且提供更多样式选项。
    • 一键导出到 Google Docs: 独特且非常实用的功能,可以将生成内容直接导出到 Google Docs。
    • 搜索功能: 默认开启搜索功能,可以进行深度研究。
    • Gemini Studio App: 其独特功能是视频分析。可以上传视频,让 AI 分析视频内容,理解每个时间戳的细节,并提供建议(例如,B-roll 插入点或如何调整视频)。该模型能完全理解视频,并能识别图表等内容以进行自动添加。
  • Perplexity

    • 搜索功能: 首个引入搜索功能的模型,被认为是搜索功能最好的工具之一。
    • 项目功能(Spaces) : 拥有类似 ChatGPT 项目的“spaces”功能,支持上传文件和链接。
    • 无 Canvas 功能: 不具备 Canvas 模式。
  • 其他聊天工具:

    • Claude: 被提及具有出色的“artifacts”功能,这是其原始的侧边弹出窗口。
    • Grok
2. 图像 AI 模型

图像 AI 模型是视觉工作流的核心,能够将创意转化为图像。

  • ChatGPT 4o

    • 最佳整体模型: 被认为是日常使用、商业和内容创作场景中最佳的整体图像模型。

    • 文本生成: 在图像中生成文本方面表现卓越,是目前最好的。

    • 自然语言编辑图像: 能够通过自然语言指令对现有图像进行编辑,例如:

      • 改变房屋颜色: 上传房屋图片,指令其将房屋涂成深灰色。
      • 添加物体: 在车道上添加一辆红色吉普车。
      • 产品照片专业化: 将产品(如香水)照片转化为专业级、更具吸引力的产品照片。
      • 编辑图像特定区域文本: 选择图片中特定文本区域,修改文字内容,并保持原有字体和颜色风格。
  • Midjourney

    • 最强真实感: 在真实感(photorealism)方面仍是市场最佳。

    • 艺术性与发现: 更具艺术性,适合大量生成图像并探索不同风格。

    • 批量生成与变体: 可以同时生成多达 30 张图像,并基于喜欢的风格创建更多变体。

    • 图像放大(Upscale) : 可以将图像放大至 2048x2048 或更大,用于海报或全网站,不失真。

    • 精细编辑(Editor) : 通过内置编辑器进行更精细的编辑,例如给猴子添加紫色毛线帽和绒球。

    • 案例:

      • 应用图标设计: 为“Vibe Code”应用设计橙色猴子主题的简约 iOS 图标,并进行多轮迭代和变体生成。
      • 艺术概念: 生成老虎滑板在白宫楼梯上做踢翻动作的逼真图像。
3. 视频 AI 工具

视频 AI 工具可以帮助您快速生成视频内容,并与图像和声音工具结合使用。

  • 视频生成工具

    • Crea AI (Cling 2.0) : 被认为是目前最好的 AI 视频模型之一。它能创建细节更丰富、控制力更强的视频(例如,老虎滑板摔倒的物理效果,以及控制角色嘴部不动)。
    • RunwayML (Gen 4 Turbo) : 另一个顶级的 AI 视频模型。Turbo 版本生成 10 秒视频剪辑的速度非常快(约 30 秒)。有时可能在控制人物动作(如嘴部是否说话)方面存在问题。
    • 其他提及: Google VO (紧随其后),Sora, Lumalabs, PLABS。
  • 视频创作流程(案例:30 秒“一无是处按钮”广告)

    • 创意阶段: 使用 ChatGPT 生成产品创意(如“一无是处按钮”——一个按下后什么都不做的按钮)。
    • 图像生成: 使用 GPT-4o 生成初始图片(例如,Studio Ghibli 风格的男人即将按下按钮的图像,以及按钮的特写产品照)。
    • 视频生成: 将图像输入 Runway 或 Crea,生成视频剪辑(例如,男人按下按钮后感到压力,按钮特写并变暗)。
    • 音效和对话: 使用 11Labs 生成音效(如按钮按下时的失败声)和对话(如“Introducing the do nothing button, it does nothing”)。
    • 背景音乐: 使用 Suno 生成背景音乐(如轻松、焦虑的氛围音乐或讽刺有趣的鼓点)。
    • 后期组装: 在 Premiere Pro(或 Cap Cut)中将所有视频、音效、音乐和对话剪辑组装在一起。
    • 字幕: 使用 AI 自动生成字幕。
  • 头像(Avatar)/“Slop”类别

    • HeyGen: 可用于生成 AI 头像视频,但目前可能存在“恐怖谷”效应,看起来有点“死气沉沉”或“诡异”。
    • 成功案例: 提及 Rowan Chung 等博主通过结合大量 B-roll 镜头来弥补 AI 头像的不足,使其内容更具说服力。
4. 声音 AI 工具

声音是视频内容不可或缺的一部分,AI 工具可以自动化声音的生成。

  • 11Labs: 用于生成音效和对话。
  • Suno: 用于生成背景音乐。

第二部分:自动化与代理(Vibe Flows)

理解 Vibe Stack 中的工具是第一步,接下来我们将学习如何将这些工具串联起来,创建自动化工作流和 AI 代理,实现更复杂的功能。这被称为“Vibe Flows”。

1. 自动化流程(Deterministic Workflow Automation)

自动化流程用于执行确定性的工作流,即一系列预设的步骤。

  • Zapier

    • 定义: 用于创建“Zap”(自动化流程),每个 Zap 包含一个“触发器”和一系列“动作”。

    • 案例:

      • Notion 数据库与 AI 图像生成: 当 Notion 数据库中添加新项目时(触发器),自动使用 OpenAI 的 DALL-E(或未来的 GPT-4o Vision)生成一张与项目名称相关的图片,然后将图片更新回 Notion 数据库。
      • Notion 数据库与 ChatGPT 文本生成: 在此基础上,可以进一步添加步骤,让 ChatGPT(GPT-4o 模型,以 Sam Altman 的语气)根据 Notion 项目主题生成一段简短、有观点的文本,并将其更新回 Notion 数据库。
    • 其他工具: Lindy, n8n, make.com 也提供类似功能。

2. 代理工具(Non-Deterministic Workflow)

代理工具用于处理非确定性的工作流,它们能够自主思考、规划并执行复杂任务。

  • ChatGPT 的深度研究(Deep Research)

    • 被视为一种代理流程,可以自主搜索互联网、思考、汇编来源并生成详细报告(例如关于最佳 AI 视频、图像和文本模型的报告)。
    • 用户可以提供公司网站信息以提供更多上下文。
    • 该过程可能需要 5 到 20 分钟,用户可以离开 AI 自主运行。
  • Manis

    • 一个多代理 AI 系统,能够自主执行复杂任务,包括研究、数据分析、生成报告、编写代码和部署网站。
    • 规划能力: 具有详细的计划能力,可以导航网站、处理数据、编写代码并创建可交付成果。
    • 可视化执行: 用户可以实时查看 Manis 的执行计划和每一步骤的进展,有助于理解其推理过程和调试问题。
    • 案例: 生成关于现代 AI 视频工具的 PDF 报告,并包含图片。
    • 概念: 提出了“多表代理(Multi-Table Agents, MTA) ”的概念,预测未来公司 CEO 可能会同时管理多个 AI 代理来异步完成大量任务,类似于在线扑克玩家同时玩多张牌桌。

第三部分:Vibe Coding(AI 赋能的应用开发)

Vibe Coding 的核心理念是利用 AI 工具和 API 来创建应用程序,无需成为技术人员即可“编程”和构建应用

1. AI 驱动的应用/网站构建器
  • Vzero

    • 一个 AI 驱动的应用/网站构建器,允许用户通过自然语言指令创建登录页面和网站。
    • 可以集成 AI 生成的图像和视频。
    • 案例: 创建销售“slug bug”汽车的网站,实现鼠标悬停时图像转换为视频并弹出购买界面和音效。
2. API(Power-ups)

API 被视为应用的“强化道具”,通过 API 可以为应用添加强大的外部功能。

  • OpenAI API

    • 可以将图像转换为结构化文本输出,这对于创建列表或表格非常有用。
    • API 密钥: 通常需要 API 密钥才能使用,但在某些工具中(如 Vibe Code App)测试阶段可能无需密钥。
3. AI 赋能的编码工具
  • Cursor

    • 被认为是构建 AI 应用的最佳 Vibe Coding 工具。
    • AI 代理能力: 其 AI 代理能够自主搜索网络、进行规划和思考,然后生成代码。
    • 案例: 构建一个分摊账单的 Next.js 移动应用,该应用通过 OpenAI GPT-4o API 分析收据图片并提取结构化数据(JSON 格式),然后用户可以分配每项支出给不同的人并计算总额。
  • Vibe Code App

    • 一个更容易上手的应用创建平台,尤其适合移动应用开发。
    • 内置 API: 内置了 API,测试时通常无需 API 密钥,进一步简化了开发流程。
    • 案例: 快速创建一个移动分摊账单应用,并通过图片识别收据内容,允许用户分配支出,并添加了本地的 iPhone 分享功能,可以轻松通过短信分享账单详情。
4. 应用开发建议
  • 聚焦痛点: 开发应用时应专注于解决一个特定痛点。
  • 精简交互: 尽量减少用户交互步骤,避免过度添加功能。
  • 避免功能蔓延: 在单个功能达到最佳体验之前,避免添加过多功能。功能越多,维护难度呈指数级增加,且可能使用户感到困惑。

总结与展望

通过本指南的学习,您应该对 Vibe Stack 中的核心 AI 工具、如何通过自动化和代理创建 Vibe Flows,以及如何利用 Vibe Coding 来构建自己的应用程序有了全面的理解。从创意构思到图像和视频生成,再到复杂的自动化工作流和无代码应用开发,AI 正以惊人的速度改变着我们工作和创造的方式。未来,AI 代理将变得更加智能,拥有更多工具访问权限,甚至能够自主处理整个项目,例如根据您的风格和素材完成视频剪辑。

现在,您已拥有驾驭这些强大工具的能力,可以十倍地提升解决问题的效率,并在任何领域中取得优势。