本章内容涵盖:
- 构建 AI 解决方案空间的地图
- 数据模态及有标签数据与无标签数据的区别
- 预测型、生成型和智能代理型 AI
- AI 中的自动化程度
- 各类 AI 用户界面
在 AI 解决方案空间中,很容易迷失方向。每天都有新的 AI 模型和工具发布,任何深入进行 AI 技术探索的人都知道,许多工具并未达到其市场宣传的效果。不幸的是,许多产品团队往往是在投入大量时间和资源后才意识到这一点。此外,当前的热潮主要聚焦于生成式 AI,团队往往忽视了其他形式的 AI,例如更传统的预测算法。这些挑战可能会拖慢解决方案的发现进度,使你在选择更合适、高效的 AI 工具和方法的竞争对手面前处于劣势。同时,这也会影响与利益相关者的沟通,例如,如果工程师觉得你对 AI 的理解不深,他们可能不会太认真对待你的意见。
举个例子说明:你的公司提供一个电影流媒体平台,用户期望获得更精准的评分和推荐,从而节省选片时间。于是你决定尝试使用 AI 来分析电影评论的情感倾向。你阅读了一些相关资料,发现几个轻松易懂的教程,介绍如何用 GPT-4o 来判定文本情感。团队快速实现并上线了该功能。功能很受欢迎,但成本很高——每条评论都必须通过包含示例的复杂 few-shot 提示提交给模型。另外,你还担心即将出台的 AI 监管法规,担心将个人数据发送到云端模型会触及隐私问题。几个月后,一位数据科学实习生加入团队。他质疑为什么要用像 GPT-4o 这样庞大的模型来处理相对简单的分析任务。其实这个任务完全可以用一个小型且简单的预测型 AI 模型,比如逻辑回归,解决。他用一周时间完成了实现。这个模型体积小、速度快、准确度较高,并且可以托管在你自己的基础设施上,缓解了隐私方面的担忧。你后悔没有从一开始就选择这个方案——你的解决方案空间视角过于狭窄,且偏向生成式 AI,没考虑到这个选项。
本章将带你构建 AI 解决方案空间的地图,介绍我们心理模型中的三大解决方案组成部分(数据、智能、用户体验)中的主要类别,如图 3.1 所示。
图 3.1 本章提供了 AI 系统心理模型中解决方案空间的地图。
除了对现有解决方案的初步结构化概述外,本章还可以作为阅读本书时的参考,帮助你实现以下目标:
- 以结构化、系统化的方式发现针对已识别机会或问题的解决方案。
- 掌握必要的术语和知识,增强与 AI 技术人员及非技术利益相关者(包括管理层、客户和投资人)的自信沟通能力。
- 评估开发特定 AI 解决方案所需的技能和资源。
- 管理 AI 系统不同组件之间的权衡,考虑不同选择如何影响其他组件。
图 3.2 展示了我们将在后续章节中讨论的解决方案空间的分类。
本章提供了高级概述,帮助你建立对可用选项的整体认知,并判断哪些选项适合你的应用。第4章到第10章将深入探讨这些选项的细节。
3.1 数据
数据是 AI 模型和系统的燃料。在早期的 AI 时代,数据收集和准备主要由工程师负责,他们确保数据与模型的训练流程和目标一致。在现代面向用户的产品中,数据直接影响用户体验。因此,确保你的数据不仅与模型对齐,还需紧密反映用户需求,这一点尤为关键。接下来,我们来了解常见的数据模态以及标注数据与非标注数据的区别。
3.1.1 数据的模态
模态如文本、视觉和音频是 AI 模型在训练过程中学习的数据类型,通过学习它们,模型获得了处理或生成类似数据的能力。理解不同模态很重要,因为它们需要不同的 AI 技术。例如,文本数据可通过自然语言处理(NLP)进行处理,而计算机视觉则专注于视觉数据。根据团队中现有的专业技能,你可能会在探索阶段偏好某些特定模态,并据此决定整体开发方向。
本节将简要介绍 AI 的核心模态,如图3.3所示。虽然你的原始数据可能以各种模态存在,但 AI 模型始终期望数字输入,因此数据必须被转换成数字形式。如今,多模态 AI,即多种模态的组合使用,正逐渐受到关注,随着 ChatGPT-4o 和 Gemini 等多模态基础模型的出现,构建者更易于利用这一技术。
原始模态
你的原始数据模态在很大程度上由你的问题性质以及可能已有的数据集决定。以下是一些最常见的模态:
文本模态 —— 该模态专注于处理、理解和生成文本信息。它涉及自然语言处理(NLP)技术,用于分析、解释和撰写文本。示例任务包括情感分析、语言翻译、文本摘要和问答系统。语言是人类交流的主要“协议”,因此该模态解锁了分析型、生成型和行动型 AI 的广泛应用。
视觉模态 —— 该模态处理图像和视频。计算机视觉技术被用于提取特征、识别对象和解释视觉输入内容。该模态的任务包括图像分类、目标检测和图像生成。视觉数据广泛应用于自动驾驶、医学图像分析、监控系统以及增强/虚拟现实。
听觉模态 —— 该模态涵盖识别、声音分析和自然语言处理,以理解和解释听觉输入。示例任务包括语音识别、声音生物识别和音频情感分析。例如,亚马逊的 Alexa 和苹果的 Siri 等语音助手广泛用于智能音箱和物联网设备,实现语音交互和信息检索。
感觉运动模态 —— 该模态适用于通过传感器从物理世界收集数据的 AI 系统。它是物联网和机器人系统(如自动驾驶汽车、机器人流程自动化(RPA)、无人机和智能家居设备)的关键组成部分。例如,波士顿动力公司开发的先进机器人 Spot、Atlas 和 Handle,能够基于对周围环境准确且动态的表征,实现自主导航。
计算机代码 —— 由于代码是一种高度形式化的语言,许多用于文本模态的 NLP 技术也可以应用于此。此类应用已有先例,如 GitHub Copilot,支持代码生成、补全和重构。AI 模型经过对 GitHub 和 Stack Overflow 等大型代码库和论坛的训练,能够理解编程上下文,帮助开发者更高效、准确地编写代码,提高生产力,进而优化开发流程,使编程任务变得更快且更易上手。
无论你的原始数据属于哪种模态,数据在输入 AI 模型之前,必须被转换成数值模态。
最终,你的数据将是数值型
机器学习的核心是数学计算,输入必须是数字。因此,你的原始数据首先会被转换成一种内部的数值表示形式,以最适合特定模态任务的需求。这个步骤通常称为预处理。例如,在 NLP 中,一种简单的数值表示是独热编码(one-hot encoding),即每个词用一个全为0的向量表示,只有一个元素为1,唯一标识该词(见图3.4)。
注:预处理还可能包含其他变换,如数据清洗,但不改变模态。
数据转换本身是一个重要的战略过程——在此过程中,部分原始数据内容可能会丢失,你需要确保不丢弃对任务重要的信息。因此,独热编码是一种非常粗糙的词语表示方法。在第7章,你将学习到更具信息量和实用性的词向量(word embeddings)方法。
在数据转换和准备过程中,细节决定成败。针对某一模态获得的数据感知和技术技能,往往难以直接迁移到另一模态。例如,如果你想开发文本特征,但团队里只有计算机视觉工程师,那么你需要预留时间让他们熟悉新的模态。
有时你的原始数据本身就是数值型的,比如金融或统计数据的学习与处理。比如基于图表的股票价格预测就是完全依赖数值数据的应用。然而,数字通常只是对现实的近似。如今,大多数 AI 系统通过结合数值数据与其他模态(提供更丰富的上下文)获益匪浅。以股票价格预测为例,结合包含重要市场和公司事件的文本新闻数据,能显著提升 AI 系统的表现。
多模态 AI:不同模态的结合
人类能构建丰富的世界认知,正因为我们用视觉、听觉、触觉、嗅觉和味觉等多种感官感知世界,再通过大脑处理这些输入。同理,将多种模态结合应用于 AI,能实现更高级的学习——这就是多模态 AI 的领域。多模态 AI 广泛应用于与物理世界交互的场景,如机器人、无人机和自动驾驶,也能应用于数字产品。举例来说,呼叫中心的 AI 助手可以将客户语音转成文本(听觉模态)、识别文本中的关键主题(文本模态),并根据客户语调分析情绪(情感模态)。
本节表明,AI 能处理来自文本、音频和视觉等不同模态的数据。理解你的应用涉及哪些模态非常重要,因为这将限制你可以探索的模型和工程解决方案空间。AI 的基本模态是数值模态,其他模态的数据都需要先转换成数值形式,才能被 AI 算法处理。许多强大的应用通过结合多种模态(如文本和音频)构建更丰富的学习和推理上下文,从而成为多模态应用。
3.1.2 无标签数据与有标签数据
你的数据中还有一个重要的区别是无标签数据和有标签数据:
无标签数据——这类数据仅由单个数据点组成。例如,一组文本或图像,但没有任何额外的学习信号。学习是无监督的——我们没有办法告诉机器学习模型它需要学什么,只能寄希望于模型能学到有用的东西。聚类(详见第4章)就是一种典型的无监督算法,利用无标签数据进行学习。由于无监督算法的结果尤为不确定,因此它们很少被用于最终用户的应用中。
有标签数据——这类数据中的每个数据点都关联有一个标签。标签对应于学习目标,即我们希望模型输出的结果。例如,一条影评可以被标注为正面或负面情感,一张图片可以被标注为所展示的动物。标签为模型提供了明确的学习信号,告诉模型它具体要做什么。因此,分类(详见第4章)是监督学习的典型实例。
正如你所见,是否拥有有标签或无标签数据,也会限制你可以使用的机器学习模型类型。实际上,你需要权衡——大多数应用需要有标签数据,但这通常需要熟练且昂贵的数据标注工作。在第4至第7章,你将学习如何高效地为不同类型的机器学习创建有标签数据。我们也会涉及合成数据,它可以通过强大的 AI 模型自动生成。
大型语言模型的训练数据:有标签还是无标签?
你会说用于训练大型语言模型(LLM),如 ChatGPT 的数据是有标签的还是无标签的?你可能听说 LLM 训练所用文本数量极其庞大,几乎无法由人工标注,这种说法是正确的。事实是,LLM 仍然是从带有显式学习信号的“有标签数据”中学习的。诀窍是从文本自身获取标签——具体来说,对于文本中的每个片段,标签就是该片段后面紧跟的那个词。这正是模型的学习目标:在给定前面一连串词语的情况下,预测下一个词(详见第5章)。来看一个例子,基于句子“Last night, we went to the cinema.”可以构造的有标签数据点:
输入:“Last” → 标签:“night”
输入:“Last night” → 标签:“we”
输入:“Last night, we” → 标签:“went”
输入:“Last night, we went” → 标签:“to”
输入:“Last night, we went to” → 标签:“the”
输入:“Last night, we went to the” → 标签:“cinema”这些训练样本可以自动生成,使得 LLM 能够在海量数据上进行训练。
在了解了数据的这些基本区分后,我们接下来转向 AI 系统的核心——其智能,回顾解决方案空间中可用的不同类型的 AI 算法、工具和模型。
3.2 不同类型的智能
虽然生成式 AI 是当前 AI 热潮的主要推动力,但 AI 的能力远不止于内容生成。本节将探讨基于规则(符号)和机器学习(神经网络)两种智能方法,如图 3.2 中“智能”分支所示。你选择哪种范式,主要取决于你的学习问题的性质和复杂度。
3.2.1 基于规则的 AI
基于规则的 AI(也称为符号 AI)依赖于人工制定的符号表示、逻辑规则、数据库和本体来捕获知识并进行推理。因此,如果你的问题是分析性且相对简单,可以考虑从手动编码规则开始解决。例如,这种方法可用于银行业,验证金融交易是否符合特定的法律和监管要求。在这种情况下,学习领域(什么是合规、什么是不合规)是由人类预先明确定义的,将其转化为正式规则相对容易。
虽然规则 AI 不算最炫酷的 AI 类型,但它能让你快速轻松地启动开发过程,并在整个项目中持续发挥作用。基于规则的 AI 具有多种优势,尤其适合在迭代原型或构建最小可行产品(MVP)时:
- 规则能加快你的开发速度,甚至可能让你无需经过完整的训练周期和部署机器学习模型,就能快速原型测试第一个 AI 功能,从而迅速验证和调整方向。
- 通过手动拆解问题,你和团队能深入理解背后的现象和相关特征,为后续迭代开发更高级模型奠定坚实基础。
- 基于规则的模型不仅通常具有较高的精确度,还能产生可预测且可解释的输出。
- 基于规则的最大优势在于它可以帮助你收集与用户需求高度匹配的训练数据。这对于许多刚起步的 AI 团队面临的“冷启动”问题来说,是一个非常优雅的解决方案。该方法从一开始就能同步交付价值并收集真实世界的训练数据,后续可用于训练更先进的模型。
不过,规则往往只是暂时的解决方案。基于规则的一个不足是覆盖范围有限。现实生活复杂多变,充满了规则难以涵盖的细节和边缘情况,这会无意中降低系统的准确性,迫使你在后续迭代中引入真正的机器学习技术。举例来说,游戏中的 AI 对手如果仅依赖预设规则,起初表现不错,但人类玩家会逐渐摸透其模式并利用其可预测性;相比之下,机器学习模型能够不断进化,适应新的行为和策略。同样,在实际应用中,从僵硬的规则转向自适应学习模型,有助于系统更好地处理复杂性、提高准确性并有效应对动态环境。
3.2.2 机器学习
人类制定的规则与机器学习(也称神经 AI)的区别,主要在于学习的主体不同。规则是你(人类)根据教科书、过往经验、身边的人等学习到的知识进行编码;而机器学习则是机器根据提供的数据自行学习。预测式 AI 从数据中提取知识,生成式 AI 创造新的知识和内容,代理式 AI 则根据这些知识执行操作。图 3.5 将具体任务与这三种学习范式对应起来。
一旦你了解自己是在构建分析型、生成型还是代理型 AI,你就能更清晰地认识到数据、智能和用户体验的可选方案。
预测型 AI
预测型 AI,也称为分析型 AI,专注于界定明确的任务,旨在分析和理解数据,从而进行预测或解决简单、明确的问题。它可以用于以下方面:
- 基于数据驱动的洞察预测未来结果、识别趋势并优化流程
- 评估风险和检测异常
- 分析绩效指标和运营数据,以优化资源分配和决策
- 自动化个性化和精准营销,通过数据驱动的推荐提升客户体验
如第 3.1 节所述,大多数预测型 AI 应用依赖标注数据。要使用它,你需要现成的数据集或自行标注足够数量的数据。预测型 AI 系统在数据分类、回归分析和模式识别任务中表现优异。它们运行在定义明确的问题空间内,主要目标是减轻人类自行处理大量数据的负担。然而,其输出在现实世界中的相关性并不算非常高,人类仍需将分析结果置于上下文中,提炼出相关洞察并采取相应行动。
预测型 AI 可以应用于结构化数据(例如财务数据)和非结构化数据(例如文本和图像)。在处理非结构化数据时,预测型 AI 可以将数据进行有意义的结构化处理。例如,自然语言处理(NLP)可以将文本转换为表格,之后这些数据可以轻松用于进一步的汇总和分析。以产品评论的情感分析为例,经过训练的情感分类器能判断顾客对某产品的评价是正面还是负面。每条评论会对应一个数值化的情感评分,通常在 0(非常负面)到 1(非常正面)之间,如图 3.6 所示。尽管这为我们提供了有价值的初步指示,但人类仍需深入数据,找出形成这些观点的“原因”,并提出可能的行动方案,如改进某些产品特性或调整沟通策略。
在第4章,我们将更详细地探讨预测型AI。现在,让我们转向下一种类型——生成型AI,它的输出空间更为宽广,允许我们用单一模型覆盖多种任务。
生成型AI
从2022年开始,公众的关注点从预测型AI转向了生成型AI。ChatGPT在创纪录的五天内吸引了100万用户。生成型AI不是分析已有数据,而是生成看似“新”的信息,比如图像、文本或音乐,这些内容模仿了它所训练的输入数据的模式和特征。生成型AI的一些主要应用包括:
- 创造原创内容,如文本、图像或代码,以自动化任务并提高效率
- 根据用户需求设计流程,生成原型、模型和多种变体
- 生成合成数据,用于训练机器学习模型,同时保护敏感信息
- 通过生成多种备选方案,探索新想法和概念,促进创新
生成型AI模型,如基于解码器的变换器(transformers)和生成对抗网络(GANs),通过大量训练数据学习并生成具有相似特征的输出。这些输出局限于训练数据的分布范围内,意味着它们不具备真正的人类直觉、生活经验或情感深度——这些品质对开创性的艺术表达、原创故事讲述或深刻的个人作品至关重要。尽管如此,生成型AI仍能作为创意工作的宝贵伙伴,通过意想不到的方式组合现有信息,推动知识工作者和创意人士跳出舒适区,拓展并完善他们的想法。即使在早期阶段,这项技术也取得了显著成果,赢得了数字艺术奖项,并在如美国律师资格考试(Bar Exam)及SAT数学、阅读和写作部分的测试中表现进入前10%。更平凡的是,它提高了人们在编程、写作和内容创作等日常任务中的效率。
生成型AI能够创造多种模态的内容。除了文本,还可以生成类似照片或绘画的图像、视频,以及如视频游戏场景和风景的3D表现。大多数生成型AI模型生成单一格式的内容,但也存在多模态模型(Multimodal Models, MMM),如GPT-4和Gemini,它们结合了文本与图像等不同模态。
虽然生成型AI的热点多围绕内容生成,但它也有更专业的应用场景,支持并提升昂贵的主题专家的工作效率。例如,医疗领域中的生成型AI用于药物发现,建议满足特定分子特征的新颖化学结构,过去这项工作需大量资深制药专家的手工努力。在跨行业的产品开发中,生成设计可在几分钟内模拟和评估大量候选设计,极大提升了产品设计师的生产效率。
第5至8章将详细讨论生成型AI的技术和应用。生成型AI的现实意义通常高于预测型AI,因为它允许用户通过提示词或微调集成个体上下文信息。然而,它仍输出内容或数据,不直接影响现实世界。如果你希望AI采取行动并改变现实状态,应考虑使用代理型AI。
代理型AI
数十年来,“洞察-行动”之间的鸿沟一直挑战着分析型产品。你的软件可能给出了最精准的分析,但如果用户不知道如何利用这些数据,那也毫无意义。为了实现用户期待的“更进一步”,你的AI系统可以跟进推荐或自主执行特定操作。通过提示词和微调训练大型语言模型(LLMs),你可以教它们特定的上下文信息并让它们基于此工作。AI系统需要与合适的工具集成以执行操作,这些工具可以是软件应用(如基于LLM的插件)或物理设备,如物联网(IoT)应用和机器人。
大多数代理型AI应用核心包含分析型和/或生成型AI组件,负责分析情境并决定行动。它们也能与物理世界的其他技术连接,如用于生成设计的3D打印机和智能穿戴设备的IoT系统。代理型AI在任务需在对人类不便或危险的地点执行时能创造巨大价值,因此太空机器人可用于清理太空垃圾,甚至维护空间站。
风险缓解:允许AI在数字或现实世界中行动时,产品开发者必须意识到AI犯错带来的风险。可以通过设置安全防护(guardrails)和人工监督来减轻风险。
现代代理型系统基于生成指令的LLM。这些指令通过集成工具执行。就像人类言语多半围绕行动意图,比如请人做某事或拒绝执行一样,计算机程序也由执行特定操作的函数组成,并可根据条件阻止操作。生成型代理将两者结合起来。它们的指令不是编程语言硬编码,而是由LLM自由生成的推理和行动链,朝向特定目标。依托生成型AI模型庞大的常识知识库,代理能进入“真实世界”,与其他代理协作,并从行动结果中学习。第9章将教你如何构建代理型AI系统。
总结:以上介绍的类别并非相互排斥。许多现实任务中,规则和各类机器学习可以结合成强大的神经符号系统,可靠解决复杂问题并执行多步工作流。你的工程师将专注于优化模型及系统整体性能。作为产品经理,你应推动寻找这几类工具的最佳组合,以满足用户需求并充分利用数据价值。
3.3 用户体验
用户界面(UI)确保你通过AI创造的价值最终传递给用户。对于用户体验,你需要回答以下问题:
- 哪种基础UI类型最适合你的应用——对话式、图形化还是混合型?
- 你希望提供什么程度的自动化?是否需要人为参与,还是完全自动化会带来更多价值?
3.3.1 AI接口的基本类型
我们来看看你可以作为AI产品基础使用的接口类型,分别是对话式、图形化、混合型和生成型接口。这些接口类型的界限并不十分清晰。随着AI改变用户体验设计的格局,大多数AI产品会结合不同接口类型的模式和组件。
对话式接口
对话已成为生成型AI系统的首选交互模式——它用自然语言的灵活性替代了图形界面的僵硬(见图3.7)。这可以简化用户体验,避免界面过于杂乱,并提升用户的参与度和满意度。对话也非常适合以多样化的方式探索知识和数据。因此,在第1章中,我们分析了一个允许用户浏览庞大金融数据库的对话功能。
然而,将大型语言模型(如ChatGPT)直接暴露给用户也存在不同风险,比如产生幻觉、偏见或冒犯性输出。与AI对话不同于与人类交流。AI模型需要一种独特的方式,现在广为人知的是“提示工程”(见第6章)。实际上,不少用户难以以AI能理解的方式表达他们的问题和请求——这就是为什么提示工程有时被称为“最糟糕的用户体验”(参见文章“The UX of AI: Lessons from Perplexity”,链接:mng.bz/MwO8)。如果你面临这一挑战——无论是因为用户不擅长提示,还是你的AI模型需要高度专业的提示技巧——可以考虑设计一个以图形元素为主导的界面。
小贴士:更多关于用户在提示方面遇到的困难,请参考“The Articulation Barrier: Prompt-Driven AI UX Hurts Usability”(mng.bz/Qw04)和“Why Johnny Can’t Prompt: How Non-AI Experts Try (and Fail) to Design LLM Prompts”(mng.bz/yNze)。
图形化界面
与流畅的对话式界面不同,图形化界面的交互是固定不变的。它由许多视觉和控制元素组成,这些元素的可用性和含义经过了数十年的不断打磨和完善。如今,用户对它们非常熟悉,我们“阅读”界面的方式就像阅读一本流行杂志一样。图形化界面可以引导用户完成既定流程,比如在电商网站上的购买流程。在分析类应用中,它们还能可视化复杂数据(见图3.8)。
图形化界面为用户提供结构性和可预测性,尤其在B2B场景中,这对建立用户的信心和信任非常重要。要有效利用这种界面类型,你应专注于直观的布局设计,优先考虑用户体验,确保关键信息易于获取和操作。
混合界面
图形化界面在体现 AI 灵活性方面表现不佳——这方面对话式界面更胜一筹。混合界面允许你结合两者的优势。根据可用性权威 Jakob Nielsen 的观点,混合界面允许用户指定期望的结果,而无需详细说明每一步操作过程(参见 www.nngroup.com/articles/ai… 中的《AI:60年来首个新的用户界面范式》)。这种方法保留了直观的视觉界面元素,如按钮、菜单和视觉反馈,同时融入自然语言提示,使用户能更自由地表达意图。通过整合这两种范式,混合界面可以在界面中平衡灵活性与固定性。对话可以用于开放式的输入和输出,而图形元素则在需要固定且明确输入的部分限制交互。例如,考虑代码生成及近期流行的“氛围编码”(vibe coding)——即与 AI 工具一起编写代码,往往并不完全理解代码本身。对话流程支持创造性编码,而常见的开发操作如调试、部署、重构等则可通过结构化的 UI 元素访问。图3.9展示了 Vercel 的 v0.dev (v0.dev) 的一个示例。
生成式界面
生成式 AI 能实现更加个性化的用户体验。对话界面已经能够个性化地向用户提供内容,而生成式界面则更进一步——在每个步骤,不仅个性化内容,还个性化设计和交互。例如,当你规划一次旅行时,生成式界面会在每个阶段,精准提供你当前关注的信息,比如时间、地点、住宿偏好等。传统应用,如航空公司或旅行预订应用,会让用户遵循预设流程,而生成式界面则适应用户的当前心理模型,让用户在每个阶段与为其量身定制的界面互动。虽然全面的生成式界面仍属于未来趋势,但一旦相关技术难题被攻克,它们很可能成为主流。作为产品打造者,你应关注这一趋势,并考虑将这些个性化“岛屿”融入你的产品用户体验中。
3.3.2 辅助、增强与自主智能
人们常常认为 AI 就是自动化,理想情况下是完全取代人类工作,但这种看法存在误导。在可预见的未来,大多数 AI 产品不会取代人类,而是辅助或增强人类的工作。在某些场景下,完全自动化能带来显著提升,尤其是对于那些人类觉得枯燥但 AI 能高效自信执行的例行任务。例如,在呼叫中心将客户请求路由到合适的团队就是一个典型案例。然而,对于大多数现实任务,人类的判断和专业知识仍然能带来更优的结果。比如,你在决定下一步要开发哪些服务或产品功能时,AI 可以为你提供创造性的启发和市场背景,但最终的决策还是由你、团队及其他利益相关者共同权衡。书中将重点讨论人类与 AI 之间理想“合作伙伴关系”的设计,因为这是成功 AI 产品用户体验的核心组成部分。
AI 自动化的不同层级
在描述 AI 应用的自动化程度时,我们区分三大类:
辅助智能——此级别下,AI 支持并增强人类决策,但不独立做出决策。
增强智能——AI 与人类专业知识结合,提供建议并在决策中扮演积极角色。
自主智能——AI 独立运行,几乎无需人为干预,能够自主做决策和采取行动。
辅助、增强到自主智能的演进是一个渐进过程。图 3.10 展示了自动驾驶、医疗和客户服务领域中各自动化层级的典型应用示例。
为了更好地理解自动化的不同层级,我们聚焦于自动驾驶这一高度规范化且安全风险极高的 AI 应用案例。2021 年,国际自动机工程师学会(SAE International,前身为汽车工程师学会)定义了六个自动化等级,范围涵盖从无自动化(第0级)、辅助和增强功能,到最高级别的完全自动化(第5级),如图 3.11 所示,图下方列表对各级别进行了详细描述。
图 3.11 SAE 国际定义的自动驾驶自动化等级(来源:SAE Levels of Driving Automation <www.sae.org/blog/sae-j3…
第0级:无自动化 — 目前道路上大多数车辆属于这一类别。它们可能配备了倒车辅助摄像头或碰撞预警系统等功能,但车辆的移动完全由驾驶员控制。驾驶员承担所有主动驾驶操作。
第1级:极轻度自动化 — 车辆在任一时刻只能执行一项自动化任务。这些任务通常与安全相关,提供基本的辅助控制,如转向或制动,功能包括车道居中和自适应巡航控制。驾驶员仍需承担大部分驾驶工作,始终控制车辆。
第2级:部分驾驶自动化 — 部分任务实现自动化,但驾驶始终需要人工关注。所有车辆在此级别都会具备某种高级驾驶辅助系统(ADAS)。ADAS可在特定场景下控制转向、制动和加速,例如高速公路等低流量环境。与第1级不同,第2级可以同时执行多项任务,如车道居中和自适应巡航。驾驶员必须保持警觉,且在许多情况下需介入。
第3级:条件驾驶自动化 — 车辆可实现自动驾驶,但在极端天气或故障等严苛条件下需人工介入。达到这一自动化级别带来了诸多用户体验挑战。例如,当你正放松或通勤时与客户通话,突然面临潜在事故风险,你能否及时反应并了解完整驾驶状况?这也是为何有些人主张直接跳过第3级,直接从第2级跃升到第4级。
第4级:高度驾驶自动化 — 无需人工干预,系统完全独立驾驶,驾驶员可全程“解脱”,甚至可能没有方向盘或踏板。第4级自动驾驶的主要限制因素是地理围栏(geofencing),车辆仅能在特定区域(已被限制的区域)内行驶,无法跨区域驾驶。恶劣天气也会影响其运行。
第5级:完全驾驶自动化 — 自动驾驶的最高等级。此类车辆可在所有环境和地点自主驾驶,不受地理围栏限制。例如,即使在恶劣天气和损坏道路状况下也能安全运输乘客。尽管这是自动驾驶的终极愿景,目前尚无实际案例或验证证明普适自动驾驶的可行性。
人机协作的最佳劳动力分配
在自动驾驶中,人机协作必须满足根本且不可动摇的安全要求。部分驾驶者享受驾驶过程,不愿切换至全自动驾驶;但另一些人如果能确保足够安全,则会欢迎完全自动驾驶车辆。类似地,在许多非生命攸关的场景中,人机合作虽非必需,但仍能提升系统价值。若你疑惑为何最高自动化并非最佳方案,原因在于人类与AI各有天赋优势。尤其在复杂的战略、科学或创造性工作中,最佳成果来自双方协作、合理分工。接下来,我们先看AI的优势:
- 大规模数据处理能力——AI能快速处理大量数据和复杂计算,尤其适用于快速决策、数据分析及重复性工作。
- 识别数据模式能力——AI擅长发现海量数据中的模式、趋势及异常,这些往往不易被人类察觉。此能力在数据分析、金融、医疗等领域尤为宝贵。
- 一致且客观的预测——AI模型能避免个人偏见、情绪影响及外界干扰,在某些场景下提供更客观、公平的结果。
- 多任务处理——AI能高效同时管理多个流程,性能不受影响,适用于基础设施、网络安全及自动驾驶。
- 可扩展性——AI系统易于扩展以满足增长的工作负载和数据需求,适配电商、客服、云计算等应用。
- 执行重复及危险任务——AI可承担单调、危险或需接触有害环境的任务,保护人工免于疲劳和伤害。
- 可用性与可达性——AI可全天候24小时服务,无需休息,适合客服、自动化服务及关键基础设施监控。
再来看看人类的优势:
- 直觉和“第六感”——人类依赖直觉和生活经验迅速决策,或察觉异常。如医生凭借多年经验直觉识别X光异常。
- 社交及人际技能——人类具备情绪智能和沟通技巧,善于处理人际关系。例如客服人员能用同理心应对激烈情绪客户。
- 理解环境背景——人类擅长理解信息和事件的广泛背景。比如决策新产品功能时,能与公司战略、使命及愿景保持一致。
- 常识推理——人类深谙常识知识并能应用于多种情境。AI在常识推理方面常显不足,人类更能理解语境、把握细微差别并适应新环境。
- 道德与伦理判断——人类具备道德和伦理感,能处理涉及价值观、原则及伦理考量的复杂决策。AI系统通常缺乏道德指南,需人工介入指导。
第10章将介绍如何系统地将任务拆解为多个组件,分析哪些组件适合由AI完成,并将AI自动化无缝整合入用户工作流。
集成AI时,应考虑合适的界面类型(图形化、对话式或混合型)及自动化程度(辅助、增强或自主智能)。这些决策需与你的商业策略、资源和团队技能相匹配。此外,应通过发挥AI的数据处理能力与人类的直觉及伦理判断优势,优化人机协作效果。
总结
- 在AI的解决方案空间中很容易迷失方向。每天都有新的模型和工具出现,使得探索最合适的解决方案变得具有挑战性。
- 解决方案空间涵盖我们AI系统心理模型中的三个组成部分:数据、智能和用户体验。
- 不同的数据模态(文本、视觉、听觉等)需要应用特定的AI技术。
- 数据可以是有标签的或无标签的。有标签数据为监督学习提供明确的学习信号,而无标签数据用于无监督学习。
- AI系统主要有三种类型——预测型(分析型)、生成型和代理型。每种类型适用于不同的学习问题。
- 预测型AI侧重于分析数据以进行预测和解决明确的问题,通常需要有标签的数据才能有效工作。
- 生成型AI基于训练数据中的模式生成新内容,在医疗和产品设计等多个领域有广泛应用。
- 代理型AI能够自动执行多步骤工作流,并可以使用包括生成型和预测型模型在内的多种工具。
- AI界面的两种主要类型是对话式和图形化,通常二者结合形成混合界面。
- 设计AI界面时,平衡自动化与控制,优化人机在特定任务中的劳动分配非常重要。