如何设计好出色的数据产品？在过去几年中，我们已经看到许多基于预测建模的数据产品。这些产品包括天气预报，推荐引擎，以及比航

在过去几年中，我们已经看到许多基于预测建模的数据产品。这些产品包括天气预报，推荐引擎，以及比航空公司本身更准确地预测航空公司航班时间的服务。但这些产品仍然只是做出预测，而不是询问他们希望有人采取什么行动作为预测的结果。预测技术可以是有趣的，在数学上也很优雅，但我们需要采取下一步措施。该技术旨在构建可以彻底改变整个行业的数据产品。那么，我们为什么不建造它们呢？

为了启动这一过程，我们建议采用一种已经改变了保险业的四步法。我们将其称为动力传动系统方法，其灵感来自新兴的自动驾驶车辆领域。工程师首先要确定一个明确的目标：他们希望汽车在没有人为干预的情况下从A点安全驾驶到B点。伟大的预测建模是解决方案的重要组成部分，但它不再独立; 随着产品变得越来越复杂，它就会消失在管道中。有人使用谷歌的自动驾驶汽车完全没有意识到数百个（如果不是数千个）模型和数PB的数据使它工作。但随着数据科学家构建越来越复杂的产品，他们需要系统化的设计方法。我们并未声称动力传动系统方法是最佳或唯一的方法; 我们的目标是在数据科学和商业社区内开展对话，以推进我们的集体愿景。

基于客观的数据产品

我们正在进入数据时代作为动力传动系统，我们不仅使用数据来生成更多数据（以预测的形式），而且使用数据来产生可操作的结果。这是动力传动系统方法的目标。说明此过程的最佳方式是使用熟悉的数据产品：搜索引擎。早在1997年，AltaVista就是算法搜索领域的王者。虽然他们的模型擅长查找相关网站，但用户最感兴趣的答案通常隐藏在搜索结果的第100页。然后，谷歌出现并改变了在线搜索，首先是一个简单的问题：用户输入搜索查询的主要目的是什么？

谷歌意识到目标是展示最相关的搜索结果; 对于其他公司而言，它可能会增加利润，改善客户体验，找到机器人的最佳路径，或平衡数据中心的负载。一旦我们确定了目标，第二步就是指定我们可以控制的系统输入，我们可以提供的杠杆来影响最终结果。在谷歌的情况下，他们可以控制搜索结果的排名。第三步是考虑产生这种排名所需的新数据 ; 他们意识到关于哪些页面链接到哪些其他页面的隐含信息可用于此目的。只有在前三个步骤之后，我们才开始考虑构建预测模型。我们的目标和可用杠杆，我们已经拥有的数据以及我们需要收集的其他数据，决定了我们可以构建的模型。模型将把杠杆和任何不可控制的变量作为输入; 模型的输出可以组合起来预测我们目标的最终状态。

Drivetrain Approach for Google的第4步现在是科技历史的一部分：Larry Page和Sergey Brin发明了图遍历算法PageRank，并在其上构建了一个革命性的搜索引擎。但是您不必创建下一个PageRank来构建出色的数据产品。我们将展示第4步的系统方法，该方法不需要计算机科学博士学位。

模型装配线：最优决策组的案例研究

优化正确预测模型的可操作结果可以成为公司最重要的战略决策。对于一家保险公司来说，政策价格就是产品，因此最优的定价模式是他们对汽车制造的装配线。保险公司拥有数百年的预测经验，但就在10年前，保险公司往往未能就每个新客户收取的价格做出最佳商业决策。他们的精算师可以建立模型来预测客户发生事故的可能性以及索赔的预期价值。但这些模型并没有解决定价问题，因此保险公司会根据猜测和市场研究的结合设定价格。

这种情况在1999年由一家名为Optimal Decisions Group（ODG）的公司改变。ODG通过早期使用动力传动系统方法和第4步的实际应用来解决这个问题，这可以应用于各种各样的问题。他们开始通过定义目标，保险公司试图实现：设置从一个新的客户在多年的时间跨度最大化利润的净现值价格，受到一定的制约，如维持市场份额。从那时起，他们开发了一个优化的定价流程，为保险公司的利润增加了数亿美元。

ODG确定了保险公司可以控制哪些杠杆：每个客户收取什么价格，要涵盖哪些类型的事故，在营销和客户服务上花多少钱，以及如何对竞争对手的定价决策做出反应。他们还考虑了无法控制的投入，如竞争对手的战略，宏观经济条件，自然灾害和客户“粘性”。他们考虑了哪些额外的数据他们需要预测客户对价格变化的反应。有必要通过在数月内随机更改数十万条政策的价格来构建此数据集。虽然保险公司不愿意对真实客户进行这些实验，因为他们肯定会失去一些客户，但他们却受到优化政策定价可能带来的巨大收益的影响。最后，总干事办公室开始设计的模型可用于优化保险公司的利润。

ODG Modeler的第一个组成部分是新政策和续约的价格弹性模型（客户接受给定价格的概率）。价格弹性模型是价格与客户接受以该价格为条件的政策的概率的曲线。这条曲线从极低的价格几乎肯定接受到几乎从不高价。

ODG的Modeler的第二个组成部分与保险公司的利润相关，条件是客户接受此价格。非常低的价格的利润将由第一年的预期索赔价值加上红色，加上获得和服务新客户的任何开销。将这两条曲线相乘可以创建一条最终曲线，显示价格与预期利润的对比（参见下面的预期利润数字）。最终曲线具有明确可识别的局部最大值，表示第一年向客户收取的最佳价格。

ODG还建立了客户保留模型。这些模型预测客户是否会在一年内更新其政策，允许价格变化和愿意跳转到竞争对手。这些额外的模型允许将年度模型结合起来，以预测未来五年内新客户的利润。

这套新模型不是最终答案，因为它只能识别给定输入集的结果。装配线上的下一台机器是模拟器，让ODG询问“假设”问题，看看杠杆如何影响最终结果的分布。预期的利润曲线只是可能结果的一部分。为了构建整个表面，模拟器在各种输入上运行模型。

操作员可以调整输入操纵杆以回答具体问题，例如，“如果我们公司在第一年为客户提供低预告价格，然后在第二年提高保费，将会发生什么？”他们还可以探索利润分配如何受到保险公司控制之外的投入的影响：“如果经济崩溃而客户失去工作怎么办？如果100年的洪水袭击他的家怎么办？如果新竞争者进入市场而我们公司没有反应，模拟器的结果被送到优化器，它可以获得可能结果的表面并确定最高点。

优化器不仅可以找到最佳结果，还可以识别灾难性结果并展示如何避免它们。有许多不同的优化技术可供选择（参见下面的侧栏），但它是一个易于理解的领域，具有强大且易于使用的解决方案。ODG的竞争对手使用不同的技术来找到最优价格，但他们正在运送相同的整体数据产品。重要的是，使用动力传动系统方法与模型装配线相结合，弥补了预测模型与可操作结果之间的差距。CloudPhysics的Irfan Ahmed 提供了良好的分类描述整个装配线过程的预测建模：

“当处理数百或数千个单独的组件模型以了解整个系统的行为时，必须进行'搜索'。我认为这是一个复杂的机器（全系统），窗帘被撤回，你可以在受控实验下模拟机器的每个重要部分，然后模拟相互作用。这里注意不同的级别：单个组件的模型，在给定一组输入的模拟中绑定在一起，在搜索优化器中通过不同的输入集迭代。

动力传动系统推荐系统

让我们来看看我们如何将这个过程应用到另一个行业：营销。我们首先将Drivetrain方法应用于熟悉的示例，推荐引擎，然后将其构建为整个优化的营销策略。

推荐引擎是基于精心构建的预测模型的数据产品的熟悉示例，其不能实现最佳目标。当前的算法预测客户会喜欢哪些产品，根据购买历史和类似客户的历史。像亚马逊这样的公司代表了每一次作为巨型稀疏矩阵的购买，其中客户作为行和产品作为列。一旦他们拥有这种格式的数据，数据科学家就会采用某种形式的协同过滤来“填充矩阵”。例如，如果客户A购买产品1和10，而客户B购买产品1,2,4和10 ，引擎会推荐A买2和4.这些型号擅长预测客户是否会喜欢某个特定产品，但他们经常推荐客户已经知道或已经决定不购买的产品。亚马逊的推荐引擎可能是最好的推荐引擎，但它很容易让它显示它的疣。在Terry Pratchett的“ Discworld系列：”中搜索最新一本书

所有的建议都是针对同一系列中的其他书籍，但是一个很好的假设是搜索“Terry Pratchett”的客户已经知道这些书。在Feed的第2页到第14页可能会有一些意想不到的建议，但有多少客户会打扰点击？

相反，让我们使用Drivetrain方法设计一个改进的推荐引擎，首先重新考虑我们的目标。推荐引擎的目标是通过使用他或她在没有推荐的情况下不会购买的书籍令客户感到惊讶和愉悦而推动额外销售。我们真正想做的是模仿Zite首席执行官Mark Johnson的经历，他在最近的TOC谈话中给出了客户推荐体验应该是什么样子的完美例子。。他进入了纽约市斯特兰德书店，要了一本类似于托尼莫里森的书“亲爱的”。书柜后面的那个女孩推荐威廉福克纳的“Absolom Absolom。”

在亚马逊上，类似查询的最高结果导致了另一本书托妮莫里森和几本着名女作家的着作。斯特兰德书商做出了一个精彩但却牵强附会的建议，可能更多地基于莫里森的写作特征，而不是莫里森和其他作者之间的表面相似之处。她切断了明显的糠and，提出建议，将客户带回一本新书，并在将来一次又一次地回到斯特兰德。

这并不是说亚马逊的推荐引擎无法建立相同的连接; 问题在于这个有用的建议将深埋在推荐信息中，与“宠儿”之间有更明显相似性的书籍之下。目标是逃避推荐过滤器泡沫，这个术语最初由Eli Pariser创造来描述个性化新闻馈送的趋势只是展示广受欢迎的文章或进一步确认读者现有的偏见。

与AltaVista-Google示例一样，书商可以控制的杠杆是推荐的排名。还必须收集新数据以生成将导致新销售的建议。这将需要进行许多随机实验，以便为广泛的客户收集有关各种建议的数据。

动力传动系统过程的最后一步是构建模型装配线。避开推荐泡沫的一种方法是构建一个包含两个购买概率模型的Modeler，条件是看到或不看到推荐。这两个概率之间的差异是针对客户的给定建议的效用函数（参见下面的推荐引擎图）。如果算法推荐客户已经拒绝的熟悉的书籍（两个组件都很小）或者即使没有推荐也会购买的书籍（两个组件都很大并相互抵消）的情况会很低。我们可以建立一个模拟器测试我们库存的许多可能书籍中的每一本书的效用，或者可能只测试类似客户购买的协作过滤模型的所有输出，然后构建一个简单的优化器，根据他们的模拟排列并显示推荐的书籍效用。一般来说，在选择目标函数进行优化时，我们需要较少强调“功能”，而更多地强调“目标”。使用我们数据产品的人的目标是什么？我们实际上帮助他或她做出了什么选择？

优化终身客户价值

这种相同的系统方法可用于优化整个营销策略。这包括零售商在实际买卖交易之外与其客户进行的所有互动，无论是进行产品推荐，鼓励客户查看在线商店的新功能，还是发送促销活动。做出错误选择的代价是零售商以降低利润的形式（不能带来额外销售的折扣），稀缺房地产在其主页上的机会成本（在客户推荐的产品中占用空间）如果没有推荐就不喜欢或者不会购买）或者客户调出（发送这么多无用的电子邮件促销信息，客户将所有未来的通信过滤为垃圾邮件）。

与前面的每个例子一样，我们首先要问：“ 营销策略试图达到什么目标？” 简单：我们希望优化每个客户的生命周期价值。第二个问题：“ 我们有什么杠杆来实现这一目标？” 很少几个。例如：

我们可以提出惊喜和喜悦的产品推荐（使用上一节中概述的优化建议）。
我们可以为客户提供量身定制的折扣或特别优惠，而这些产品并非随时可供购买或在其他地方购买。
我们甚至可以进行客户服务电话，以了解用户如何享受我们的网站并让他们感受到他们的反馈是有价值的。

我们需要收集哪些新数据？这可能因具体情况而异，但一些在线零售商正采取创造性的方法来完成这一步骤。在线时装零售商Zafu展示了如何鼓励客户参与此收集过程。很多网站都出售设计师牛仔布，但对于很多女性来说，高端牛仔裤是他们从未在网上购买的一件衣服，因为很难找到合适的牛仔裤而不试穿它们。Zafu的方法不是直接将顾客送到衣服上，而是先询问一系列关于顾客体型，其他牛仔裤的合身程度以及时尚偏好的简单问题。只有这样，客户才能浏览推荐的Zafu库存选择。数据收集和建议步骤不是附加组件; 他们是Zafu的整个商业模式 - 女式牛仔裤现在是一种数据产品。Zafu可以根据他们的系统提出正确的问题来定制他们的适合牛仔裤的建议。

从客观力量数据科学家开始，考虑他们需要为Modeler构建的其他模型。我们可以保留已经建立的“喜欢”模型以及有或没有建议的购买因果关系模型，然后采用分阶段方法添加我们认为可以提高营销效果的其他模型。我们可以添加价格弹性模型来测试提供折扣如何改变客户购买商品的概率。我们可以构建一个耐心模型，让客户容忍目标不佳的通信：他们什么时候调整它们并将我们的消息直接过滤到垃圾邮件？（“如果Hulu再一次向我展示同样的狗粮，我将停止观看！”）购买序列因果关系模型可用于识别关键的“入门产品”。

例如，一条经常穿的牛仔裤搭配特定的上衣，一旦我们拥有这些模型，我们就构建了一个模拟器和一个优化器，并在组合模型上运行它们，以找出哪些建议将实现我们的目标：推动销售并改善客户体验。

物理数据产品的最佳实践

很容易陷入这样的陷阱，即由于数据存在于抽象的，电子表格或云中，因此数据产品只是抽象的算法。因此，我们最后向您展示基于客观的数据产品如何已经成为有形世界的一部分。这些例子最重要的是设计这些数据产品的工程师并不是从建立一个neato机器人然后寻找与之相关的东西开始的。他们开始时的目标是“我希望我的车能驾驶我的地方”，然后设计了一个隐蔽的数据产品来完成这项任务。工程师通常悄悄地处于算法应用的前沿，因为他们长期以客观为基础的方式思考他们自己的建模挑战。工业工程师是最早开始使用神经网络的公司之一，将它们应用于装配线和质量控制的最佳设计等问题。

布莱恩·里普利（Brian Ripley）关于模式识别的开创性着作为许多想法和技术提供了信誉，使其在很大程度上被遗忘了20世纪70年代的工在设计产品或制造过程时，类似动力传动系统的过程以及模型集成，仿真和优化是系统工程师工具包的一个熟悉部分。在工程中，通常需要将许多组件模型链接在一起，以便可以串联模拟和优化它们。这些公司在最终产品中构建每个组件和系统的模型方面拥有丰富的经验，无论他们是建造服务器场还是战斗机。可能有一个详细的机械系统模型，一个单独的热系统模型，另一个用于电气系统等。所有这些系统都有重要的相互作用。例如，电气系统中的电阻产生热量，这需要作为热扩散和冷却模型的输入。多余的热量可能导致机械部件翘曲，产生应该输入机械模型的应力。

下面的屏幕截图取自Phoenix Integration设计的模型集成工具。虽然它来自完全不同的工程学科，但该图与我们推荐用于数据产品的动力传动系统方法非常相似。该目的是明确定义：建立飞机机翼。翼盒包括设计杆，如跨度，锥度比和扫掠。该数据是在机翼材料的物理性质; 成本列在应用程序的另一个选项卡中。有一个空气动力学和机械结构的建模器，然后可以送到模拟器产生成本，重量，升力系数和诱导阻力的关键翼输出。这些结果可以提供给优化器，以建立一个功能强大且具有成本效益的飞机机翼。

随着预测建模和优化对于各种各样的活动变得越来越重要，请留意工程师来破坏那些不会立即出现在数据业务中的行业。例如，“动力传动系统方法”这一短语的灵感已经出现在山景城的街道上。我们现在可以让数据驱动我们，而不是数据驱动。

假设我们想从旧金山到圣塔克拉拉的Strata 2012会议。我们可以建立一个简单的距离/速度限制模型来预测到达时间，只需要一个标尺和一个路线图。如果我们想要一个更复杂的系统，我们可以建立另一个交通拥堵模型，另一个模型来预测天气状况及其对最安全的最大速度的影响。在构建这些模型时存在许多很酷的挑战，但是它们本身并没有将我们带到目的地。现在，使用某种类型的启发式搜索算法来预测沿着各种路径（模拟器）的驱动时间，然后选择最短的一个（优化器）是微不足道的。受到诸如避免过桥费或最大化汽油里程等限制。但为什么不思考更大？而不是GPS单元的femme-bot语音告诉我们要走哪条路线以及在哪里转弯，建造一辆可以自行做出这些决定的汽车需要什么呢？为什么不将模拟和优化引擎与物理引擎捆绑在一起，都在汽车的黑匣子里？

让我们考虑一下这是Drivetrain方法的应用。我们已经确定了我们的目标：建造一辆自行驾驶的汽车。杠杆是我们熟悉的车辆控制装置：方向盘，加速器，制动器等。接下来，我们考虑汽车需要收集哪些数据 ; 它需要传感器来收集有关道路的数据，以及可以检测路标，红灯或绿灯以及意外障碍物（包括行人）的摄像机。我们需要定义我们需要的模型，例如用于预测转向，制动和加速度影响的物理模型，以及用于解释道路标志数据的模式识别算法。

正如谷歌自动驾驶汽车项目的一位工程师在最近的连线文章中所说的那样，“我们正在分析和预测世界每秒20次。”报价中丢失的是由于这种预测而发生的事情。车辆需要使用模拟器来检查可能采取的行动的结果。如果它现在左转，它会撞到那个行人吗？如果在这些天气条件下以55英里/小时的速度右转，它会在路上滑行吗？仅仅预测会发生什么并不够好。自动驾驶汽车需要采取下一步措施：模拟所有可能性后，必须进行优化模拟的结果是选择加速和制动，转向和信号的最佳组合，以使我们安全地到达圣克拉拉。预测只告诉我们会发生事故。优化器告诉我们如何避免事故。

改进数据收集和预测模型非常重要，但我们希望强调开始的重要性，即通过产生可操作结果的杠杆定义明确的目标。数据科学甚至已经开始渗透到我们生活中最实际的元素中。随着科学家和工程师越来越擅长将预测和优化应用于日常问题，他们正在扩展可能的艺术，优化从我们的个人健康到我们居住的房屋和城市的一切。开发模拟流体动力学和湍流的模型已经适用于改善交通和人流通过使用出口和人群控制障碍作为杠杆。这改善了地铁站的紧急疏散程序，减少了在体育赛事中人群踩踏和践踏的危险。Nest正在设计智能恒温器，可以了解房主的温度偏好，然后优化他们的能耗。对于机动车交通，IBM与斯德哥尔摩市进行了一个项目优化交通流量，减少近四分之一的拥堵，并将内城的空气质量提高25％。特别有趣的是，没有必要建立一个精心设计的新数据收集系统。任何有计量红绿灯的城市都已经拥有了所有必要的信息; 他们只是没有办法从中汲取意义。

在另一个基于目标的数据产品有能力改变生活的领域，硅谷的CMU扩展项目有一个积极的项目，用于构建数据产品，以帮助自然灾害或人为灾害后的第一响应者。Jeannie Stamberger卡内基梅隆大学硅谷向我们解释了预测算法在灾难响应中的许多可能应用，从文本挖掘和推文的情绪分析到确定损害程度，成群的自主机器人进行侦察和救援，再到物流帮助多个司法管辖区协调其响应的优化工具。这些灾难应用程序是数据产品需要简单，精心设计的接口以产生具体建议的一个特别好的例子。在紧急情况下，仅产生更多数据的数据产品几乎没有用处。数据科学家现在拥有预测工具来构建可增加共同利益的产品，但他们需要意识到，如果不能产生优化的，可实现的结果，那么构建模型是不够的。

数据产品的未来

我们引入了动力传动系统方法，为设计下一代优秀数据产品提供了框架，并描述了它如何依赖于优化。在未来，我们希望在商学院和统计部门中看到优化。我们希望数据科学家能够提供旨在产生理想业务成果的产品。这仍然是数据科学的曙光。

我们不知道将来会开发什么样的设计方法，但是现在，数据科学界需要围绕共享词汇和产品设计过程进行合并，这些过程可以用来教育其他人如何获得价值从他们的预测模型。如果我们不这样做，我们会发现我们的模型只使用数据来创建更多数据，而不是使用数据来创建动作，我们是否需要提供数据的产品，或者我们是否希望产品能够根据数据提供结果？

http://weixin.qq.com/r/V3XUzBbEm0vkrVKv9yBF (二维码自动识别)

数据分析宝典【手机淘宝口令】：

【数据分析侠《人人都会数据分析》20万字电子书】https://m.tb.cn/h.3i7mJyz 点击链接，再选择浏览器咑閞；或復·制这段描述￥8iohbTKiaBs￥后到👉淘♂寳♀👈[来自超级会员的分享]

【七月算法机器学习深度学习 python数据分析邹博】https://m.tb.cn/h.3iWDgFB 点击链接，再选择浏览器咑閞；或復·制这段描述￥S8iIbTKiQoX￥后到👉淘♂寳♀👈[来自超级会员的分享]

【机器学习实战Python全套代码包括训练数据集图片数据演示案例】https://m.tb.cn/h.3ik7Hmf 点击链接，再选择浏览器咑閞；或復·制这段描述￥dRgIbTKiBvJ￥后到👉淘♂寳♀👈[来自超级会员的分享]