人工智能三大基础设施:数据、算法、算力

69 阅读4分钟

数据

PM需要懂: 数据收集的阶段和数据准备应用于人工智能的阶段

采集——>评估——>清洗——>存储——>标注——>验证——>分集

数据采集:硬件产品(传感器采集:感受到被测量的信息,并按一定规律变换成为电信号或其他所需形式的信息输出,以满足信息的传输、处理、存储、显示、记录和控制等要求的检测装置)和软件产品(数据库接口权限和爬虫)

硬件数据来源:声波传感器、化学传感器 软件数据来源:付费数据网站(ICSR:美国权威社会和行为学研究数据)、开放数据网站、爬虫采集、数据合作交换(只交易加密后的数据,不涉及个人隐私)

wikpedia books journals redditlinks cc、other 数据量:越多越好 ,但是对质量有要求,需要满足4r要求:关联度relavancy、可信性reliability、时效性rencency、范围range

数据清洗:

  • 数据值错误

    数据值错误:超过固定域值、超过极值、属性错误 数据类型错误:日期类型的以数值型存储,时间戳村委字符串
    数据编码错误:数据存储的编码错误,例如将UTF-8写成UTF-80
    数据格式错误
    依赖冲突

  • 删除重复项

    排序
    相似度判断

  • 统一规格

    口径
    名称
    类型
    单位
    格式
    长度

  • 转换构造

    行列转换
    归一化
    颗粒度

6e464ac05f09b75c5587459d05e4602.jpg

PM要知道数据采集的方式、来源、数据清洗的过程。

算力

靠芯片完成

  • 按技术架构分:

    CPU——单一处理单元
    GPU——多处理单元并并行计算
    TPU——多处理单元并并行计算,专门针对深度学习设计
    FPGA——半定制化硬件实现处理
    ASIC——全定制化硬件实现处理
    神经拟态芯片

  • 按定制化程度分

    通用型芯片
    本定制化芯片
    定制化芯片

  • 按用途分

    训练芯片
    推断芯片(设备端)

CPU:中央处理器,造价低,性能差,很少用于AI商用,通用型芯片
GPU:图像处理器,造价高,性能高,并行处理复杂任务,通用型芯片
TPU:张量处理器,造价高,性能高,并行处理复杂任务,google研发的专门针对深度学习设计的。美国限制使用,通用型芯片
FPGA:半定制化硬件实现处理,可编程门列,可通过输入FPGA文件,来定义这些门电路及存储元件的链接,从而实现特定的功能。本质上是通过硬件来实现算法的。特点是适合实时计算下的高并发要求。半定制化芯片
ASIC:全定制化硬件实现处理,引用专门集成电路,专门针对某种执行任务而设计的集成电路,量产后造价低,定制化芯片。

PM要明白芯片行业话术,因为有时候采购需要,能沟通。

算法

PM需要懂15个左右算法,涵盖80%以上场景。

传统的机器学习算法深度学习算法
执行简单的预测、分类、聚类、异常识别任务图像识别、语音识别等任务
训练难度较低训练难度较高
对算力要求相对较低对算力要求相对较高

传统的机器学习算法

类别解决问题方向核心算法
监督式学习分类、回归问题线性回归、逻辑回归、线性判别分析、决策树、朴素贝叶斯、K临近、学习向量量化、支持向量机、随机森林、AdaBoost
无监督式学习聚类、异常识别k均值聚类、层次聚类、主要成分分析PCA、奇异值分解SVD
强化学习无数据自学习Q-learning

深度学习算法

类别代表算法核心应用
CNN卷积神经网络图像识别、人脸识别
RNN卷积神经网络文本生成、语音识别、翻译、视频标记
GANs生成对抗网络GAN,DCGAN生成数据集训集,文本到图像的转换,3D模型生成
RL强化学习Qlearning Expert Lteartion游戏机器人(游戏中用得多)