数据
PM需要懂: 数据收集的阶段和数据准备应用于人工智能的阶段
采集——>评估——>清洗——>存储——>标注——>验证——>分集
数据采集:硬件产品(传感器采集:感受到被测量的信息,并按一定规律变换成为电信号或其他所需形式的信息输出,以满足信息的传输、处理、存储、显示、记录和控制等要求的检测装置)和软件产品(数据库接口权限和爬虫)
硬件数据来源:声波传感器、化学传感器 软件数据来源:付费数据网站(ICSR:美国权威社会和行为学研究数据)、开放数据网站、爬虫采集、数据合作交换(只交易加密后的数据,不涉及个人隐私)
wikpedia books journals redditlinks cc、other 数据量:越多越好 ,但是对质量有要求,需要满足4r要求:关联度relavancy、可信性reliability、时效性rencency、范围range
数据清洗:
-
数据值错误
数据值错误:超过固定域值、超过极值、属性错误 数据类型错误:日期类型的以数值型存储,时间戳村委字符串
数据编码错误:数据存储的编码错误,例如将UTF-8写成UTF-80
数据格式错误
依赖冲突 -
删除重复项
排序
相似度判断 -
统一规格
口径
名称
类型
单位
格式
长度 -
转换构造
行列转换
归一化
颗粒度
PM要知道数据采集的方式、来源、数据清洗的过程。
算力
靠芯片完成
-
按技术架构分:
CPU——单一处理单元
GPU——多处理单元并并行计算
TPU——多处理单元并并行计算,专门针对深度学习设计
FPGA——半定制化硬件实现处理
ASIC——全定制化硬件实现处理
神经拟态芯片 -
按定制化程度分
通用型芯片
本定制化芯片
定制化芯片 -
按用途分
训练芯片
推断芯片(设备端)
CPU:中央处理器,造价低,性能差,很少用于AI商用,通用型芯片
GPU:图像处理器,造价高,性能高,并行处理复杂任务,通用型芯片
TPU:张量处理器,造价高,性能高,并行处理复杂任务,google研发的专门针对深度学习设计的。美国限制使用,通用型芯片
FPGA:半定制化硬件实现处理,可编程门列,可通过输入FPGA文件,来定义这些门电路及存储元件的链接,从而实现特定的功能。本质上是通过硬件来实现算法的。特点是适合实时计算下的高并发要求。半定制化芯片
ASIC:全定制化硬件实现处理,引用专门集成电路,专门针对某种执行任务而设计的集成电路,量产后造价低,定制化芯片。
PM要明白芯片行业话术,因为有时候采购需要,能沟通。
算法
PM需要懂15个左右算法,涵盖80%以上场景。
传统的机器学习算法 | 深度学习算法 |
---|---|
执行简单的预测、分类、聚类、异常识别任务 | 图像识别、语音识别等任务 |
训练难度较低 | 训练难度较高 |
对算力要求相对较低 | 对算力要求相对较高 |
传统的机器学习算法
类别 | 解决问题方向 | 核心算法 |
---|---|---|
监督式学习 | 分类、回归问题 | 线性回归、逻辑回归、线性判别分析、决策树、朴素贝叶斯、K临近、学习向量量化、支持向量机、随机森林、AdaBoost |
无监督式学习 | 聚类、异常识别 | k均值聚类、层次聚类、主要成分分析PCA、奇异值分解SVD |
强化学习 | 无数据自学习 | Q-learning |
深度学习算法
类别 | 代表算法 | 核心应用 |
---|---|---|
CNN卷积神经网络 | 图像识别、人脸识别 | |
RNN卷积神经网络 | 文本生成、语音识别、翻译、视频标记 | |
GANs生成对抗网络 | GAN,DCGAN | 生成数据集训集,文本到图像的转换,3D模型生成 |
RL强化学习 | Qlearning Expert Lteartion | 游戏机器人(游戏中用得多) |