1: 算法
1.1 SIFT 算法
最初由David Lowe于1999年首次提出,并在2004年发表了相关的论文
SIFT(Scale-Invariant Feature Transform)算法是一种用于在图像中检测关键点并提取特征的经典计算机视觉算法。SIFT算法具有以下特点和步骤:
- 尺度不变性:SIFT算法能够在不同尺度下检测到相同的特征点,这使得它对于对象在图像中的不同尺度、旋转和视角变化具有很好的鲁棒性。
- 旋转不变性:SIFT算法还可以检测出图像中具有不同旋转角度的特征点,并提取对旋转不变的特征描述子。
- 关键点检测:SIFT算法首先通过高斯滤波和DoG(Difference of Gaussians)方法来检测出图像中的关键点,这些关键点通常位于图像中的边缘、角点等显著位置。
- 方向分配:对于每个关键点,SIFT算法会计算其主方向,以确保特征描述子具有旋转不变性。
- 特征描述子:在确定了关键点的位置和方向后,SIFT算法会根据关键点周围的图像区域计算其特征描述子,这些描述子可以表示关键点周围的纹理和结构信息。
SIFT算法在图像匹配、目标识别、图像拼接等领域有着广泛的应用,并且在很长一段时间内一直是计算机视觉领域的经典算法之一。然而,由于SIFT算法的专利限制和计算复杂度较高,近年来逐渐被一些新的算法所取代,例如**SURF(Speeded-Up Robust Features)、ORB(Oriented FAST and Rotated BRIEF)**等。
1.2 点云算法
PointNet系列算法在2017年提出,为基于点云的深度学习应用开辟了新的方向。
点云算法是一种在三维空间中对物体或场景进行建模和分析的算法。点云通常是由大量的三维点组成,每个点都包含了位置信息和可能的其他属性,例如颜色、法向量等。点云算法可以用于从扫描仪、激光雷达、相机等设备获取的数据中提取有用的信息,或者用于三维场景重建、目标识别、位姿估计等应用。
在点云处理领域,有一些常见的算法和技术,例如:
- 点云滤波:用于去除噪声、平滑点云数据,常见的滤波方法包括统计滤波、高斯滤波、移动平均滤波等。
- 点云配准:将多个点云数据进行对齐,以便于后续的融合或比较分析。常见的配准方法包括ICP(Iterative Closest Point)算法、特征匹配等。
- 特征提取与描述:从点云数据中提取出有意义的特征,并生成描述子以进行特征匹配和识别。
- 表面重建:基于点云数据生成三维物体的表面模型,包括网格重建、体素化等方法。
- 目标识别与分割:在点云中识别出属于不同物体或类别的部分,进行物体分割和识别。
除此之外,近年来深度学习技术的发展也为点云处理领域带来了新的发展,例如PointNet、PointNet++、KPConv等基于神经网络的点云处理算法,这些算法在点云的分类、分割、语义分割等任务上取得了很好的效果。
总的来说,点云算法在三维数据处理、计算机视觉和机器人领域具有广泛的应用,它们能够从丰富的三维信息中提取出有用的特征,并为后续的分析和决策提供支持。
1.3 神经网络中的算子
神经网络中的算子指的是网络层中执行特定数学运算的部分,也可以称为操作符(operator)或者函数。在深度学习中,常见的神经网络算子包括以下几种:
- 卷积(Convolution):卷积层是神经网络中常用的算子,用于提取输入数据的特征。它通过滤波器与输入数据进行卷积操作,从而实现特征提取。
- 池化(Pooling):池化层用于减少特征图的尺寸,同时保留最显著的特征。常见的池化操作包括最大池化和平均池化。
- 全连接(Fully Connected):全连接层将输入数据与权重矩阵相乘,并加上偏置项,实现从输入到输出的全连接映射。
- 激活函数(Activation Function):激活函数是一类非线性函数,用于引入网络的非线性特性,常见的激活函数包括ReLU、Sigmoid和Tanh等。
- 批量归一化(Batch Normalization):批量归一化层用于加速神经网络的收敛过程,并且有正则化的效果,有利于提高模型的泛化能力。
- 循环神经网络单元(Recurrent Neural Network Unit, RNN Unit):RNN单元用于处理序列数据,通过记忆之前的信息来影响后续的输出。
此外,还有许多其他的神经网络算子,如残差连接(Residual Connection)、注意力机制(Attention Mechanism)等,这些算子都在神经网络的不同层中发挥着重要的作用。随着深度学习领域的不断发展,也会涌现出新的神经网络算子,以适应不同类型的数据和任务。
1.4 Lenet算法与模型
LeNet是由Yann LeCun等人于1998年提出的卷积神经网络(CNN)架构,是深度学习领域中的经典之作。它被设计用来识别手写数字图像,是早期用于手写数字识别的神经网络结构之一。
LeNet的网络结构包括七层,其中包括三个卷积层、两个子采样层和两个全连接层。其基本结构如下:
-
卷积层(Convolutional Layer):LeNet使用了三个卷积层,每个卷积层都包括卷积操作、非线性激活函数和池化操作。卷积操作通过卷积核提取输入特征,非线性激活函数如Sigmoid或Tanh增加网络的非线性表达能力,池化操作则用于降采样和特征压缩。
-
全连接层(Fully Connected Layer):LeNet有两个全连接层,用于将卷积层提取的特征进行分类和识别。全连接层通常包括多个神经元,用于学习输入数据的复杂模式。
-
子采样层(Subsampling Layer):在卷积层之后的子采样层用于对特征图进行降维,以减少参数数量、减轻过拟合,并提高模型的鲁棒性。
LeNet的设计在当时为图像识别领域树立了标杆,它展示了卷积神经网络在图像识别任务中的强大能力。虽然LeNet的结构相对简单,但它奠定了卷积神经网络在计算机视觉领域的基础,为后续更复杂的深度学习模型奠定了基础。
1.5 派单系统相关的算法
派单系统通常涉及到调度算法、路径规划算法以及实时决策算法等。这些算法的设计旨在有效地分配任务、规划最佳路径并实时做出决策,以提高运输效率和客户满意度。
-
调度算法:涉及如何将任务合理地分配给不同的运输工具或司机。常见的调度算法包括遗传算法、模拟退火算法、禁忌搜索算法等,它们旨在找到最优的任务分配方案,以最大化资源利用率或者最小化整体成本。
-
路径规划算法:用于确定每个派送任务的最佳路线,以减少行驶距离和时间成本。传统的路径规划算法包括Dijkstra算法、A*算法等,用于在地图网络中找到最短路径或最优路径。近年来,基于深度学习的路径规划算法也逐渐得到应用,能够更好地适应复杂的城市道路情况。
-
实时决策算法:在派单过程中,需要对实时的交通状况、订单情况进行决策。这包括实时动态规划、实时路径 replanning 等算法,以应对交通堵塞、订单变更等突发情况,确保派送效率和服务质量。
-
机器学习算法:近年来,一些派单系统也开始引入机器学习算法,通过对历史数据的分析和学习,优化派单策略、预测交通状况等,从而提高系统的智能化水平。
综上所述,派单系统涉及的算法包括调度算法、路径规划算法、实时决策算法以及机器学习算法等,这些算法相互配合,共同为高效的派单和运输提供支持。
1.6 具身智能(下面的内容是我找的知乎上面的)
Embodied AI = Embodied Intelligence = 具象AI = 具身智能
Internet AI = Disembodied AI = 非具身智能=离身智能
具体点说,像人一样能与环境交互感知,自主规划、决策、行动、执行能力的机器人/仿真人(指虚拟环境中)是AI的终极形态,我们暂且称之为“具身智能机器人”。它的实现包含了人工智能领域内诸多的技术,例如计算机视觉、自然语言处理、机器人学等。要想全面理解认识人工智能是很困难的。
全面认识人工智能之所以困难,是有客观原因的。
其一、人工智能是一个非常广泛的领域。当前人工智能涵盖很多大的学科,我把它们归纳为六个:
(1)计算机视觉(暂且把模式识别,图像处理等问题归入其中)、
(2)自然语言理解与交流(暂且把语音识别、合成归入其中,包括对话)、
(3)认知与推理(包含各种物理和社会常识)、
(4)机器人学(机械、控制、设计、运动规划、任务规划等)、
(5)博弈与伦理(多代理人agents的交互、对抗与合作,机器人与社会融合等议题)。
(6)机器学习(各种统计的建模、分析工具和计算的方法),
这些领域目前还比较散,目前它们正在交叉发展,走向统一的过程中。
李飞飞:“具身的含义不是身体本身,而是与环境交互以及在环境中做事的整体需求和功能。”(好厉害)
2: 大模型
2.1 模型原理
所谓模型通俗的讲是一个基于神经网络构建好的一个处理器,它能够根据输入产生相应的预测或者输出内容。而这个模型中是有多层神经网络,每层神经网络有很多神经元,而每个神经元可以理解为一个函数y= F(x),它可以通过调整参数来控制输出。
一个大模型具备600亿参数,或者千亿的参数,这个就是所谓的大,指代的是参数量上亿级别,而这些参数就是存储知识和信息的变量,参数越多,记住的知识越多,输出结果更准确。
2.2 大模型原理(下面知乎中看的)
大语言模型是基于transfrmer架构,它是一种神经网络架构,是一个专门用于自然语言处理的编码-解码器架构。也是目前AIGC底层最核心的深度学习模型类型。核心能力就是将输入的单词以向量的形式传递给该神经网络,然后通过该网络的编码解码以及自注意力机制(self-attention),建立起每个单词之间联系的权重,宏观上讲,在基于该架构进行训练时,输入的每句话中的每个单词都会和已经编码在模型中的单词进行相关性的计算,并把相关性又编码叠加在每个单词中。
所以说大语言模型其实是一个概率模型,它只是基于你的输入预测你的输出。而并不是去数据库检索数据。包括“1+1=2”这样的数学问题也是通过投喂数据训练出来的,只是因为1+1接下来出现2的概率最大,所以大模型才会输出答案为2。
2.3 大模型的特征
第一个特征就是幻觉,不稳定(创造性)。因为大模型是概率模型,只是预测回答。所以回答并非百分百正确,哪怕是模型不知道的问题,比如某个企业内部的信息,并没有投喂给他,它也会按照概率去编造一个信息出来。所以大模型的答案不能百分百全信,但是这也算是大模型的一个优势所在,因此对于创造性的任务,大模型就很擅长,比如写小说。
第二个特征知识欠缺。chatgpt的数据截止2021年9月。那在这之后的信息它无从知晓。所以预训练模型所掌握的知识就只能停留在某一刻为止。同样的,一些非公开数据,比如企业内部数据,应用内数据等,也是无法被gpt所知晓的。
2.4 总结
大模型无法独立思考。