AI系统-1AI的应用和历史

383 阅读35分钟

image.png

今年(2025年)过年期间,相信大家都被deepseek刷屏了。之前的ChatGPT大语言模型的智慧涌现能力,让时间看到机器人逼近奇点,突破图灵测试快成为了可能。而deepseek引入了深度思考模式以及广泛使用汉语进行训练,更加大大的增强了其逻辑思维能力。

image.png

这场AI模型大战可能最后比拼的是人类的语言和文字架构,而汉语是象形文字比英语的音形文字更加的适应于AI,因为英语大量的造新单词,从而之前的单词被抛弃无法传承知识,而且英语单词里面包含的信息密度比较低。当然最开始的时候26个英文字母更适合计算机技术的普及,因为输入容易,程序处理也容易,反而汉语输入法及显示排版要慢了很多年。但是进入AI时代,让机器有逻辑思维能力,就需要大模型Transformer中的注意力机制,也就是文字之间信息的关联性,AI也就是把这些有紧密关联的词汇进行了输出,从而人云亦云,变的好似一本正经的胡说八道,就是说了听的最多关联的话的缘故,那么回到汉语来说就是汉字之间新的单词可能是一个组合甚至是成语,还包含了原本每个汉字的语义,那么AI就能更容易的去理解思考。这放大了说其实中国一直是善于谋略的,英语国家更多的是实用主义。这一场AI技术革命,必将影响深远,而中国需要深度的参与。

image.png 最近另外一个比较热门的话题就是马斯克的政治改革,从财务入手使用AI进行分析,迅速找到一些资金使用的问题,fire掉无用的人,并且要组建一个AI系统去代替总统发布命令,也就是用机器去逐步取代政府,更加的透明高效,毫无疑问真这样做就是一场人类革命级别的变革,极大解放生产力。人类文明的进步就是逐步消灭阶级的过程,但是一直以来只是新人(大多数人)去替代旧的阶级,虽然也有进步,但是阶级还是存在的,原因就是这事是人去干的所谓人治。但是大胆的去想能不能交给机器,这里让机器当一个秘书也是不错的,就是出谋划策,决策还需要是人。另外博主关注中国的一个民科:张详前,他提出的东西比马斯克相对吻合并且极其的超前,别问原因,问就是他去过外星球,外星人教他的。。。他说外星人是无政府的,没有犯罪,因为部署了太空信息网的机器设备来进行管理,想了解可以自己去搜,不是这里的重点。这里要说的就是AI很重要,那么处在这个时代的我们就需要去多学习接触这些东西。

image.png

从本篇开始会参考华为2012实验室工作的ZOMI酱的《AI系统》资料,给大家科普下,另外加一些自己的见解,内容非常丰富,让大家基本都可以看懂。

参考: chenzomi12.github.io/01Introduct…

1. AI的应用

机器主要是由软硬件组成,AI就是软件里面的应用,但是要实现应用就需要底层软件和硬件提供足够的功能来满足,所以其技术的突破是软硬件甚至制造业共同发展的结果,这里我们会从整个AI技术栈的角度进行全方位的介绍。

这里我们首先感受下AI有什么用?

image.png

人工智能正在日益渗透到所有的技术领域,而深度学习(DL)是目前人工智能中最活跃的分支。深度学习在计算机视觉CV、自然语言处理NLP、语音识别Audio 这三大领域方向中都取得了显著的成果。

image.png 计算机视觉CV:

  • 物体检测与跟踪:深度学习算法已用于各种应用,例如自动驾驶汽车、无人机和安全摄像头的实时检测和跟踪对象。例如,自动驾驶汽车使用深度学习来识别和跟踪周围环境中的车辆、行人和其他物体。同样,配备深度学习算法的无人机可以实时检测和跟踪感兴趣的物体,例如野生动物或车辆。
  • 图像与视频识别:深度学习模型可以非常准确地识别和分类图像和视频,从而支持图像搜索引擎、内容审核和推荐系统等应用。例如,谷歌和 Bing 等搜索引擎使用深度学习算法,根据图像查询提供准确且相关的搜索结果。同样,Meta 和 YouTube 等内容审核平台使用深度学习来自动标记和删除不当内容。
  • 面部识别:深度学习算法可以高精度识别和匹配人脸,实现安全访问控制、监控甚至个性化营销等应用。例如,出于安全目的,机场和政府大楼使用面部识别来筛查乘客和员工。同样,零售商使用面部识别来分析客户行为和偏好,并提供个性化的购物体验。

image.png

深度学习是一种机器学习方法,它通过建立多层神经网络来模拟人脑的学习过程。NLP 则是一种人工智能技术,它研究如何让计算机更好地理解和处理自然语言。NLP 的基本概念主要包括文本处理和自然语言理解。

  • 文本处理:对文本数据进行的一系列处理过程,包括分词、词性标注、句法分析和语义分析等。这些处理过程可以帮助计算机更好地理解和处理自然语言文本数据。自然语言理解则是让计算机能够理解自然语言文本数据的含义和上下文信息,从而能够做出相应的响应和决策。
  • 词向量表示:词向量表示是将词语转化为计算机能够处理的数据格式。深度学习可以通过建立神经网络模型,利用大量语料库进行训练,从而学习到词向量表示。这种表示方式可以更好地捕捉词语的语义信息,为后续的自然语言处理任务提供更好的基础。
  • 文本分类与情感分析:深度学习可以通过建立卷积神经网络(CNN)或循环神经网络(RNN)等模型,对文本进行分类或情感分析。例如,利用 CNN 模型对文本进行分类,可以识别文本所属的类别;利用 RNN 模型进行情感分析,可以判断文本表达的情感倾向。
  • 机器翻译:机器翻译是 NLP 领域的一个重要应用,它是将一种自然语言文本自动翻译成另一种自然语言文本的过程。深度学习可以通过建立神经网络模型,利用大量双语语料库进行训练,从而实现高质量的机器翻译。

image.png

利用深度学习技术可以实现音频信号的分析、识别和合成等任务。

  • 音频信号分析:深度学习技术可以用于音频信号的分析,如音频分类、音频分割和音频降噪等。通过训练深度神经网络模型,可以提取音频信号的特征,并对音频进行分类或分割。此外,深度学习技术还可以应用于音频降噪,通过学习噪声模型和信号模型,实现对噪声的自动去除。
  • 语音识别:深度学习技术在语音识别领域取得了重大突破。通过使用深度神经网络模型,可以将语音信号转化为文本信息。深度学习模型可以自动学习语音信号的特征,并通过大规模的训练数据提高识别准确率。语音识别技术的应用包括语音助手、语音翻译和语音控制等。
  • 音频合成:深度学习技术可以用于音频合成,如语音合成和音乐合成等。通过训练深度神经网络模型,可以生成逼真的语音合成结果。此外,深度学习技术还可以用于音乐合成,通过学习音乐的模式和结构,生成新的音乐作品。
  • 端到端的音频处理:传统的音频处理方法通常需要多个步骤和模块,而深度学习技术可以实现端到端的音频处理。通过训练端到端的深度学习模型,可以直接从原始音频信号中提取特征并完成音频处理任务,简化了处理流程并提高了效率。
  • 跨模态音频处理:深度学习技术可以实现跨模态的音频处理,将音频信号与其他模态的信息进行融合和处理。例如,可以将音频信号与图像或文本信息进行联合处理,实现更加丰富和准确的音频分析和合成。

其他AI 场景与行业应用:

  • 金融行业:金融行业一直是人工智能技术的重要应用场景。通过深度学习技术,可以实现对客户信用评估、风险管理、反欺诈等方面的智能化分析。目前,我国多家金融机构已经在尝试将 AI 应用于金融行业,如中国银行、中国平安、招商银行等。这些金融机构通过 AI 实现对客户数据的快速处理和分析,提高业务效率,降低风险。
  • 医疗行业:医疗行业一直是人工智能技术的重要应用场景。通过深度学习技术,可以实现对疾病诊断、药物研发、病历管理等方面的智能化分析。目前,我国多家医疗机构已经在尝试将 AI 模型应用于医疗行业,如清华大学、北京大学、复旦大学等。这些医疗机构通过 AI 实现对病历数据的快速处理和分析,提高疾病诊断准确率,降低药物研发成本。
  • 教育行业:教育行业一直是人工智能技术的重要应用场景。通过深度学习技术,可以实现对学生的个性化教育、智能辅导、智能评估等方面的智能化分析。通过 AI 的应用实现对学生的个性化教育,提高学习效果,降低教育成本。
  • 互联网行业:谷歌、百度、微软必应(Bing)等公司通过人工智能技术进行更好的文本向量化,提升检索质量,同时人工智能进行点击率预测,获取更高的利润。
  • 自动驾驶:通过深度学习,自动驾驶车辆能够更准确地识别道路上的物体,更安全地执行驾驶决策,更稳定地控制车辆的行驶。如通过物体检测模型能够进行更好的路标检测,道路线检测进而增强自动驾驶方案。同时,深度学习还能够提高自动驾驶车辆的适应性和智能化水平,使其能够更好地应对复杂的交通环境和多种驾驶场景。在未来,随着自动驾驶技术的不断发展,深度学习将在其中发挥越来越重要的作用,推动自动驾驶技术的进步和应用。

如此多的应用领域,其就像互联网数字化的浪潮一样,对我们的生活会造成很大冲击,同时也孕育了大量机会。

2. AI的历史

image.png

说AI的历史,其实会发现科学从未停止过造人这个具体诱惑的方向,从我们常说的以人为本,其实科学也是为人类服务的,我们天然的研究对象就是我们自己,例如医学或者道家的气功,获取其他的工业科技等都是代替人或者服务人的。从远古神话里面女娲或者上帝可以造人,到古典哲学家试图将人类的思维过程描述为对符号的机械操作,再到近代(二战)数学计算机的发明来构造电子大脑,探索一直未停止。

详细参考维基百科: zh.wikipedia.org/wiki/%E4%BA… 知乎:zhuanlan.zhihu.com/p/375549477

这里我们挑一些主要近代的发展进行说明:

2.1 人工智能的诞生1943-1956

20世纪40年代和50年代,来自不同领域(数学,心理学,工程学,经济学和政治学)的一批科学家开始探讨制造人工大脑的可能性。1956年,人工智能被确立为一门学科。

Walter Pitts和Warren McCulloch分析了理想化的人工神经元网络,并且指出了它们进行简单逻辑运算的机制。他们是最早描述所谓“神经网络”的学者。[31]马文·明斯基是他们的学生,当时是一名24岁的研究生。1951年他与Dean Edmonds一道建造了第一台神经网络机,称为SNARC。在接下来的五十年中,明斯基是AI领域最重要的领导者和创新者之一

image.png

1950年,图灵发表了一篇划时代的论文,文中预言了创造出具有真正智能的机器的可能性。[34]由于注意到“智能”这一概念难以确切定义,他提出了著名的图灵测试:如果一台机器能够与人类展开对话(通过电传设备)而不能被辨别出其机器身份,那么称这台机器具有智能。这一简化使得图灵能够令人信服地说明“思考的机器”是可能的。

50年代中期,随着数位计算机的兴起,一些科学家直觉地感到可以进行数字操作的机器也应当可以进行符号操作,而符号操作可能是人类思维的本质。这是创造智能机器的一条新路。之后就是使用计算机编程来实现一些智能。

1956年达特矛斯会议[40]的组织者是马文·明斯基约翰·麦卡锡和另两位资深科学家克劳德·香农以及内森·罗彻斯特(Nathan Rochester),后者来自IBM。会议提出的断言之一是“学习或者智能的任何其他特性的每一个方面都应能被精确地加以描述,使得机器可以对其进行模拟。”

1956年达特矛斯会议上AI的名称和任务得以确定,同时出现了最初的成就和最早的一批研究者,因此这一事件被广泛承认为AI诞生的标志。[

2.3 黄金年代1956-1974

image.png

1957 年,Frank Rosenblat 发明感知机(Perceptron)[[4]]。奠定了之后 AI 的基本结构,其计算以矩阵乘加运算为主,进而影响了后续人工智能芯片和系统的基本算子类型,例如:英伟达的新款 GPU 就有为矩阵计算设计的专用张量核(Tensor Core)。

1959年,Arthur Samuel给机器学习了一个明确概念:Field of study that gives computers the ability to learn without being explicitly programmed.(机器学习是研究如何让计算机不需要显式的程序也可以具备学习的能力)。

1960 年,Bernard Widrow[[5]] 和 Hoff 发明了感知器 Adaline/Madaline,首次尝试把线性层叠加整合为多层感知器网络。感知器本质上是一种线性模型,可以对输入的训练集数据进行二分类,且能够在训练集中自动更新权值。感知器的提出吸引了大量科学家对人工神经网络研究的兴趣,对神经网络的发展具有里程碑式的意义。为之后的多层 AI 的网络结构奠定了基础,进而后期不断衍生更深层的模型,产生大模型和模型并行等系统问题。

1961年,Leonard Merrick Uhr 和 Charles M Vossler发表了题目为A Pattern Recognition Program That Generates, Evaluates and Adjusts its Own Operators 的模式识别论文,该文章描述了一种利用机器学习或自组织过程设计的模式识别程序的尝试。

1965年,古德(I. J. Good)发表了一篇对人工智能未来可能对人类构成威胁的文章,可以算“AI威胁论”的先驱。他认为机器的超级智能和无法避免的智能爆炸最终将超出人类可控范畴。后来著名科学家霍金、发明家马斯克等人对人工智能的恐怖预言跟古德半个世界前的警告遥相呼应。

image.png

1969年,“符号主义”代表人物马文·明斯基(Marvin Minsky)的著作《感知器》提出对XOR线性不可分的问题:单层感知器无法划分XOR原数据,解决这问题需要引入更高维非线性网络(MLP, 至少需要两层),但多层网络并无有效的训练算法。这些论点给神经网络研究以沉重的打击,神经网络的研究走向长达10年的低潮时期。

2.4 第一次AI低谷1974-1980

70年代初,AI遭遇了瓶颈。即使是最杰出的AI程序也只能解决它们尝试解决的问题中最简单的一部分,也就是说所有的AI程序都只是“玩具”。[73]AI研究者们遭遇了无法克服的基础性障碍,尽管某些局限后来被成功突破。[74]

  • 计算机的运算能力。当时的计算机有限的内存和处理速度不足以解决任何实际的AI问题。例如,罗斯·奎利恩(Ross Quillian)在自然语言方面的研究结果只能用一个含二十个单词的词汇表进行演示,因为内存只能容纳这么多。[75]1976年,汉斯·莫拉维克指出,计算机离智能的要求还差上百万倍。他做了个类比:人工智能需要强大的计算能力,就像飞机需要大功率动力一样,低于一个门限时是无法实现的;但是随着能力的提升,问题逐渐会变得简单。[76]
  • 计算复杂性和指数爆炸。1972年理查德·卡普根据史提芬·古克于1971年提出的Cook-Levin理论证明,许多问题只可能在指数时间内获解(即,计算时间与输入规模的幂成正比)。除了那些最简单的情况,这些问题的解决需要近乎无限长的时间。这就意味着AI中的许多玩具程序恐怕永远也不会发展为实用的系统。[77]
  • 常识与推理。许多重要的AI应用,例如机器视觉自然语言,都需要大量对世界的认识信息。程序应该知道它在看什么,或者在说些什么。这要求程序对这个世界具有儿童水平的认识。研究者们很快发现这个要求太高了:1970年没人能够做出如此巨大的数据库,也没人知道一个程序怎样才能学到如此丰富的信息。[78]
  • 莫拉维克悖论。证明定理和解决几何问题对计算机而言相对容易,而一些看似简单的任务,如人脸识别或穿过屋子,实现起来却极端困难。这也是70年代中期机器视觉机器人方面进展缓慢的原因。[79]
  • 框架和资格问题。采取逻辑观点的AI研究者们(例如John McCarthy)发现,如果不对逻辑的结构进行调整,他们就无法对常见的涉及自动规划(planning or default reasoning)的推理进行表达。为解决这一问题,他们发展了新逻辑学(如非单调逻辑(non-monotonic logics)和模态逻辑(modal logics))。[80]

1974年,哈佛大学沃伯斯(Paul Werbos)博士论文里,首次提出了通过误差的反向传播(BP)来训练人工神经网络,但在该时期未引起重视。

image.png

BP算法的基本思想不是(如感知器那样)用误差本身去调整权重,而是用误差的导数(梯度)调整。通过误差的梯度做反向传播,更新模型权重, 以下降学习的误差,拟合学习目标,实现'网络的万能近似功能'的过程。

2.5 应用繁荣1980—1987

image.png

在80年代,一类名为“专家系统”的AI程序开始为全世界的公司所采纳,而“知识处理”成为了主流AI研究的焦点。日本政府在同一年代积极投资AI以促进其第五代计算机工程。80年代早期另一个令人振奋的事件是John Hopfield和David Rumelhart使联结主义重获新生。AI再一次获得了成功。

专家系统仅限于一个很小的知识领域,从而避免了常识问题;其简单的设计又使它能够较为容易地编程实现或修改。总之,实践证明了这类程序的实用性。直到现在AI才开始变得实用起来。智能可能需要建立在对分门别类的大量知识的多种处理方法之上。

1981年,日本经济产业省拨款八亿五千万美元支持第五代计算机项目。其目标是造出能够与人对话,翻译语言,解释图像,并且像人一样推理的机器

image.png

1982年,物理学家John Hopfield证明一种新型的神经网络(现被称为“Hopfield网络”)能够用一种全新的方式学习和处理信息。大约在同时(早于Paul Werbos),David Rumelhart推广了反向传播算法,一种神经网络训练方法。这些发现使1970年以来一直遭人遗弃的联结主义重获新生。[115][117]

  • 1983年,Terrence Sejnowski, Hinton等人发明了玻尔兹曼机(Boltzmann Machines),也称为随机霍普菲尔德网络,它本质是一种无监督模型,用于对输入数据进行重构以提取数据特征做预测分析。
  • 1985年,朱迪亚·珀尔提出贝叶斯网络(Bayesian network),他以倡导人工智能的概率方法和发展贝叶斯网络而闻名,还因发展了一种基于结构模型的因果和反事实推理理论而受到赞誉。

1986年由Rumelhart和心理学家James McClelland主编的两卷本论文集“分布式并行处理”问世,这一新领域从此得到了统一和促进。90年代神经网络获得了商业上的成功,它们被应用于光字符识别和语音识别软件。

image.png

1986年,辛顿(Geoffrey Hinton)等人先后提出了多层感知器(MLP)与反向传播(BP)训练相结合的理念(该方法在当时计算力上还是有很多挑战,基本上都是和链式求导的梯度算法相关的),这也解决了单层感知器不能做非线性分类的问题,开启了神经网络新一轮的高潮。

2.6 第二次AI低谷1987—1993

1987年AI硬件市场需求的突然下跌。Apple和IBM生产的台式机性能不断提升。

image.png

1989年,LeCun (CNN之父) 结合反向传播算法与权值共享的卷积神经层发明了卷积神经网络(Convolutional Neural Network,CNN),并首次将卷积神经网络成功应用到美国邮局的手写字符识别系统中。

卷积神经网络通常由输入层、卷积层、池化(Pooling)层和全连接层组成。卷积层负责提取图像中的局部特征,池化层用来大幅降低参数量级(降维),全连接层类似传统神经网络的部分,用来输出想要的结果。

2.7 AI分支发展:1993—2011

现已年过半百的AI终于实现了它最初的一些目标。它已被成功地用在技术产业中,不过有时是在幕后。这些成就有的归功于计算机性能的提升,有的则是在高尚的科学责任感驱使下对特定的课题不断追求而获得的。不过,至少在商业领域里AI的声誉已经不如往昔了。“实现人类水平的智能”这一最初的梦想曾在60年代令全世界的想象力为之着迷,其失败的原因至今仍众说纷纭。各种因素的合力将AI拆分为各自为战的几个子领域,有时候它们甚至会用新名词来掩饰“人工智能”这块被玷污的金字招牌。[129]AI比以往的任何时候都更加谨慎,却也更加成功。

这其实人类最初的梦想是AI,后来衍生出了计算机互联网等这些技术。

智能代理是一个系统,它感知周围环境,然后采取措施使成功的几率最大化。最简单的智能代理是解决特定问题的程序。已知的最复杂的智能代理是理性的,会思考的人类。

数学语言的共享不仅使AI可以与其他学科展开更高层次的合作,而且使研究结果更易于评估和证明。AI已成为一门更严格的科学分支。

90年代的许多AI研究者故意用其他一些名字称呼他们的工作,例如信息学知识系统认知系统计算智能。部分原因是他们认为他们的领域与AI存在根本的不同,不过新名字也有利于获取经费。至少在商业领域,导致AI之冬的那些未能兑现的承诺仍然困扰着AI研究,正如New York Times在2005年的一篇报道所说:“计算机科学家和软件工程师们避免使用人工智能一词,因为怕被认为是在说梦话。

1968年亚瑟·克拉克史丹利·库柏力克创作的《“2001太空漫游”》中设想2001年将会出现达到或超过人类智能的机器。他们创造的这一名为HAL-9000的角色是以科学事实为依据的:当时许多顶级AI研究者相信到2001年这样的机器会出现。但是2001并未出现。

image.png

1995年,Cortes和Vapnik提出联结主义经典的支持向量机(Support Vector Machine),它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中。

image.png

1997年,Sepp Hochreiter 和 Jürgen Schmidhuber提出了长短期记忆神经网络(LSTM)。

LSTM是一种复杂结构的循环神经网络(RNN),结构上引入了遗忘门、输入门及输出门:输入门决定当前时刻网络的输入数据有多少需要保存到单元状态,遗忘门决定上一时刻的单元状态有多少需要保留到当前时刻,输出门控制当前单元状态有多少需要输出到当前的输出值。这样的结构设计可以解决长序列训练过程中的梯度消失问题。

image.png

2003年,Google公布了3篇大数据奠基性论文,为大数据存储及分布式处理的核心问题提供了思路:非结构化文件分布式存储(GFS)、分布式计算(MapReduce)及结构化数据存储(BigTable),并奠定了现代大数据技术的理论基础。

2005 年,波士顿动力公司推出一款动力平衡四足机器狗,有较强的通用性,可适应较复杂的地形。

image.png

2006年,杰弗里·辛顿以及他的学生鲁斯兰·萨拉赫丁诺夫正式提出了深度学习的概念(Deeping Learning),开启了深度学习在学术界和工业界的浪潮。2006年也被称为深度学习元年,杰弗里·辛顿也因此被称为深度学习之父。

image.png

深度学习的概念源于人工神经网络的研究,它的本质是使用多个隐藏层网络结构,通过大量的向量计算,学习数据内在信息的高阶表示。

2.8 深度学习,大数据和通用人工智能:2011至今

进入21世纪,得益于大数据和计算机技术的快速发展,许多先进的机器学习技术成功应用于经济社会中的许多问题。到2016年,AI相关产品、硬件、软件等的市场规模已经超过80亿美元,纽约时报评价道AI已经到达了一个热潮。大数据应用也开始逐渐渗透到其他领域,例如生态学模型训练、经济领域中的各种应用、医学研究中的疾病预测及新药研发等。深度学习(特别是深度卷积神经网络和循环网络)更是极大地推动了图像和视频处理、文本分析、语音识别等问题的研究进程。

拥有海量数据和计算能力后,AI才重出江湖。就是那句AI=数据+算法+算力。

深度学习

[编辑]

主条目:深度学习

深度学习是机器学习的一个分支,它通过一个有着很多层处理单元的深层网络对数据中的高级抽象进行建模。根据全局逼近原理(Universal approximation theorem),对于神经网络而言,如果要拟合任意连续函数,深度性并不是必须的,即使一个单层的网络,只要拥有足够多的非线性激活单元,也可以达到拟合目的。但是,目前深度神经网络得到了更多的关注,这主要是源于其结构层次性,能够快速建模更加复杂的情况,同时避免浅层网络可能遭遇的诸多缺点。

然而,深度学习也有自身的缺点。以循环神经网络为例,一个最常见的问题是梯度消失问题(沿着时间序列反向传播过程中,梯度逐渐减小到0附近,造成学习停滞)。为了解决这些问题,很多针对性的模型被提出来,例如LSTM(长短期记忆网络,早在1997年就已经提出,最近随着RNN的大火,又重新进入大众视野)、GRU(门控循环神经单元)等等。

现在,最先进的神经网络结构在某些领域已经能够达到甚至超过人类平均准确率,例如在计算机视觉领域,特别是一些具体的任务上,比如MNIST数据集(一个手写数字识别数据集)、交通信号灯识别等。再如游戏领域,Google的deepmind团队研发的AlphaGo,在问题搜索复杂度极高的围棋上,已经打遍天下无敌手。

image.png

2012年,Hinton和他的学生Alex Krizhevsky设计的AlexNet神经网络模型在ImageNet竞赛大获全胜,这是史上第一次有模型在 ImageNet 数据集表现如此出色,并引爆了神经网络的研究热情。

AlexNet是一个经典的CNN模型,在数据、算法及算力层面均有较大改进,创新地应用了Data Augmentation、ReLU、Dropout和LRN等方法,并使用GPU加速网络训练。

大数据

[编辑]

主条目:大数据

大数据是指在一定时间内无法被传统软件工具捕获、管理和处理的数据集合,需要新的处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应结构化数据的高增长率和多样化的信息资产。在Victor Meyer Schonberg和Kenneth Cooke撰写的《大数据时代》中,大数据意味着所有数据都用于分析,而不是随机分析(抽样调查)。大数据的5V特性(由IBM提出):Volume(数量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracity(真实)。大数据技术的战略意义不在于掌握庞大的数据信息,而在于专门研究这些有意义的数据。换言之,如果将大数据比喻为一个行业,那么这个行业实现盈利的关键是增加数据的“处理能力”,通过“处理”实现数据的“增值”。

image.png 2012年,谷歌正式发布谷歌知识图谱Google Knowledge Graph),它是Google的一个从多种信息来源汇集的知识库,通过Knowledge Graph来在普通的字串搜索上叠一层相互之间的关系,协助使用者更快找到所需的资料的同时,也可以知识为基础的搜索更近一步,以提高Google搜索的质量。

image.png 知识图谱是结构化的语义知识库,是符号主义思想的代表方法,用于以符号形式描述物理世界中的概念及其相互关系。其通用的组成单位是RDF三元组(实体-关系-实体),实体间通过关系相互联结,构成网状的知识结构。

强化学习与大型语言模型

[编辑]

主条目:通用人工智能

强化学习是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。强化学习是除了监督学习和非监督学习之外的第三种基本的机器学习方法。

2013年,Google的Tomas Mikolov 在《Efficient Estimation of Word Representation in Vector Space》提出经典的 Word2Vec模型用来学习单词分布式表示,因其简单高效引起了工业界和学术界极大的关注。

image.png

Word2Vec基本的思想是学习每个单词与邻近词的关系,从而将单词表示成低维稠密向量。通过这样的分布式表示可以学习到单词的语义信息,直观来看,语义相似的单词的距离相近。

2014年,Goodfellow及Bengio等人提出生成对抗网络(Generative Adversarial Network,GAN),被誉为近年来最酷炫的神经网络。

GAN是基于强化学习(RL)思路设计的,由生成网络(Generator, G)和判别网络(Discriminator, D)两部分组成, 生成网络构成一个映射函数G: Z→X(输入噪声z, 输出生成的伪造数据x), 判别网络判别输入是来自真实数据还是生成网络生成的数据。在这样训练的博弈过程中,提高两个模型的生成能力和判别能力。

2015年,为纪念人工智能概念提出60周年,深度学习三巨头LeCun、Bengio和Hinton(他们于2018年共同获得了图灵奖)推出了深度学习的联合综述《Deep learning》。

《Deep learning》文中指出深度学习就是一种特征学习方法,把原始数据通过一些简单的但是非线性的模型转变成为更高层次及抽象的表达,能够强化输入数据的区分能力。通过足够多的转换的组合,非常复杂的函数也可以被学习。

2015年,谷歌开源TensorFlow框架。它是一个基于数据流编程(dataflow programming)的符号数学系统,被广泛应用于各类机器学习(machine learning)算法的编程实现,其前身是谷歌的神经网络算法库DistBelief。

2015年,马斯克等人共同创建OpenAI。它是一个非营利的研究组织,使命是确保通用人工智能 (即一种高度自主且在大多数具有经济价值的工作上超越人类的系统)将为全人类带来福祉。其发布热门产品的如:OpenAI Gym,GPT等。

  • 2016年,谷歌提出联邦学习方法,它在多个持有本地数据样本的分散式边缘设备或服务器上训练算法,而不交换其数据样本。

联邦学习保护隐私方面最重要的三大技术分别是: 差分隐私 ( Differential Privacy )、同态加密 ( Homomorphic Encryption )和 隐私保护集合交集 ( Private Set Intersection ),能够使多个参与者在不共享数据的情况下建立一个共同的、强大的机器学习模型,从而解决数据隐私、数据安全、数据访问权限和异构数据的访问等关键问题。

image.png

2016年,AlphaGo与围棋世界冠军、职业九段棋手李世石进行围棋人机大战,以4比1的总比分获胜。

AlphaGo是一款围棋人工智能程序,其主要工作原理是“深度学习”,由以下四个主要部分组成:策略网络(Policy Network)给定当前局面,预测并采样下一步的走棋;快速走子(Fast rollout)目标和策略网络一样,但在适当牺牲走棋质量的条件下,速度要比策略网络快1000倍;价值网络(Value Network)估算当前局面的胜率;蒙特卡洛树搜索(Monte Carlo Tree Search)树搜索估算每一种走法的胜率。

2018年,Google提出论文《Pre-training of Deep Bidirectional Transformers for Language Understanding》并发布Bert(Bidirectional Encoder Representation from Transformers)模型,成功在 11 项 NLP 任务中取得 state of the art 的结果。

image.png

BERT是一个预训练的语言表征模型,可在海量的语料上用无监督学习方法学习单词的动态特征表示。它基于Transformer注意力机制的模型,对比RNN可以更加高效、能捕捉更长距离的依赖信息,且不再像以往一样采用传统的单向语言模型或者把两个单向语言模型进行浅层拼接的方法进行预训练,而是采用新的masked language model(MLM),以致能生成深度的双向语言表征。

image.png 2022年,人工智能聊天机器人程序ChatGPT基于GPT-3.5架构的大型语言模型并通过强化学习进行训练,以文字方式交互,可通过人类自然对话方式进行交互,还可用于相对复杂的语言工作,包括自动文本生成、自动问答、自动摘要等在内的多种任务。

在2023年3月,GPT-4正式推出,进一步加强大型语言模型的推理能力。2023年8月,中国百度公司向公众开放使用文心一言,让中国内地民众都可以使用内地版的大型语言模型。2025年1月,深度求索推出著名的大型语言模型的开源模型,并使用新的算法减低训练成本。

后记:

本篇是AI系统系列的开篇,整体参考ZOMI酱的资料,虽然基本都是入门级的介绍,但是也非常的庞杂,毕竟无数人才发展了几十年,而且是AI这种顶尖技术。