厦门大学:《DeepSeek的技术创新分析、启发及原理验证:谈强化学习的影响与AI的发展趋势》

201 阅读3分钟

大家好,我是吾鳴。

之前吾鳴给大家分享过由厦门大学出版的四份报告,它们分别是:

《大模型概念、技术与应用实践》

《DeepSeek大模型赋能高校教学和科研》

《DeepSeek大模型及其企业应用实践》

《DeepSeek大模型赋能政府数字化转型》

今天吾鳴给大家分享一份也是由厦门大学出版的报告——《DeepSeek的技术创新分析、启发及原理验证:谈强化学习的影响与AI的发展趋势》。报告主要包含AI发展简史、AI训练的基本原理、Transformer架构、DeepSeek技术创新、强化学习、AI的不足与边界以及AGI的实现这7大部分。报告一共有34页PPT,文末有完整版下载地址。

内容摘要

AI的发展简史
从1950年代图灵测试提出人工智能概念,到2020年代大语言模型革命,AI经历了多个关键阶段:专家系统(1960s-70s)、神经网络复兴(1980s-90s)、深度学习突破(2010s)。重要里程碑包括AlphaGo击败人类棋手(2015)、Transformer架构提出(2017)、GPT系列模型迭代(如GPT-3、GPT-4),以及DeepSeek等新型模型的崛起。OpenAI的成立与转型、谷歌DeepMind的技术突破,共同推动了AI能力的全面提升。

AI训练的基本原理
传统算法基于固定规则处理数据,机器学习通过数据寻找规则(如if-else逻辑),而大语言模型(LLM)通过多层函数堆叠(如f(f(x)...)实现复杂模式学习。LLM的核心是自动发现数据中的潜在规律,而非依赖人工定义的逻辑。

AI上半场——Transformer架构
Transformer架构通过自注意力机制彻底改变了自然语言处理。其核心应用包括预训练模型(如GPT)、模型微调、行业垂直模型(如医疗、金融)、图像/视频生成模型,以及开源与闭源模型的竞争。该架构为ChatGPT等应用的爆发奠定了基础。

AI中场——DeepSeek技术创新
DeepSeek提出多项前沿技术:混合专家系统(MoE)提升模型容量,低秩注意力机制(MLA)优化计算效率,多token预测增强推理能力,FP8混合精度降低算力消耗,纯强化学习(无监督微调)实现端到端训练。其模型(如DeepSeek-v3、R1)在开源生态中强调推理透明化,并推动低成本推理服务(如手机端部署),挑战传统闭源模型的商业逻辑。

AI下半场——强化学习
强化学习以“无限试错+自我奖励”为核心,通过状态(S)、动作(A)、奖励(R)的交互优化模型行为。DeepSeek-R1通过数学题和逻辑问题验证其推理能力,例如温度计算、鸟蛋数量问题,但当前仍依赖暴力算力(而非真实环境交互)。挑战在于语言领域缺乏确定性环境,需结合因果推理实现更通用的智能。

AI的不足与边界
当前AI存在明显局限:大模型易产生“幻觉”,RAG技术准确度不足,生成模型多用于娱乐,推理模型受众有限。理论层面,神经网络结构简化(对比生物脑)、不可解释性、对统计暴力的依赖(样本+算力)限制了其向高阶智能的跨越。

未来AI——AGI的实现
自主智能(AGI)需突破概率统计范式,转向因果动态理解与可解释性。关键技术路径包括:元学习、神经符号系统、分层强化学习、LLM与强化学习结合、仿生神经网络等。目标是通过迁移学习、任务分解和智能体交互,实现类人的抽象推理与创造力,最终减少对环境不确定性的依赖。

报告精彩

报告无套路下载地址:pan.quark.cn/s/7380eff83…