人工智能学习路线

145 阅读6分钟

人工智能学习路线

人工智能.png

数据分析

数据分析是人工智能的基础,通过数据清洗、分析与可视化挖掘数据价值,需掌握 Pandas(数据处理)、NumPy(数值计算)、Matplotlib(基础绘图)、seaborn(高级可视化),此外新兴的Polars库在大数据处理效率上表现突出。
image-20251102002227186

  • Pandas:用于数据结构创建、数据清洗、分组聚合等,如处理 CSVExcel 数据。
  • NumPy:提供多维数组对象及高效数学运算,是数值计算的基石。
  • Matplotlib:可绘制折线图、柱状图、散点图等各类基础图表。
  • seaborn:基于 Matplotlib,能绘制更美观的统计图表,如热力图、箱线图。
  • Polars:快速处理大型数据集,支持懒执行,在速度和内存效率上优势明显。

机器学习

机器学习:让机器从数据中学习模式并预测决策,涵盖多种模型类型。
image-20251102002337237

  • 回归模型:用于预测连续值,如线性回归(预测房价)、岭回归(解决多重共线性)。
  • 分类模型:用于类别预测,如逻辑回归(二分类)、SVM(支持向量机,可分线性与非线性分类)、决策树(直观的分类规则生成)、随机森林(多棵决策树集成,提升准确率与鲁棒性)。
  • 聚类模型:无监督学习,将相似数据聚为一类,如 K - means(指定聚类数的硬聚类)、DBSCAN(基于密度的聚类,无需指定聚类数)。
  • 集成学习:结合多个弱学习器形成强学习器,如 AdaBoost(逐步提升弱分类器性能)、Gradient Boosting(梯度提升,如 XGBoostLightGBM)。

图形处理

图形处理聚焦图像与视频的处理、分析与识别,OpenCV是核心工具,可用于图像读取、滤波、边缘检测、目标识别等,如人脸识别、图像分割、自动驾驶中的视觉感知。
image-20251102002418062

  • Opencv:提供丰富的图像处理函数,支持图像预处理、特征提取、物体检测等操作。

计算智能

计算智能:模拟自然生物或物理过程的智能算法,用于优化、搜索等问题。
image-20251102002440754

  • 遗传算法:模拟生物进化,通过选择、交叉、变异寻找最优解,如函数优化、组合优化。
  • 蚁群算法:模拟蚂蚁觅食路径,用于路径规划、旅行商问题。
  • 人工免疫算法:模拟人体免疫系统,用于异常检测、多目标优化。
  • 粒子群优化算法:模拟鸟群觅食,通过粒子位置和速度更新寻找最优解,适用于函数优化、神经网络训练。
  • 人工蜂群算法:模拟蜜蜂采蜜,用于函数优化、工程设计优化。
  • 生物地理学优化算法:模拟生物物种分布,用于多目标优化、约束优化。
  • 多目标优化算法:在多个目标间寻找平衡的最优解,如NSGA - II
  • 约束优化算法:在满足约束条件下寻找最优解,如惩罚函数法。

自然语言处理

自然语言处理:让机器理解和生成人类语言,涉及分词、词性标注、命名实体识别、语义分析、机器翻译、情感分析等,如聊天机器人、智能问答系统、文本分类。
image-20251102002730244

  • 分词工具:如jieba(中文分词)、NLTK(英文分词)。
  • 词向量:将词语转化为向量表示,捕捉语义关系。
  • 预训练模型:通过大规模语料预训练,在各类NLP任务上表现出色。
  • 应用方向:机器翻译(如谷歌翻译)、情感分析(分析用户评论情感倾向)、问答系统(如智能助手回答问题)。

深度学习

深度学习:是机器学习的进阶方向,通过多层神经网络学习复杂特征表示,实现更强大的拟合与预测能力,是计算机视觉、自然语言处理等领域的核心技术支撑。
image-20251102002527804

  • 神经网络:由输入层、隐藏层、输出层组成,通过神经元间的权重传递与激活函数实现信息处理,是深度学习的基础结构。
  • CNN(卷积神经网络):擅长处理图像、视频等网格状数据,通过卷积层、池化层提取空间特征,应用于图像分类、目标检测。
  • RNN(循环神经网络):处理序列数据(如文本、语音),通过循环结构保留时序信息,用于机器翻译、语音识别。
  • LSTM(长短期记忆网络):改进RNN的梯度消失问题,能长期记忆序列信息,适用于长文本分析、时间序列预测。
  • Transformer:基于自注意力机制,并行处理序列数据,在自然语言处理、计算机视觉领域取得突破性成果。
  • 迁移学习:将已训练模型的知识迁移到新任务,减少数据依赖与训练成本,常用于小数据集场景的模型优化。

强化学习

强化学习:让智能体在与环境的交互中通过试错学习最优策略,以最大化累积奖励,广泛应用于游戏 AI、机器人控制、自动驾驶等领域,核心要素包括状态、动作、奖励与策略。
image-20251102002551570

  • 经典算法:Q - learning(基于价值的算法,学习动作价值函数)、SARSA(在线策略学习算法)。
  • 深度强化学习:结合深度学习与强化学习,如DQN(深度Q网络,将Q - learningCNN结合,用于Atari游戏)、PPO(近端策略优化,高效的策略梯度算法)、DDPG(深度确定性策略梯度,适用于连续动作空间)。

RAG 时效知识库

RAG 时效知识库:通过检索增强生成技术,让大模型结合外部实时或专业知识库回答问题,解决大模型知识滞后与领域局限问题,是企业级 AI 应用的关键技术之一。
image-20251102002629536

  • 向量数据库:用于存储文本的向量表示,实现高效的语义检索,如 MilvusPinecone
  • LangChain:用于构建基于大语言模型的应用框架,可实现多工具调用、知识库检索、多步骤推理等复杂流程,简化 RAG 系统的开发。

大语言模型

大语音模型:基于大规模文本语料预训练的语言模型,具备强大的自然语言理解与生成能力,可完成对话、创作、翻译、代码生成等多任务,代表了自然语言处理的前沿水平。
image-20251102002811203

  • 代表模型:GPT 系列(OpenAI,如GPT - 4)、BERT系列(谷歌,如BERT - Large)、LLaMAMeta,开源大模型)、ERNIE(百度,中文优化模型)。
  • 技术要点:预训练(自监督学习海量文本)、微调(针对特定任务调整模型)、提示工程(通过提示词引导模型输出)。

多模态模型

多模态模型:融合文本、图像、音频、视频等多种模态数据进行学习与推理,实现跨模态的理解与生成,是人工智能向通用智能迈进的重要方向,应用于图文生成、多模态检索、智能助手等场景。
image-20251102002829852

  • 代表模型:CLIPOpenAI,图文对齐预训练,可实现零样本图像分类)、GPT - 4V(多模态版GPT - 4,支持图像输入与理解)、Gemini(谷歌,多模态大模型,支持文本、图像、音频等交互)。
  • 技术方向:模态融合(如何有效整合不同模态的特征)、跨模态生成(如文生图、图生文)、多模态理解(如图像描述、视频内容分析)。