飞哥学习人工智能之路第一讲-人工智能重要概念

0 阅读12分钟

人工智能重要概念 - 详解版

基础概念

  1. 函数: 输入与输出之间的映射关系。AI模型的本质就是一个极其复杂的函数,试图拟合数据间的规律。
  2. 符号主义: 人工智能的两大流派之一,基于逻辑规则、符号操作和推理,强调显式的知识表示(如专家系统)。
  3. 联结主义: 人工智能的两大流派之一,模仿人脑神经元连接结构,通过调整网络权重来学习,是深度学习的理论基础。
  4. 模型: 从数据中学习到的规律、参数和结构的集合,能够对新输入进行预测或生成。
  5. 权重: 神经网络中连接强度的数值参数,决定了输入信号对输出的影响程度,模型训练的过程本质上就是调整权重的过程。

大模型与训练 6. 大模型: 参数量巨大(通常数十亿甚至万亿级)的深度学习模型,展现出强大的泛化能力和多任务处理能力。 7. 大语言模型 (LLM): 专门用于理解和生成自然语言的大规模神经网络模型,如GPT-4、Claude 3。 8. 训练: 喂给模型大量数据,通过优化算法不断调整模型参数(权重),使其误差最小化的过程。 9. 预训练: 在海量无标注通用数据上进行的初步训练,让模型掌握通用的语言规则和世界知识(“通识教育”)。 10. 微调 (Fine-tuning): 在预训练模型基础上,使用特定领域的少量高质量数据进行再训练,使其适应特定任务(“专业深造”)。 11. 推理: 使用训练好的模型接收输入并生成输出的过程(模型实际应用阶段)。 12. 涌现: 当模型规模(参数量、数据量)超过一定阈值后,突然表现出预料之外的复杂能力(如逻辑推理、代码生成)。

GPT与生态 13. ChatGPT: OpenAI基于GPT模型开发的对话式AI应用,以其强大的交互能力引发了全球AI热潮。 14. GPT: Generative Pre-trained Transformer(生成式预训练变换器),OpenAI开发的大语言模型架构系列。 15. OpenAI: 美国顶尖的人工智能研究实验室,开发了GPT系列、DALL-E、Sora等突破性技术。 16. 产品模型公司对照表: 用于理清“谁开发了什么模型,做成了什么产品”的对应关系(例如:OpenAI -> GPT-4 -> ChatGPT)。 17. 闭源模型: 代码和模型权重不公开,仅提供API或网页服务供使用的模型(如GPT-4, Claude 3)。 18. 开源模型 (开放权重): 模型权重(参数)公开,允许开发者下载、部署甚至微调的模型(如Llama 3, Mistral)。 19. 完全开源: 不仅公开权重,还公开训练代码、数据集和训练细节的项目(如OLMo)。 20. 私有化部署: 将AI模型部署在企业自己的服务器或私有云环境中,确保数据不流出企业,保障隐私安全。 21. 云桌面: 基于云计算的虚拟桌面服务,常集成高性能GPU,方便开发者随时随地进行AI开发和实验。

生成式AI核心要素 22. 生成式AI (AIGC): 能够创造新内容(如文本、图像、音频、视频、代码)的人工智能技术。 23. token: LLM处理文本的最小单位。一个token可以是一个字、一个词或一部分字符。LLM通常按token数量计费和限制长度。 24. 上下文 (Context): 模型在生成回答时能够“看到”和参考的前文信息窗口。上下文窗口越大,模型能处理的文档越长。 25. 提示词 (Prompt): 用户输入给AI的指令文本,用于引导模型生成预期的输出。 26. 提示词工程师: 擅长设计、优化提示词以挖掘模型潜力、提高输出质量的专业人员。 27. 随机性: 模型生成内容时的不确定性程度。 28. 温度 (Temperature): 控制采样随机性的参数。温度高(如0.8)输出更发散、有创意;温度低(如0.2)输出更确定、保守。 29. Top-K: 一种解码策略,限制模型仅从概率最高的K个候选中选择下一个token,平衡多样性与准确性。 30. 幻觉: 模型一本正经地胡说八道,生成看似合理但完全虚构或错误的信息。

增强与应用架构 31. 联网: 赋予模型访问实时互联网信息的能力,解决模型训练数据滞后的问题。 32. RAG (检索增强生成): 结合外部知识库检索和LLM生成的技术。先检索相关信息,再让模型基于检索结果回答,显著减少幻觉。 33. 知识库: 存储特定领域知识(文档、数据)的数据库,作为RAG系统的外挂“大脑”。 34. 向量数据库: 专门存储数据向量表示的数据库,支持快速的语义相似度检索,是RAG的核心组件。 35. 词嵌入 (Embedding): 将词语或句子转换为数值向量(坐标)的技术,使计算机能通过数学距离理解语义相似性。 36. 向量检索: 在向量空间中查找最相似向量的技术,用于在海量数据中快速找到相关内容。 37. PGC: 专业生产内容(Professionally Generated Content)。 38. UGC: 用户生产内容(User Generated Content)。 39. AIGC: 人工智能生产内容(AI Generated Content),继PGC、UGC之后的新型内容生产方式。 40. AGI: 通用人工智能(Artificial General Intelligence),具备像人类一样解决各种复杂通用问题能力的未来AI。

智能体与工具 41. 多模态: 能够同时处理、理解和生成多种类型数据(文本、图像、语音、视频)的能力。 42. 工作流 (Workflow): 将多个AI任务、工具或模型按预定逻辑串联起来的自动化执行流程。 43. 扣子 (Coze): 字节跳动推出的AI应用开发平台,支持用户通过低代码/无代码方式搭建Chatbot和智能体。 44. LangChain: 流行的开源框架,用于简化基于LLM的应用开发,提供链式调用、记忆管理等工具。 45. 智能体 (Agent): 具备感知环境、推理规划、调用工具并采取行动以实现目标的自主AI系统。 46. 多智能体 (Multi-Agent): 多个智能体分工协作,共同完成复杂任务的系统架构。 47. 插件 (Plugin): 扩展LLM能力的外部工具接口,使模型能执行特定操作(如订票、计算、联网)。 48. AutoGPT: 一个早期的开源实验项目,旨在让GPT-4自动分解任务并循环执行,无需人类持续干预。 49. Manus: 一个号称“通用型全自动”的AI Agent产品,旨在无需人类介入即可独立完成复杂任务。 50. MCP: Model Context Protocol(模型上下文协议),Anthropic推出的一种标准,用于标准化AI助手与数据源/工具之间的连接。 51. Skills: 智能体被赋予的特定技能或工具函数(如“搜索”、“Python执行器”)。 52. A2A: Agent to Agent,指智能体之间的通信与交互标准或过程。

模型优化技术 53. 模型压缩: 减小模型体积和计算量,以便在手机、IoT等资源受限设备上运行的技术。 54. 量化: 降低模型参数的数值精度(如从32位浮点数转为8位整数),以减少显存占用和加速推理,通常对精度影响较小。 55. 蒸馏: 训练一个小模型(学生)去模仿大模型(老师)的行为,使小模型获得接近大模型的效果。 56. 剪枝: 移除神经网络中不重要或冗余的连接/神经元,使模型变稀疏、变快。 57. LoRA: Low-Rank Adaptation(低秩适应),一种高效微调技术,只训练极少量的参数即可让大模型适配新任务,大幅降低微调成本。 58. 思维链 (CoT): Chain of Thought,一种提示策略,引导模型展示推理步骤(“一步步思考”),显著提升复杂逻辑问题的解决能力。 59. RLHF: Reinforcement Learning from Human Feedback(基于人类反馈的强化学习),利用人类的偏好打分来优化模型,使其价值观对齐人类。

行业术语 60. 套壳: 指没有核心模型研发能力,仅通过调用第三方大模型API包装成应用的开发模式。 61. 铲子: 比喻在AI淘金热中,提供基础设施(如GPU、云服务、数据标注)获利的角色,所谓“挖金矿的不如卖铲子的”。 62. NLP: 自然语言处理(Natural Language Processing),让计算机理解、解析和生成人类语言的学科。

知名模型与产品 63. Claude: Anthropic公司开发的LLM,以超长上下文窗口、强大的逻辑能力和安全性著称,GPT的强劲对手。 64. Gemini: Google推出的原生多模态大模型系列,整合了文本、图像、视频理解能力。 65. DeepSeek: 深度求索(幻方量化旗下)推出的开源大模型系列,在代码和数学能力上表现优异,性价比极高。 66. 豆包: 字节跳动出品的AI助手及背后的云雀大模型。 67. 通义千问 (Qwen): 阿里巴巴阿里云推出的开源+闭源大模型系列,中文能力强劲。 68. Kimi: 月之暗面(Moonshot AI)推出的AI助手,以支持超长无损上下文(20万字+)为特色。 69. GLM: 智谱AI推出的ChatGLM系列模型,国内开源生态的重要贡献者。 70. CV: 计算机视觉(Computer Vision),让计算机“看懂”图像和视频的技术。 71. Midjourney: 目前公认效果最好的AI绘画工具之一,运行在Discord上。 72. Stable Diffusion: 稳定性AI推出的开源文生图模型,生态极其丰富,支持本地部署和高度可控的图像生成。 73. TTS: Text-to-Speech(语音合成),将文字转化为自然语音。 74. ASR: Automatic Speech Recognition(语音识别),将语音转化为文字。 75. Sora: OpenAI发布的文生视频模型,能生成长达60秒、物理规律逼真的高清视频。 76. SeeDance: (注:可能是指字节跳动的MagicAnimate或其他动作生成技术,或特定小众工具,此处泛指)AI驱动的视频/动作生成技术。 77. 数字人: 利用AI生成的具有人类外观、表情和动作的虚拟形象,常用于直播、客服等场景。

硬件与开发生态 78. GPU: 图形处理器(显卡),因擅长并行计算,成为AI训练和推理最核心的算力硬件。 79. CUDA: NVIDIA推出的并行计算架构,是目前AI软件生态最依赖的底层计算平台。 80. TPU: Tensor Processing Unit,Google专门为机器学习定制的专用加速芯片。 81. NPU: Neural Processing Unit,专门为神经网络计算设计的处理器,常集成在手机、电脑SoC中。 82. Python: AI领域的首选编程语言,拥有极其丰富的AI库和社区支持。 83. PyTorch: Meta开源的深度学习框架,灵活性高,学术界和研究领域最受欢迎。 84. TensorFlow: Google开源的深度学习框架,工业界部署应用广泛。 85. Hugging Face: AI领域的“GitHub”,全球最大的开源模型、数据集和Demo托管社区。 86. Ollama: 一个轻量级工具,允许用户在本地电脑上极简地运行和管理Llama等开源大模型。 87. vLLM: 一个高吞吐量、低延迟的大模型推理加速库,广泛用于生产环境部署。 88. Cursor: 一款集成了AI编程能力的现代化代码编辑器,能显著提升编码效率。 89. Copilot: GitHub推出的AI编程助手,作为IDE插件提供代码补全和生成功能。 90. Trae.cn / Trae.ai: 字节跳动推出的新一代AI原生IDE(集成开发环境),主打“让AI和你一起写代码”。 91. AI和数学: AI的底层是数学,主要涉及线性代数(矩阵运算)、微积分(梯度下降)、概率论(统计规律)。

深度学习核心原理 92. 神经网络: 模拟人脑神经元连接方式构建的数学模型,通过层级结构从数据中提取特征。 93. 损失函数 (Loss Function): 衡量模型预测结果与真实结果之间差距的标尺,是模型优化的目标方向。 94. 反向传播 (Backpropagation): 深度学习的核心算法,通过计算误差对参数的梯度,将误差从后向前传播以更新网络权重。 95. MLP (多层感知机): 最基础的神经网络结构,由输入层、隐藏层、输出层全连接构成。 96. CNN (卷积神经网络): 专门处理网格数据(如图像)的网络结构,通过卷积核提取局部特征,具有平移不变性。 97. RNN (循环神经网络): 专门处理序列数据(如文本、语音)的网络结构,具有记忆功能,能捕捉时间序列上的依赖。 98. Attention (注意力机制): 模仿人类视觉注意力,让模型在处理信息时能动态聚焦于关键部分,解决长距离依赖问题。 99. Transformer: 谷歌2017年提出的基于自注意力机制的深度学习架构,并行计算能力强,是现代所有大语言模型的基石。 100. OpenClaw: OpenClaw的本质是一个部署在本地电脑上的AI代理框架。

各种知识概念不断涌现,后续会持续更新!