不要傻呵呵等金九银十了（附大模型面试题）最近在和一些同学交流中发现，无论是社招同学还是校招同学，都觉得应该等到 9 月份

这份面试题已经整理打包了，在 >gitcode

最近在和一些同学交流中发现，无论是社招同学还是校招同学，都觉得应该等到 9 月份之后再出去找工作好一些。但今天要给大家提醒一下，不要等金九银十！不要等金九银十！不要等金九银十！

为什么呢？接下来聊聊我的思考。

先说校招

尤其对于好学校的校招、准大四的学生来说，更不要等 9 月份才开始找工作。

校招找工作有以下 3 个阶段：

1.秋招提前批：7 月中旬到 9 月中旬。

特点：竞争者少、招聘人数少、面试难度低（大部分无笔试）。
缺点：对学校有一定要求，92 学校优先。
针对群体：准大四、准研三同学，92 院校和排名靠前的高校。

2.秋招正式批：9 月中旬到 11 月中旬。

特点：招聘人数最多、竞争最激烈、面试难度高（有笔试）。
针对群体：大四上半学期、研三上半学期同学。

3.春招（补录） ：3 月到 5 月。

特点：招聘规模小，招聘人数多，中小型公司机会多。
针对群体：大四下半学期、研三下半学期同学。

所以从上面信息可以看出来了，尤其是学校稍微好点的同学，一定要在秋招提前批发力，这时候竞争小、面试难度低、上岸概率大。当然，普通高校的学生也可以碰一碰运气，万一有上岸了呢？即使没有上岸，也能提前感受一下校招目前的强度，积累一点经验为以后找工作打好铺垫。

再聊社招

社招下半年招聘岗位最多的时候也是 9 到 11 月，但这个时间段的竞争压力也是最大的，这个时候的得 Offer 率也是比较低的。

什么叫做得 Offer 率呢？得 Offer 率=招聘岗位人数/应聘人数，例如金九银十可能有 10 个岗位，但有 1000 个竞争者，那么得 Offer 率就是 1%。

小结：金九银十得 Offer 率比较低，得 Offer 率=招聘岗位人数/应聘人数。

而现在这段时间虽然岗位没有那么多，但得 Offer 率通常比金九银十高要高，这个时候天气热出去找工作的人也少，竞争者也比较少。例如现在可能只有 1 个岗位，但这个时候应聘者可能也只有 20 个人，那么得 Offer 率就为 1/20=5%，所以这个时候看起来招聘岗位比较少，但其实更容易拿到 Offer。

所以，找工作是赶早不赶晚，早早行动起来是最优的策略，例如：

如果是离职状态：要早早行动起来了，因为空窗时间越长对你找工作越不利。
如果是在职状态：也应该早早行动起来，起码可以积累更多的经验，为以后有大量招聘岗位时，做好准备工作。

小结

所以综合来看，找工作一定是越早越好，校招的同学把握好秋招提前批的机会，多了一次上岸的可能性；社招的同学早早行动起来，哪怕拿不到 Offer 也能更好的积累面试经验，所以早就是优势。

这里给大家整理了一些大模型方向的突击面试题有的答案过去繁琐，这里将每道题的答案进行了简化，方便大家记忆。

这份面试题已经整理打包了，在>gitcode

大模型基础概念

简单介绍一下大模型

大模型通常指参数过亿的模型，标准持续升级，现已有万亿参数模型。大语言模型（LLM）是专注于语言处理的大模型。

大模型后面跟的如5B、7B、31B 等指什么

参数数量以B（Billion）为单位，例如5B、7B、31B分别代表50亿、70亿和310亿参数。

大模型具有什么优点？

生成式AI通过预训练与微调降低标注成本，利用生成能力创造新颖内容，并借助涌现能力完成复杂推理任务，提升智能水平和应用体验。

大模型具有什么缺点？

大模型面临资源消耗高昂、数据质量与安全风险，以及可解释性、可靠性与可持续性等多重挑战。这些问题涉及经济、环境、伦理和技术层面，需多方协作以确保其健康发展。

大模型产生复读机的原因和解决方法是什么？

大型语言模型在生成过程中可能出现注意力机制跳过部分信息，导致重复预测的现象。原因包括数据偏差、训练目标限制、数据多样性不足及模型结构问题。解决方法分为训练策略（如引入重复惩罚损失）和解码策略（如集束搜索、随机采样和温度调节），以提升生成多样性和减少重复。

大模型 LLM 的训练目标是什么？

Prefix Decoder训练效率高于Causal Decoder，因其仅对输出计算损失。去噪自编码器通过恢复被替换文本段进行训练，目标函数为最大似然，实现难度较高，如GLM-130B和T5采用此方法。

说下LLM的关键参数是哪些？

LLM性能受关键参数影响：架构（如Transformer）、模型大小（决定复杂性和资源需求）、训练数据（质量与数量影响输出准确性）及超参数（指导学习过程）。理解这些参数对开发、训练和优化LLM至关重要。

LLM是如何工作的？

LLM利用词嵌入技术，通过Transformer模型中的编码器理解上下文，再由解码器根据提示生成类似人类的文本。

LLM通常是通过什么方式训练的？

LLM是一种基于Transformer架构的神经网络，拥有数十亿参数，通过大规模文本和代码数据进行训练。它通过预测序列中的下一个词来学习语言模式，并调整参数以优化预测。训练完成后，模型可针对特定任务进行微调。

简单介绍Transformer网络？

Transformer 是现代 LLM 的核心架构，由编码器和解码器组成，通过自注意力机制捕捉长距离依赖关系。输入经嵌入转换为向量，解码后生成文本输出。模型依赖大量参数学习复杂模式，但计算资源需求高。

什么是幻觉，以及如何通过提示工程加以控制？

幻觉指模型生成错误或荒谬的输出。通过提示工程可减少幻觉，方法包括：设定回答场景、明确回答类型（如事实或创意），以及提供格式引导（如多项选择）来保持回答的正确性。

涌现能力是啥原因？

任务评价指标不够平滑，复杂任务由多个子任务构成。子任务指标随模型增长平滑提升（如40%到60%），但宏观任务指标却呈现非平滑的涌现现象（如1.1%到7%），说明整体效果非子效果的简单叠加。

假设我有一个LLM模型如何根据我的需求使用数据对其进行定制？

定制大型语言模型（LLM）的四种主要架构模式包括提示工程、RAG、微调和预训练，它们互补且可结合使用。提示工程适合数据有限和资源不足的情况；RAG适用于需要更全面回答且有相关数据；微调适合高准确性需求和大数据集；预训练则适用于高度专业化场景，需大量领域数据和计算资源。

如何估算微调 LLM 的基础设施需求？

准确估算微调LLM所需基础设施需考虑模型大小、训练速度及预算。大型模型需更多GPU/TPU资源，多单元配置可加速训练。量化技术可减少计算需求，降低成本。云方案提供扩展灵活性。

使用少样本提示时需要注意哪些方面？

少样本提示通过高质量示例、明确任务定义和上下文关联，有效引导模型输出。示例需准确反映期望格式，并均衡覆盖各类别，避免偏差，确保模型专注目标。

嵌入短内容和长内容有什么区别？

短内容因信息有限，导致嵌入模型难以捕捉语义细节，易使相似性判断失真。长内容提供更丰富的上下文，有助于生成更准确的嵌入，但可能因信息过量而丢失部分细节。

在 LLM 应用中如何使用嵌入模型？

嵌入模型在LLM应用中通过将文本转换为数值表示（嵌入），帮助检索与用户查询最相关的信息。结合检索增强生成（RAG），它从知识库中提取语义相似的内容，为LLM提供上下文，从而生成更准确和丰富的回答。

如何在 LLM 中使用停止序列？

停止序列是一个特定的文本字符串，用于指示LLM在遇到它时停止生成文本，从而为输出定义明确的终点，实现更专注和受控的结果。

如何写出高质量的提示？

提供明确指令和背景，使用有力动词引导，保持简洁以避免信息过载。

如何在不同层面控制 LLM 的幻觉？

控制LLM幻觉可从三方面入手：优化训练数据质量与来源；通过提示工程和参数调整改进生成过程；利用一致性检查和自一致性技术对输出进行后处理验证。

如何提高 LLM 的准确性和可靠性，并使其回答可验证？

提升LLM准确性和可靠性的方法包括：利用LLM辅助检索生成回答并验证支持文档；通过提示工程优化提问方式；集成事实核查API与现实数据对比；采用验证-更新循环迭代优化结果；调整模型参数和控制机制以控制生成过程。这些方法共同增强输出的可验证性和可信度。

如何写出高质量的提示？

提供具体指令和背景，使用强动词引导，保持简洁以避免模型过载。

如何在不同层面控制 LLM 的幻觉？

控制LLM幻觉可从三方面入手：改进训练数据质量与采用少样本学习；生成过程中运用提示工程与参数调整以增强逻辑性；生成后通过一致性检查及自一致性投票技术筛选最可靠答案。

如何提高 LLM 的准确性和可靠性，并使其回答可验证？

提升LLM准确性和可靠性的方法包括：利用LLM辅助检索生成回答并验证文档；通过提示工程优化提问方式；集成事实核查API与现实数据对比；采用验证-更新循环迭代优化结果；以及调整模型参数和控制机制以控制生成过程。这些方法共同增强输出的可验证性和可信度。

如何缓解 LLM 中的灾难性遗忘？

灾难性遗忘指LLM学习新任务时遗忘旧知识。解决方法包括复习旧数据、弹性权重巩固（EWC）及引入独立模块（如ProgNet和OFELs），以扩展知识而不覆盖原有连接。

OpenAI 函数和 LangChain 函数有什么区别？

OpenAI函数提供手动控制，但开发工作量较大；LangChain函数更易用但受限于工具包和代理类型。两者在自定义程度和开发效率上各有侧重。

如何在控制成本的同时获得 LLM 系统的最佳性能和功能？

优化LLM系统成本的关键策略包括：精简提示、批量处理请求、压缩输入输出、限制对话历史长度，以及选择适合任务的模型。这些方法能在保持性能的同时显著降低成本。

如何处理 LLM 中的过拟合？

过拟合可能导致LLM输出荒谬或过度模仿训练数据。借鉴其他机器学习技术，可通过数据增强和正则化（如Dropout）来应对。数据增强扩展训练数据变体，迫使模型学习底层模式而非记忆细节；Dropout随机停用神经元，防止过度依赖单一特征，提升泛化能力。这些方法有助于训练出在新数据上表现良好的模型。

如何处理语言模型中的长期依赖关系？

语言模型中的长期依赖关系指捕捉序列中远距离单词间的关系。常用技术包括：循环神经网络（RNN）通过内部循环存储信息；长短期记忆网络（LSTM）利用门控机制缓解梯度消失；Transformer-XL通过保留历史状态扩展上下文；注意力机制则聚焦相关部分以处理远距离依赖。

如果CoT提示失败了，你怎么改进 LLM 的推理能力？

当初始CoT提示失败时，可细化提示以解决模糊或缺失步骤，并尝试其他技巧如提供背景知识、假设或多角度分析。结合人类反馈优化推理过程，并确保训练数据包含多样化的推理示例，以提升LLM能力。

如何处理大型语言模型中的偏见？

大型语言模型（LLM）容易从训练数据中继承偏见。应对方法包括：确保训练数据的高质量和多样性，开发训练过程中的偏见缓解技术，以及构建工具来识别和标记输出中的潜在偏见，帮助用户做出明智判断。

解释LLM文本生成中的温度概念

温度是控制语言模型输出随机性的参数。低温（<1）使输出更确定和专注，优先选择高概率标记；高温（>1）增加变异性，使概率分布更均匀，适用于创造性输出。

什么是掩码语言建模（MLM）？

MLM通过随机掩码输入文本中的标记，并利用双向上下文预测被掩码内容，从而学习语言中的双向依赖关系。例如，输入“The [MASK] is blue.”，模型预测“The sky is blue.”。该方法由BERT推广。

什么是序列到序列模型？

序列到序列模型将输入转换为输出序列，常用于机器翻译、文本摘要和问答。它由编码器（处理输入）和解码器（生成输出）组成，例如基于Transformer的T5和带注意力机制的RNN模型。

自回归模型和掩码模型有何不同

自回归模型（如GPT）逐个生成文本，适合文本生成；掩码模型（如BERT）利用双向上下文预测掩码标记，适合理解任务如分类或问答。

嵌入在LLM中扮演什么角色？

嵌入是标记的向量表示，编码语义和语法信息，将离散标记转换为连续数值以便模型处理。类型包括单词嵌入和子词嵌入。常见示例有Word2Vec、GloVe和Transformer中的嵌入。

什么是下一句预测（NSP）？

NSP是一种预训练目标，用于判断句子B是否自然接在句子A之后。例如，输入“I love books.”和“They expand my knowledge.”，模型输出True。

如何评估 LLM 的性能？

评估 LLM 性能需平衡成本、用户体验和负责任 AI。传统基准有限，需通过真实用户流量衡量人类化能力与安全性。关键指标包括 GPU 利用率、负责任 AI、延迟和实用性。A/B 测试（暗模式、影子实验等）对优化功能至关重要。

提示工程如何影响LLM输出？

提示工程通过设计清晰、具体的输入提示，引导大型语言模型（LLM）高效执行任务。它适用于零样本和少样本学习场景，强调提供上下文、结构化指令和逻辑推理策略，以提升输出精确性和模型性能。

如何减轻LLM中的灾难性遗忘？

灾难性遗忘指LLM训练新任务时丢失旧知识。缓解策略包括：复习方法（新旧数据结合再训练）、弹性权重固化（限制重要参数变化）和模块化方法（添加适配器保留核心知识）。这些技术确保模型适应新任务的同时维持原有知识。

什么是模型蒸馏，它如何应用于LLM？

模型蒸馏将大型教师模型的知识转移到更小的学生模型，通过模仿软预测和中间表示。在LLM中，它降低了计算成本，同时保持准确性，例如GPT-3的蒸馏版本可实现更快的推理。

LLM如何处理词汇表外（OOV）单词？

LLM通过子词分词技术（如BPE、WordPiece和单词语言模型）将OOV单词分解为已知子词单元（如前缀、后缀或字符对），从而确保未见过的单词也能表示为已知子词的组合。

Transformer架构如何克服Seq2Seq模型的挑战？

Transformer架构通过自注意力和位置编码替代递归机制，实现了并行处理、全局依赖捕获和长序列扩展性。它更高效，尤其适合长序列的上下文感知任务。

什么是过拟合，如何防止它？

过拟合指模型过度记忆训练数据而泛化能力下降。预防措施包括正则化、dropout、数据增强、提前停止和使用更简单模型。

什么是生成模型和判别模型？

生成模型学习数据分布以生成新样本（如GPT生成文本），而判别模型直接建模条件概率以进行分类（如BERT情感分析）。前者用于生成任务，后者用于分类任务。

GPT-4与GPT-3有何不同？

GPT-4具备多模态输入能力，可同时处理文本与图像，适用于视觉问答等任务。它拥有更大的上下文窗口，提升了处理长文本的连贯性。同时，其准确性在多方面得到增强，包括语言理解、逻辑推理和事实正确性。此外，GPT-4的多语言能力显著改善，提高了全球可访问性。

各厂家开源的Base,Chat,Instruction之间有什么区别？

Base模型通过预训练获得通用语言能力；Chat模型在Base基础上经SFT和RLHF训练，具备对话与对齐能力；Instruction模型通过指令微调专注于特定任务的高质量响应。三者分别对应通用基础、交互对话和指令执行场景。

目前主流的开源模型体系有哪些？

主流开源模型体系分为三种：Prefix Decoder（如ChatGLM，输入双向、输出单向注意力）、Causal Decoder（如LLaMA，纯单向注意力）和Encoder-Decoder（如T5，输入双向、输出单向注意力）。

prefix Decoder、causal Decoder 和 Encoder-Decoder 的区别是什么？

Prefix Decoder、Causal Decoder 和 Encoder-Decoder 的主要区别在于注意力掩码机制不同。Encoder-Decoder 采用输入双向、输出单向注意力，适用于理解型任务；Causal Decoder 是严格自回归模型，适合生成任务且训练效率高；Prefix Decoder 是前两者的折中，但训练效率较低。

LLama1, LLama2和LLama3的区别有哪些？

Llama3相比前代有显著升级：参数量最高达4000亿（训练中），词汇表扩大至128K，训练数据增至15万亿tokens，上下文长度达8K（可扩展）。采用GQA加速，训练成本大幅增长，但综合能力（MMLU、GSM8K、HumanEval）提升远超Llama2。

知识蒸馏是什么，它在 LLM 中如何使用？

知识蒸馏将大型教师模型的知识转移到小型学生模型，使其以较少资源模仿教师行为，提升部署效率。

链式思考（CoT）提示如何提高 LLM 的推理能力？

CoT提示通过引导LLM生成中间推理步骤，模拟人类思维过程，从而提升其在逻辑推理任务中的效果，尤其适用于解决复杂问题。

缩放定律分析如何帮助优化 LLM 的设计？

缩放定律揭示了模型性能随参数、数据和计算资源变化的规律，帮助开发者在模型大小、计算效率和性能之间取得最优平衡，从而开发出高效且高性能的大语言模型。

模型剪枝如何在不牺牲性能的情况下提高 LLM 的效率？

模型剪枝通过移除冗余或不重要的参数（如权重或神经元）来减小模型规模，提升计算效率，降低资源消耗，同时尽可能保持原有性能。

零样本学习是什么，它如何应用于 LLM？

零样本学习使大型语言模型（LLM）无需特定任务训练，仅通过提示中的上下文和指令，即可执行新任务，如文本分类、翻译或总结。它利用模型的广泛知识实现任务间的泛化，适应多样应用场景。

LLM 中特定任务的微调与零样本学习有何不同？

微调通过任务特定数据训练LLM，提高任务准确性和专业化，但可能降低泛化能力；而零样本学习依赖预训练知识，通用性强但精确性较低。

梯度检查点如何减少大型 LLM 训练中的内存使用？

梯度检查点是一种通过选择性重计算激活值来节省内存的技术，它用额外计算换取内存占用的显著减少，从而支持在有限硬件上训练更深、更大的模型，尤其适用于大规模LLM的训练。

多任务学习如何使 LLM 受益？

多任务学习通过同时训练多个任务提升LLM的泛化能力、参数共享和效率。共享参数避免过拟合，提高鲁棒性，同时减少单独训练需求，使模型更高效、通用。

课程学习如何帮助 LLM 学习复杂任务？

课程学习是一种训练策略，模型从简单任务逐步过渡到复杂任务，模仿人类学习方式。其优势包括：提升收敛速度、增强泛化能力、减少过拟合，并确保训练稳定性，最终帮助LLM在复杂推理任务上取得更好性能。

超参数调整如何影响 LLM 的性能？

超参数调整对优化LLM性能至关重要，它影响模型收敛速度、防止过拟合或欠拟合，并显著提升特定任务（如生成或翻译）的准确性。正确调整学习率、批量大小和dropout等参数是确保模型高效学习和泛化的关键步骤。

对比学习如何改进 LLM 的表示？

对比学习是一种自监督技术，通过区分相似和不相似的示例来训练模型。对于LLM，它能有效提升语义表示、噪声鲁棒性和泛化能力，常用于句子嵌入、文档聚类和检索等任务。

知识图谱整合如何增强 LLM？

将知识图谱与LLM整合，结合结构化知识提升事实准确性、推理能力和上下文理解。该整合有效减少模型幻觉，增强复杂查询处理，适用于问答、实体识别和推荐系统等场景。

什么是上下文窗口大小，它如何影响 LLM 的性能？

上下文窗口大小指模型一次能处理的最大token数，影响性能：更大的窗口能提升长文本理解与任务表现，但计算成本随长度二次增长，需权衡效率与效果。

参数共享是什么，它如何提高 LLM 的效率？

参数共享通过让模型不同层共用相同参数集，减少总参数量，提升内存效率、泛化能力和训练推理速度。常用于BERT和GPT等模型，增强可扩展性而不显著增加参数。

什么是多模态学习，它如何扩展 LLM 的能力？

多模态学习使LLM能够整合文本、图像、音频等多种数据，实现更全面的理解、跨模态推理和更广泛的应用，从而扩展AI系统的功能，超越纯文本处理。

在合成数据上进行预训练如何使 LLM 受益？

合成数据预训练通过生成人工数据扩展和多样化数据集，提升模型泛化能力与鲁棒性，尤其适用于罕见场景覆盖，同时降低成本，在医疗或自动驾驶等数据稀缺领域尤为有效。

上下文嵌入在 LLM 中的作用是什么，它与静态嵌入有何不同？

上下文嵌入（如BERT、GPT生成）是动态词表示，能根据上下文变化，有效捕捉多义词的不同含义，提升情感分析、机器翻译等任务性能。相比静态嵌入（如Word2Vec），它更灵活，能更好地理解词汇间细微关系，支撑大语言模型实现先进NLP表现。

简单说下PPL指标的计算逻辑？

困惑度（PPL）是衡量语言模型预测准确度的指标，值越低表示性能越好。其计算基于模型对测试集中每个 token 预测概率的对数平均值取指数。PPL 与交叉熵密切相关，适用于模型训练监控和对比评估，但无法全面衡量生成内容的事实性或逻辑性。通常需结合 BLEU 等指标进行综合评估。

对于二分类任务的few-shot，in-content learning和supervised learning的区别是啥？

ICL在推理时通过示例提示进行即时适应，无需训练，灵活但依赖示例质量；SFT通过微调参数优化任务性能，更稳定但需额外训练资源。选择取决于任务需求与资源条件。

SFT packing是什么？

SFT Packing是一种在监督微调阶段高效利用计算资源的技术，通过将多个短文本样本直接拼接成一个连续序列（可添加分隔符），避免传统填充带来的计算浪费。该方法对所有token计算损失，实现零浪费计算，同时模拟预训练过程的一致性。尽管可能引入样本间的虚假关联，但由于注意力机制弱化远程依赖，实际影响较小。

MCP和functional calling的区别是什么？

MCP是Anthropic提出的统一协议，旨在打通数据孤岛，实现大模型与外部工具的无缝集成。Function Calling则是厂商专属的功能接口，通过预定义函数让模型快速调用工具。两者分别侧重生态统一与快速调用。

解释下minimax中lighting attention的由来

Lightning Attention-2通过分块处理（块内传统注意力+块间线性注意力）结合缓存机制，首次实现因果模型的线性复杂度注意力（O(nd²)）。它在保持单向性的同时支持高效并行，适用于超长序列训练，解决了传统注意力O(n²)复杂度的瓶颈问题。

LangChain和Agent

什么是 LangChain，为什么它很有用？

LangChain 是一个框架，用于简化基于大型语言模型（LLMs）的应用程序开发。它集成了内存、工具、代理和链，帮助高效构建 AI 驱动的应用。

解释 LangChain 的关键组件。

LangChain 是一个集成多种组件（如 LLMs、链、内存、代理和工具）的框架，用于构建基于语言模型的应用程序，支持模型调用、流程编排、历史存储、动态决策及外部服务交互。

LangChain 支持哪些功能?

LangChain 提供提示词管理、工具集成链、数据增强生成、多类型代理接口、状态维护内存及模型评估功能。

LangChain 如何与 LLMs（大型语言模型）交互？

LangChain 提供统一 API，支持与 OpenAI、Hugging Face 等 LLM 交互，并通过结构化提示、动态输入及检索增强生成（RAG）优化 AI 响应。

LangChain 中的链是什么，它们是如何工作的？

链是由一系列相互连接的动作组成，其中每个步骤的输出作为下一个步骤的输入。例如，对话链通过存储历史对话来维持上下文连贯性。

LangChain 中的代理是什么？它们与链有何不同？

代理根据输入动态选择工具（如搜索引擎、API或数据库），而链则遵循固定的流程执行任务。

如何使用 LangChain 提示 LLM？

使用 PromptTemplate 类可以高效构建提示模板。通过 from_template 方法定义模板，并使用 format 方法填充变量，实现动态生成提示。

什么是内存模块，它在 LangChain 中如何发挥作用？

内存存储对话历史，使LLMs在多轮交互中保持上下文。常见类型包括：对话缓冲内存、对话摘要内存和向量存储检索内存。

LangChain 如何支持检索增强型生成（RAG）？

LangChain 利用知识库（如 ChromaDB、Pinecone、FAISS）检索相关文档，并将其输入大型语言模型（LLMs），以生成基于上下文的响应，从而实现 RAG。

LangChain 中有哪些不同类型的链？

LLMChain 用于结构化输入的简单 LLM 调用；SequentialChain 按顺序执行多个 LLM 调用；RouterChain 根据用户输入将查询路由到不同模型。

解释 LangChain 中嵌入（embeddings）的用途。

嵌入将文本转换为数值向量，用于语义搜索和相似性匹配。LangChain 集成了 Pinecone、Chroma 和 FAISS 等向量数据库。

如何将外部 API 集成到langchain中来？

使用 RequestsWrapper 工具，LangChain 代理可以轻松调用 API。通过实例化并传入 URL，即可获取 API 响应。

LangChain 中的文档加载器是什么，它们如何使用？

文档加载器用于从PDF、CSV等文件中提取文本。以PyPDFLoader为例，通过加载PDF文件并调用load()方法即可获取文档内容。

解释向量数据库及其在语义搜索中的作用。

向量数据库存储嵌入，用于快速语义搜索，如AI简历分析。常见示例包括FAISS、Pinecone和Weaviate。

如何优化提示模板以获得更好的模型响应？

使用 FewShotPromptTemplate 可以借助示例提升输出质量，使模型更准确地理解任务需求并生成更优结果。

LangChain 中常用的记忆类型有哪些？

BufferMemory存储原始消息，SummaryMemory生成历史交互摘要，VectorMemory保存嵌入数据用于检索。

解释 LangChain 代理中的工具使用概念。

工具赋予代理执行外部任务的能力，例如搜索、查询数据库或动态调用API。

如何在 LangChain 中处理多步推理？

ReAct代理通过推理-行动循环进行决策，结合逻辑推理与行动执行，提升任务处理的准确性和效率。

LangChain 中的回调是什么，如何用于日志记录？

回调功能可用于在LangChain流水线中记录事件，便于调试与监控。

如何优化 LLM 调用以降低成本和延迟？

通过结合提示优化、缓存和检索技术，配合LLM策略，有效减少API调用，提升效率并降低成本。

什么是LangSmith，作用是啥？

LangSmith 是 LangChain 应用的调试与监控工具，用于分析性能和执行流程，提升开发效率。

如何在 LangChain 中构建自定义链？

通过继承 LLMChain 或 Chain 类，并实现自定义的 run 方法，可以扩展链的功能。

解释 LangChain 表达式语言（LCEL）及其用例。

LCEL 允许用户以声明性方式定义复杂工作流，无需手动编写自定义链，简化开发并提升效率。

如何在 AWS 上部署 LangChain 应用程序？

使用 AWS Lambda 运行 LangChain 服务，S3 存储相关文件，API Gateway 提供 RESTful 接口，实现高效、可扩展的托管方案。

在 LangChain 中可以使用哪些策略来增强 LLM 响应？

结合RAG增强知识检索，利用提示工程优化输入指令，集成外部API扩展功能，并通过微调提升模型在特定任务上的表现，实现高效、精准的AI应用构建。

如何使用 LangChain 实现检索增强型生成（RAG）？

结合嵌入与FAISS等向量数据库，可高效检索相关上下文，提升语义搜索的准确性和速度。

解释 LangChain 中 ReAct 代理的作用。

ReAct 代理通过交替进行推理和行动步骤处理复杂问题，而非直接回答查询。推理步骤分析当前信息，行动步骤与环境交互获取新数据，逐步推进直至问题解决。

如何使用 LangChain 高效处理长文档？

使用文档分块和向量搜索技术，先检索相关文本片段，再将其输入大型语言模型进行进一步处理。

如何将 LangChain 与实时数据源集成？

LangChain 代理通过集成 API 调用、数据库查询和网络爬虫等工具，实现高效的信息获取与自动化任务处理，提升智能化应用的执行能力。

如何调试和基准测试 LangChain 应用程序？

使用LangSmith进行模型追踪与调试，结合日志工具记录运行状态，并通过分析内存使用情况优化性能与资源管理。

LangChain 在金融、医疗或制造业中的实际应用有哪些？

AI在金融领域用于欺诈检测和财务报告生成，在医疗领域辅助诊断和患者咨询，在制造业则用于预测性维护分析。

当 LangChain 没有从 LLM 返回预期输出时，如何调试问题？

调试提示：检查模板格式与变量完整性，启用LangChain详细模式追踪执行步骤，记录API调用以分析输入输出，并单独测试LLM（如通过OpenAI API）以隔离问题。

如果文档检索器返回了不相关的结果，你会怎么做？

优化检索性能的关键步骤包括：验证嵌入模型选择、测试向量搜索匹配度、调整文本分块参数，以及必要时启用结果重排序。

如何调试 LangChain 中的内存相关问题？

检查存储的消息，尝试不同内存类型（如缓冲、摘要或令牌缓冲），确保符合令牌限制（如GPT-4-turbo的4096）。必要时使用memory.clear()清除陈旧数据。

如何在 LangChain 中处理速率限制或 API 失败？

优化API调用：采用指数退避重试、异步并发执行、监控状态码并缓存结果，以提升效率并减少负载。

`set_debug(True)` 是如何工作的？

启用 set_debug(True) 后，LangChain 会记录 LLM API 调用、链执行步骤、输入/输出转换以及错误和异常的详细信息。只需在脚本开头导入并调用该函数，即可启用所有组件的详细日志输出。

什么是Agent?

LLM Agent 是一种以大型语言模型为核心的人工智能系统，不仅能生成文本，还能进行对话、推理和任务执行，并具备一定自主性。其自主程度可从被动到高度主动，能够在人工监督下独立管理包括分析、规划、执行和迭代在内的完整工作流程。

Agent 如何获取上下文对话信息？

为兼顾对话历史完整性与效率，系统采用多策略融合：通过滑动窗口获取近期对话，结合向量检索回溯关键信息；利用知识图谱提取实体关系，并生成阶段性摘要，确保既关注最新交互又保留早期重要上下文。

LLM Agent 中模型自我反省是什么？

自我反省是模型对输出或行为的评估与调整过程，包括性能评估、错误分析、领域适应和用户反馈处理，以提升任务表现和适应性。

LLM Agent中的模型自我反省的方法有哪些？

ReAct结合了推理与行动，通过扩展动作空间（包括任务特定动作和语言操作），使LLM能够与环境交互（如调用API）并利用提示词生成自然语言推理过程。

LLM Agent 有什么关键能力？

Agent利用LLM理解指令与上下文，通过工具（如计算器、API）自主或半自主执行任务，包括逻辑推理、文本定制（如邮件、报告）及多模态系统对接（如图像生成）。它能灵活响应用户需求，超越纯语言处理范畴。

怎样构建基于 LLM 的 Agents？

Agent 是结合了 LLM、提示配方、工具、知识库和记忆的智能系统。提示配方定义了输出内容、受众、语气等要求；工具通过 API 扩展功能；知识提供通用和专业知识；记忆则存储用户或任务相关的短期与长期上下文，实现个性化交互和任务一致性。Agent 的表现高度依赖提示质量。

LLM Agents 有哪些类型？

LLM Agents分为会话型和任务型两类。会话型专注于模拟人类对话，强调个性化交互和上下文理解；任务型则聚焦目标实现，通过分析、规划和工具调用完成具体任务。两者在目标、行为及Prompt方法上存在显著差异。

到底什么让Agent有了自治的能力？

自主系统通常由生成和监督两类agent构成：生成agent负责根据提示生成回复，监督agent则负责审查、调整提示并提供反馈。通过持续提示，系统逐步培养出推理、效能和自主决策能力。

什么是 LangChain model?

LangChain 模型分为三类：大型语言模型（LLM），处理文本输入并返回文本输出；聊天模型，以结构化方式管理对话消息；文本嵌入模型，将文本转换为浮点列表，用于检索和相似性分析。

模型和算法

为什么大模型都是Decoder-only结构？

Decoder-only架构因因果注意力的满秩性、预训练任务难度高、上下文学习能力强、推理效率高（支持KV-Cache复用）以及优越的zero-shot性能，成为当前LLM的主流选择。它在表达能力、泛化能力和工程实现上均具优势，尤其在生成任务中表现突出。

什么是多头注意力？

多头注意力通过多个注意力头同时关注输入序列的不同方面，每个头学习不同的表示。这使模型能捕获语法、语义等多样化关系，从而增强对复杂依赖的理解能力。

MQA如何提高 LLM 中 Transformer 的效率？

多查询注意力是自注意力的变体，通过共享键-查询对降低内存占用和计算复杂性，同时保持模型关注能力。这种优化特别适用于处理长序列或大型数据集的大语言模型。

大模型中有加入dropout的吗？

Llama3的注意力机制未实现dropout，而Qwen虽然配置了dropout参数，但实际设置为0.0，因此两者在推理时均不执行注意力丢弃操作。

大模型中不用dropout的主要原因？

Dropout在大模型中因引入噪声加剧训练不稳定性，增加计算开销，且效果有限。大模型通过结构优化（如MQA、残差）和多领域数据预训练已具备良好泛化性，实验表明dropout对小模型有效，但对大模型效果不显著甚至负面，因此现代LLM普遍弃用。

Prefix LM和Causal LM的区别是啥？

Prefix LM与Causal LM的主要区别在于attention mask不同。Prefix LM在输入前添加任务相关前缀，并允许前缀关注整个序列；Causal LM仅基于历史信息自回归生成，无法访问未来内容。

不要傻呵呵等金九银十了（附大模型面试题）

先说校招

再聊社招

小结

大模型基础概念

简单介绍一下大模型

大模型后面跟的 如5B、7B、31B 等指什么

大模型具有什么优点？

大模型具有什么缺点？

大模型产生复读机的原因和解决方法是什么？

大模型 LLM 的训练目标是什么？

说下LLM的关键参数是哪些？

LLM是如何工作的？

LLM通常是通过什么方式训练的？

简单介绍Transformer网络？

什么是幻觉，以及如何通过提示工程加以控制？

涌现能力是啥原因？

假设我有一个LLM模型如何根据我的需求使用数据对其进行定制？

如何估算微调 LLM 的基础设施需求？

使用少样本提示时需要注意哪些方面？

嵌入短内容和长内容有什么区别？

在 LLM 应用中如何使用嵌入模型？

如何在 LLM 中使用停止序列？

如何写出高质量的提示？

如何在不同层面控制 LLM 的幻觉？

如何提高 LLM 的准确性和可靠性，并使其回答可验证？

如何写出高质量的提示？

如何在不同层面控制 LLM 的幻觉？

如何提高 LLM 的准确性和可靠性，并使其回答可验证？

如何缓解 LLM 中的灾难性遗忘？

OpenAI 函数和 LangChain 函数有什么区别？

如何在控制成本的同时获得 LLM 系统的最佳性能和功能？

如何处理 LLM 中的过拟合？

如何处理语言模型中的长期依赖关系？

如果CoT提示失败了，你怎么改进 LLM 的推理能力？

如何处理大型语言模型中的偏见？

解释LLM文本生成中的温度概念

什么是掩码语言建模（MLM）？

什么是序列到序列模型？

自回归模型和掩码模型有何不同

嵌入在LLM中扮演什么角色？

什么是下一句预测（NSP）？

如何评估 LLM 的性能？

提示工程如何影响LLM输出？

如何减轻LLM中的灾难性遗忘？

什么是模型蒸馏，它如何应用于LLM？

LLM如何处理词汇表外（OOV）单词？

Transformer架构如何克服Seq2Seq模型的挑战？

什么是过拟合，如何防止它？

什么是生成模型和判别模型？

GPT-4与GPT-3有何不同？

各厂家开源的Base,Chat,Instruction之间有什么区别？

目前主流的开源模型体系有哪些？

prefix Decoder、causal Decoder 和 Encoder-Decoder 的区别是什么？

LLama1, LLama2和LLama3的区别有哪些？

知识蒸馏是什么，它在 LLM 中如何使用？

链式思考（CoT）提示如何提高 LLM 的推理能力？

缩放定律分析如何帮助优化 LLM 的设计？

模型剪枝如何在不牺牲性能的情况下提高 LLM 的效率？

零样本学习是什么，它如何应用于 LLM？

LLM 中特定任务的微调与零样本学习有何不同？

梯度检查点如何减少大型 LLM 训练中的内存使用？

多任务学习如何使 LLM 受益？

课程学习如何帮助 LLM 学习复杂任务？

超参数调整如何影响 LLM 的性能？

对比学习如何改进 LLM 的表示？

知识图谱整合如何增强 LLM？

什么是上下文窗口大小，它如何影响 LLM 的性能？

参数共享是什么，它如何提高 LLM 的效率？

什么是多模态学习，它如何扩展 LLM 的能力？

在合成数据上进行预训练如何使 LLM 受益？

上下文嵌入在 LLM 中的作用是什么，它与静态嵌入有何不同？

简单说下PPL指标的计算逻辑？

对于二分类任务的few-shot，in-content learning和supervised learning的区别是啥？

SFT packing是什么？

MCP和functional calling的区别是什么？

解释下minimax中lighting attention的由来

LangChain和Agent

什么是 LangChain，为什么它很有用？

解释 LangChain 的关键组件。

大模型后面跟的如5B、7B、31B 等指什么

`set_debug(True)` 是如何工作的？