泛化能力是什么

0 阅读1分钟

泛化能力就是:模型在没见过的新数据上,依然能表现良好的能力。

这正是接着"拟合"来理解最自然的概念——恰好拟合的模型,就是泛化能力强的模型。

image.png

和之前聊的"拟合"直接关联:过拟合的模型泛化能力差(死记答案),欠拟合的模型泛化能力也差(连规律都没学会),只有恰好拟合的模型,才真正具备泛化能力。

为什么大模型的泛化能力特别令人惊讶?

GPT、Claude 这类模型训练完成后,从未专门学过"写诗""调试代码""翻译藏语"这些任务,但它们都能做——这就是泛化能力的体现。背后的原因是:语言本身有深层的共同规律,模型学到的不是具体内容,而是语言的底层逻辑。

这也是大模型和传统搜索引擎最本质的区别:搜索引擎只能检索见过的内容,而大模型能在没见过的情境下推理出新答案。