In-Context Learning as Implicit Bayesian Inference

In-Context Learning (ICL) 是 LLMs 中涌现出来的一种 few-shot 学习的能力,通过在 Prompt 中添加一些“示例”就能让 LLMs 遵循与示例相同的指令。LLMs 并没有经过从示例中学习的训练,其仅仅是以网上海量的数据在给定上下文的情况下来预测下一个标记的方式来训练的。这是 ICL 最令人迷惑的地方。

只需在 Prompt 中增加少量的“示例”就能到达用更多标注数据训练出来模型相当的效果,这为 LLMs 的落地和使用打开了方便的大门。各行业人士不需要 LLMs 专业的知识(微调、模型训练),就可以利用 ICL 为各自的业务快速构建模型。可以说 ICL 是当前 LLMs 繁荣的基石。

如何理解 ICL 很重要,这篇论文(1) (对应的博文) 从贝叶斯推断的视角提供了一种解释。

1. 参考文献

[1] Xie, Sang Michael and Raghunathan, Aditi and Liang, Percy and Ma, Tengyu, An {{Explanation}} of {{In-context Learning}} as {{Implicit Bayesian Inference}}, 2021.


Created with Emacs 29.4 (Org mode 9.6.15) by YangXue
Updated: 2025-01-24 Fri 01:31