MHA | Yue Shui 博客

背景 Transformer (Vaswani et al., 2017）是一种基于编码器-解码器架构的模型。此模型在自然处理领域中展示了卓越的性能，随后一系列模型在此基础上进行了优化，例如仅使用编码器的 BERT (Devlin et al., 2018）或仅使用解码器的 GPT (Radford et al., 2018）系列，以及后续的大型语言模型如 LLaMA (Touvron et al., 2023）和 GPT-4 (OpenAI al., 2024）系列，这些模型大多采用了仅解码器的结构。 ...