多模态大语言模型(长期更新)
注意: 本文正在更新中,内容只是草稿版本,并不完善,后续会有变动。请随时关注最新版本。 人类通过多种感官(视觉、听觉、触觉等)与世界互动,每种感官通道在表征和交流特定概念时都具有独特的优势。这种多模态交互促进了我们对世界的深刻理解。人工智能领域的核心目标之一便是开发能够有效遵循多模态指令(如视觉和语言)的通用助手,使其能够像人类一样完成现实世界的各种任务。近年来,随着 GPT-4o (OpenAI, 2024)、Gemini 2.5 Pro (DeepMind, 2025) 和 o3/o4-mini (OpenAI, 2025) 等模型的发布,多模态大语言模型(Multimodal Large Language Models, MLLMs) 取得了显著进展,它们不仅能理解图像、视频、音频等多种模态信息,还能进行复杂的推理和生成。 ...