gpt-oss & GPT-5

2025 年 8 月,AI 领域迎来了 OpenAI 的密集发布期。继 2019 年 GPT-2 (OpenAI, 2019) 之后,OpenAI 再次向开源社区贡献了其首个开放权重的大型语言模型系列 gpt-oss (OpenAI, 2025),包含 120B 和 20B 两种规模。紧随其后,备受瞩目的下一代旗舰模型 GPT-5 (OpenAI, 2025) 也正式发布。这一系列发布不仅标志着开源模型在推理和智能体能力上达到了新的高度,也揭示了 OpenAI 在模型架构、训练方法论以及安全对齐方面的最新进展。 ...

2025-08-24 · 9 分钟 · 4305 字 · Yue Shui

多模态大语言模型

人类通过多种感官(视觉、听觉、触觉等)与世界互动,每种感官通道在表征和交流特定概念时都具有独特的优势。这种多模态交互促进了我们对世界的深刻理解。人工智能领域的核心目标之一便是开发能够有效遵循多模态指令(如视觉和语言)的通用助手,使其能够像人类一样完成现实世界的各种任务。近年来,随着 GPT-4o (OpenAI, 2024)、Gemini 2.5 Pro (DeepMind, 2025) 和 o3/o4-mini (OpenAI, 2025) 等模型的发布,多模态大语言模型(Multimodal Large Language Models, MLLMs) 取得了显著进展,它们不仅能理解图像、视频、音频等多种模态信息,还能进行复杂的推理和生成。 ...

2025-05-04 · 37 分钟 · 18494 字 · Yue Shui