OpenAI o1复现进展:DeepSeek-R1
Created: 2025-01-27 · Updated: 2025-01-27 · 36 分钟 · 17588 字 · Yue Shui
Transformer注意力机制:MHA、MQA与GQA的对比
Created: 2025-01-16 · Updated: 2025-01-16 · 22 分钟 · 10726 字 · Yue Shui
构建特定领域的大语言模型
Created: 2025-01-05 · Updated: 2025-01-05 · 18 分钟 · 8675 字 · Yue Shui