From Large Language Models to Reasoning Language Models - Three Eras in The Age of Computation.

Era of model size scaling 模型规模扩展的时代

2017 - Transformers “Attention is All you Need”

  1. 核心思想与贡献

目标:用纯注意力机制(无需RNN/CNN)解决序列建模问题,实现并行化训练并捕获长距离依赖。

关键创新

 **自注意力(Self-Attention)**:动态计算序列中所有位置间的关联权重。
 **多头注意力(Multi-Head Attention)**:并行学习不同子空间的注意力模式。
 **位置编码(Positional Encoding)**:注入序列顺序信息,替代RNN的时序性。