1. 封面
  2. 符号表
  3. 1. 机器学习基础
    1. 1.1. 高中数学回顾
    2. 1.2. 向量和矩阵
    3. 1.3. 另一个视角看矩阵
    4. 1.4. 从导数到偏导数
    5. 1.5. 概率论 [WIP]
    6. 1.6. 机器学习问题定义
    7. 1.7. 不同机器学习种类
  4. 2. 线性模型
    1. 2.1. 线性回归
    2. 2.2. 梯度下降 GD
    3. 2.3. 线性回归与梯度下降
    4. 2.4. 逻辑回归
    5. 2.5. 非线性变换
    6. 2.6. 支持向量机 SVM [WIP]
    7. 2.7. 核技巧 Kernel Trick
    8. 2.8. 支持向回归 SVR [WIP]
  5. 3. 机器学习实践
    1. 3.1. 梯度下降的变种
    2. 3.2. 过拟合和欠拟合
    3. 3.3. 数据集分割与验证
    4. 3.4. 评估指标
  6. 4. Old School [WIP]
    1. 4.1. 约束问题 CSP [WIP]
    2. 4.2. 广度搜索 BFS [WIP]
    3. 4.3. 深度搜索 DFS [WIP]
    4. 4.4. A*算法 [WIP]
    5. 4.5. Q学习算法 [WIP]
  7. 5. 接下来的路径
  8. 6. 深度学习
    1. 6.1. 感知机
    2. 6.2. 多层感知机 MLP
    3. 6.3. 计算图与反向传播
    4. 6.4. 多分类与 Softmax
    5. 6.5. 层 Layer
    6. 6.6. 卷积神经网络 CNN
    7. 6.7. 自编码器 AE
    8. 6.8. 变分自编码器 VAE [WIP]
    9. 6.9. 生成对抗网络 GAN
    10. 6.10. 自注意力机制与 Transformer [WIP]
  9. 7. 序列模型
    1. 7.1. 循环神经网络 RNN
    2. 7.2. 长短时记忆网络 LSTM
    3. 7.3. Transformer [WIP]
    4. 7.4. GPT [WIP]
  10. 8. 聚类算法
    1. 8.1. 层次聚类
    2. 8.2. K均值聚类
    3. 8.3. K近邻 [WIP]
    4. 8.4. DBScan [WIP]
    5. 8.5. 高斯混合模型 GMM [WIP]
  11. 9. 数据挖掘与数据分析 [WIP]
    1. 9.1. PCA [WIP]
    2. 9.2. SVD [WIP]
    3. 9.3. 随机森林 [WIP]
  12. 10. 优化
    1. 10.1. 凸函数
  13. 11. 信息论
    1. 11.1. 自信息与熵
    2. 11.2. 联合熵、条件熵、散度与互信息
  14. 12. 学习理论
    1. 12.1. PAC框架
  15. 13. 写在最后
  16. 代码附录

机器学习书:以高中数学视角

自注意力机制与 Transformer

找到了问题?在 GitHub 上编辑这个页面