type
status
date
slug
summary
tags
category
icon
password
因为毕设方向是生成式AI,这是我的毕设导师推荐我看的哈哈。
视频比较有意思,唯一的门槛就是要懂点线性代数了吧🤣
我的笔记记得一般,看视频会更加明白。下面这篇也有与transformer相关的笔记,可以看下。值得一看的工具随记
最后附上Transformer原文, 希望有机会能精读下全文。(🤡导师发话了,这下是不得不看了
Transformer框架基础笔记
写在前面
- 整个视频1小时左右,我一共看了2天,看完之后也确实对一些概念化的东西形成了更加通俗易懂的理解。
- 【一小时从函数到Transformer!一路大白话彻底理解AI原理-哔哩哔哩】 https://b23.tv/Hk7LjNb
01 从函数到神经网络
- 早期-符号主义
函数functions: ,所有的逻辑和知识都可以用表示

Functions describe the world.
- 近代-联结主义(近似解)
由线性到非线性:,g为激活函数
- 激活函数越复杂,函数变化能力越强


每套一个,神经元就多扩展一个。
已知x、y,“猜出”w、b。
(贴一个Greek Letters List)
02 计算神经网络参数
- 什么样的w、b是好的?
- 拟合得好才是真的好。
- 损失函数:
- 均方误差 (Mean Squared Error, MSE):
- 目标:求解让L最小的w、b
偏导为0,即FOC=0
- 复杂化的梯度表示:
为学习率。梯度下降即不断变化w、b使L变小。
- 求偏导

- 链式法则:
- 反向传播:从左到右依次求导,并从右向左依次更新参数
03 调教神经网络的方法
- 过拟合:在训练集上很完美但在测试集中表现很糟糕
why:模型也学会了噪声和随机波动
- 泛化能力:在测试集中的表现能力
- how 改善?
- 简化模型复杂度
- 增加训练集的数据量
数据增强:在原有数据创造更多数据,可增加鲁棒性(不因input一点变化就变很多)
- 调整训练过程(超参数)
正则化:向loss function添加惩罚项,抑制函数野蛮生长。
正则化系数:,也叫超参数(控制参数的参数)。
新loss function(L1正则化):损失函数+
新loss function(L2正则化):损失函数+
即损失函数+惩罚项,两者折合效果要往小了去。
- 随机丢弃一些参数
避免过度依赖少量参数—Dropout
- 其他问题
- 梯度消失:网络越深,梯度反向传播越小,参数更新困难
- 梯度爆炸:梯度数值过大,参数调整幅度失去控制
- 收敛速度过慢:陷入局部最优or来回震荡
- 计算开销过大:数据规模量庞大,完整的前向/反向传播很耗时
- 一些解决方法:
- 梯度裁剪:防止梯度更新过大
- 残差网络:防止深层网络的梯度衰减
- 权重初始化/归一化:使梯度分布更平滑
- 动量法、RMSProp、Adam:自适应优化器,加速收敛、减少震荡
- mini-match:将巨量数据分割成几个小批次,降低单词计算开销
04 从矩阵到CNN

⇒
- 第一层:
- 第二层:
- 第L层:
- 卷积运算:
为神经网络第一层。
捕捉局部特征、减少权重参数数量。
- 全连接层(FC):每个神经元都与前一层的所有神经元相连
- 卷积运算:原矩阵与卷积核(固定矩阵)对应位置相乘并求和
卷积核的参数未知,要靠神经网络训练出来
- 神经网络

- 图像识别的神经网络

对特征图像降维,减少计算量,保留主要特征。
- 卷积神经网络CNN:适用于图像识别领域的神经网络结构
优点:方便可视化。
局限:主要用于静态数据(时间序列、文本、语言、视频等动态数据用另一种神经网络)
05 从RNN到Transformer
- 编码:把文字变成计算机能识别的数字
- 数字识别:用一个数字代表一个词
一维向量,维度低。
- 超级大向量:每个词只在其中一个位置是1,其他位置为0
one-hot独热编码:维度高,非常稀疏,向量相互正交,无相关性。
- 词嵌入word embedding:每个位置为1个特征值,由训练得出
相关性:点积;余弦相似度
嵌入矩阵:每一列表示1个词向量,由深度学习方法训练得出。
e.g.word2vec(附一个Word2Vec Research Paper Explained)
潜空间:词向量所在空间(高维),一般可降维投影到二/三维。
- 自然语言处理
- 按照词语先后顺序,减少输入的参数量
…
- 循环神经网络:RNN(具备理解词先后顺序的能力)

:前一时刻的隐藏状态。
- RNN问题
- 无法捕捉长期依赖(信息会逐渐丢失)
- 无法并行运算
06 Transformer简单而强大
- 将位置编码加到词向量中

- 让每个词加上其他词的位置信息

- 即第1个词中有上下文的所有信息

- 每个词所包含的上下文信息(为新的词向量:包含位置信息和其他词上下文信息)

即Attention注意力机制。
- 通过多个head重复计算

再拼接,即Multi- Head多头注意力。
- Transformer架构-核心计算流程
(1) 输入嵌入 (Input Embedding)
- 将输入的词语(Token)转换为固定维度的向量表示,输出词向量。
(2) 位置编码 (Positional Encoding, PE)
- 通过位置编码将词语的绝对和相对位置信息注入到嵌入向量中。位置编码与词嵌入相加,共同作为编码器/解码器堆栈的输入。
(3) 多头注意力机制 (Multi-Head Attention)
- 允许模型并行地在不同的表示子空间(即不同的“头”)中,关注输入序列的不同部分,从而捕捉更复杂、多维度的上下文依赖关系。

单头注意力 (Single-Head Attention): 通过计算Query(Q)、Key(K)、Value(V)的点积来衡量相关性并提取信息。 多头注意力 (Multi-Head Attention): 将Q, K, V投影到个不同的子空间,分别执行次注意力计算,然后将结果拼接(Concatenate)并再次投影。

(4) 残差连接与层归一化 (Residual Connections and Layer Normalization)
- 在每一个子层的输出之后,都遵循以下操作:残差连接 (Residual Connection): 将子层的输入直接加到子层的输出上,即,解决梯度消失问题,并加速训练收敛。层归一化 (LN): 在残差连接后应用归一化,稳定网络中每一层输入分布的均值和方差,使得训练过程更稳定、更快速。
- 核心公式
(1)缩放点积注意力(Scaled Dot-Product Attention)
(2)多头注意力(Multi-Head Attention)
- 多头注意力将矩阵线性投影次(即个“头”),分别计算注意力,然后将结果拼接并进行最终线性投影。
where
Attention is all you need.
- Transformer示意图

Figure 2:model architecture(xinyi.ver)
(想必一定是右图画得更好吧🤣
07 速通大模型100词
为什么OCR识别不出我的手写笔记,可能是我的字太丑吧…只能一个一个打字了。
- 函数 Function
- 符号主义 Symbolism
- 联结主义 Connectionism
- 模型 Model
- 权重 Weight(模型里的参数)
- 大模型 Large Model(参数量特别大)
- 大语言模型 LLM:Large Language Model(用于自然语言处理的大模型)
- 训练 training(调整参数的过程)
- 预训练 Pretraining(事先训练的一个基础模型)
- 微调 Fine-tuning(基于Pretraining让模型继续训练,让model学习具体任务)
- 推理 Inference(调好参后,基于input有output)
- 涌现 Emergence(量变引起质变,出现之前没有的现象)
- ChatGPT(2023)用于聊天的模型
- GPT(Generative Pre-trained Transformer)
- Open AI(CloseAI:闭源)
- 闭源模型 Closed-source Model(不开放源代码,不提供权重,只对外提供服务)e.g. ChatGPT、Claude、Gemini
- 开放权重 Open-weight Model(下载权重部署到自己电脑上,但未开放代码/训练数据) e.g. DeepSeek、Lama
- 完全开源 Fully Open-source Model(完全开放权重、代码和训练数据) e.g. Mistral
- 私有化部署 Private Deployment(不依赖于他人服务,将模型下载到本地使用)
- 云桌面 Cloud Desktop
- 镜像
- 生成式AI Generative AI(基于input自动生成内容的人工智能系统)
- token(分割为最小力度的词)
- 上下文 Context(对话时给大模型的信息)
- 提示词 Prompt(指导模型的回答流程和风格)
- 提示词工程师 Prompt Engineer(教怎么跟大模型说话)
- 随机性 Randomness(下一个词的生成不总是取前面概率最高的词)
- 温度 Temperature(控制输出随机性的参数)
- Top-K 从概率最高的K个词中选
- 幻觉 Hallucination(语言上说得通,但事实狗屁不通,出现虚假信息)
- 联网 Browsing(将网上查的信息与问题拼在一起)
- 炸裂体 炸了,天塌了,
人类完了。
- 检索增强生成 RAG(Retrieval-Augmented Generation,从私有数据库中查找答案)
- 知识库 KB(Knowledge Base,私有数据库)
- 向量数据库 Vector Database(模型与知识库中知识匹配,以向量形式存储)
- 词嵌入 Embedding(文字转化为词向量)
- 向量检索 Vector Search(对比词向量之间的相似度,在知识库中找到相关答案)
- PGC Professionally Generated Content(由专家权威创作的内容)
- UGC User Generated Content(由普通用户创作的内容)
- AIGC AI Generated Content(AI创作/辅助创作的内容)
- 通用人工智能 AGI(Artificial General Intelligence,对人工智能最终形态的畅想及通用人工智能)
- 多模态 Multimodel(处理多种模式内容)
- 工作流 Workflow(把多个步骤编排成一个流程)
- 扣子 Coze(在页面上傻瓜操作编排工作流的工具)
- Long Chain(用代码的方式编排工作流的框架)
- 智能体 Agent(按工作流封装大模型和一整套工具集,用于自动完成某一类复杂任务的程序)
- 多智能体 Multi-Agent(多个智能体相互协作,完成更复杂的任务)
- 插件 Plugin
- AutoGPT 一种智能体
- Manus 一种智能体
- MCP Model Context Protocol(AI操作外部世界的统一标准)
- A2A Agent-to-Agent Protocol(Google于2025.4推出Agent与Agent通信协议)
- 模型压缩 Model Compression(减少成本,方便个人使用)
- 量化 Quantization(浮点数用更低精度显示,减少显存和计算量化)
- 蒸馏 Distillation(用参数量较大的大模型指导参数量较小的小模型)
- 剪枝 Pruning(删除模型中不重要的神经元,稀疏模型提高浓度)
- LoRA Low-Rank Adaptation(更低成本改善微调方式)
- 思维链 Chain-of-Thoughts(从推理能力方向增强模型能力)
- RLHF 人类反馈强化学习(让模型说话更符合人类的方式)
- 套壳(封装并提供服务)
- 铲子(不直接卖“金子”,帮人淘金。提供AI工具、AI服务、AI课程、AI社区等)
- NLP 自然语言处理(和文字相关)
- Claude
- Gemini
- DeepSeek
- DouBao
- Qwen
- Tencent Hunyuan
- CV 计算机视觉(和图片相关)
- Midjourney(闭源)
- Stable Diffusion(开源)
- ComfyUI(绘画工作流软件)
- TSS(文本转语音,和语言相关)
- ASR(语言识别)
- Sora(视频相关)
- 可灵 Kling(AI视频生成应用)
- 即梦 Dreamina
- 数字人 Digital Human
- GPU 图形处理单元 e.g.英伟达的显卡
- CUDA NVIDA推出的开发框架
- TPU Tensor Processing Unit(用于大模型神经网络训练与推理)
- NPU Neural Processing Unit(用于终端设备推理的AI加速芯片)
- Python AI编程语言
- Pytorch 深度学习框架(AI编程的库)
- TensorFlow 深度学习框架
- Hugging Face AI开源平台及社区
- Ollama 本地运行大模型工具
- VLLM 大模型推理引擎(提升大语言模型推理速度)
- Cursor AI编程助手、软件
- GitHub Copilot 编程助手、插件
- 数学 Mathematics
- 神经网络 Neural Network
- 损失函数 Loss Function
- 反向传播 Back propagation(训练参数)
- MLP 多层感知机
- CNN 卷积神经网络(图像处理)
- RNN 循环神经网络(序列数据处理)
- Attention 注意力机制
- Transformer 神框架
Transformer全文链接
📎手写笔记
链接失效或有疑问请随时联系我,感谢。
- 作者:Jupyter Mou
- 链接:http://jupytermou.com/article/function-transformer
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。














