Transformer框架基础 | JupyterMou’s Blog

type

status

date

slug

summary

Transformer框架基础笔记

写在前面

整个视频1小时左右，我一共看了2天，看完之后也确实对一些概念化的东西形成了更加通俗易懂的理解。

【一小时从函数到Transformer！一路大白话彻底理解AI原理-哔哩哔哩】 https://b23.tv/Hk7LjNb

01 从函数到神经网络

早期-符号主义

函数functions: ，所有的逻辑和知识都可以用表示

Functions describe the world.

近代-联结主义（近似解）

由线性到非线性：,g为激活函数

激活函数越复杂，函数变化能力越强

每套一个，神经元就多扩展一个。已知x、y，“猜出”w、b。

（贴一个Greek Letters List）

02 计算神经网络参数

什么样的w、b是好的？

拟合得好才是真的好。

损失函数：

均方误差 (Mean Squared Error, MSE)：

目标：求解让L最小的w、b

偏导为0，即FOC=0

复杂化的梯度表示：

为学习率。梯度下降即不断变化w、b使L变小。

求偏导

链式法则：

反向传播：从左到右依次求导，并从右向左依次更新参数

03 调教神经网络的方法

过拟合：在训练集上很完美但在测试集中表现很糟糕

why：模型也学会了噪声和随机波动

泛化能力：在测试集中的表现能力

how 改善？

简化模型复杂度

增加训练集的数据量

数据增强：在原有数据创造更多数据，可增加鲁棒性（不因input一点变化就变很多）

调整训练过程（超参数）

正则化：向loss function添加惩罚项，抑制函数野蛮生长。正则化系数：，也叫超参数（控制参数的参数）。新loss function（L1正则化）：损失函数+ 新loss function（L2正则化）：损失函数+ 即损失函数+惩罚项，两者折合效果要往小了去。

随机丢弃一些参数

避免过度依赖少量参数—Dropout

其他问题

梯度消失：网络越深，梯度反向传播越小，参数更新困难

梯度爆炸：梯度数值过大，参数调整幅度失去控制

收敛速度过慢：陷入局部最优or来回震荡

计算开销过大：数据规模量庞大，完整的前向/反向传播很耗时

一些解决方法：

梯度裁剪：防止梯度更新过大

残差网络：防止深层网络的梯度衰减

权重初始化/归一化：使梯度分布更平滑

动量法、RMSProp、Adam：自适应优化器，加速收敛、减少震荡

mini-match：将巨量数据分割成几个小批次，降低单词计算开销

04 从矩阵到CNN

⇒

第一层：

第二层：

第L层：

卷积运算：

为神经网络第一层。捕捉局部特征、减少权重参数数量。

全连接层（FC）：每个神经元都与前一层的所有神经元相连

卷积运算：原矩阵与卷积核（固定矩阵）对应位置相乘并求和

卷积核的参数未知，要靠神经网络训练出来

Source: https://www.cnblogs.com/limitless-coding/p/16944946.html

神经网络

图像识别的神经网络

对特征图像降维，减少计算量，保留主要特征。

卷积神经网络CNN：适用于图像识别领域的神经网络结构

优点：方便可视化。局限：主要用于静态数据（时间序列、文本、语言、视频等动态数据用另一种神经网络）

05 从RNN到Transformer

编码：把文字变成计算机能识别的数字

数字识别：用一个数字代表一个词

一维向量，维度低。

超级大向量：每个词只在其中一个位置是1，其他位置为0

one-hot独热编码：维度高，非常稀疏，向量相互正交，无相关性。

词嵌入word embedding：每个位置为1个特征值，由训练得出

相关性：点积；余弦相似度嵌入矩阵：每一列表示1个词向量，由深度学习方法训练得出。 e.g.word2vec（附一个Word2Vec Research Paper Explained）潜空间：词向量所在空间（高维），一般可降维投影到二/三维。

自然语言处理

按照词语先后顺序，减少输入的参数量

…

循环神经网络：RNN（具备理解词先后顺序的能力）

：前一时刻的隐藏状态。

RNN问题

无法捕捉长期依赖（信息会逐渐丢失）

无法并行运算

使用GRU和LSTM改进传统RNN（只能缓解无法根治）

06 Transformer简单而强大

将位置编码加到词向量中

让每个词加上其他词的位置信息

即第1个词中有上下文的所有信息

每个词所包含的上下文信息（为新的词向量：包含位置信息和其他词上下文信息）

即Attention注意力机制。

通过多个head重复计算

再拼接，即Multi- Head多头注意力。

Transformer架构-核心计算流程

(1) 输入嵌入 (Input Embedding)

将输入的词语（Token）转换为固定维度的向量表示，输出词向量。

(2) 位置编码 (Positional Encoding, PE)

通过位置编码将词语的绝对和相对位置信息注入到嵌入向量中。位置编码与词嵌入相加，共同作为编码器/解码器堆栈的输入。

(3) 多头注意力机制 (Multi-Head Attention)

允许模型并行地在不同的表示子空间（即不同的“头”）中，关注输入序列的不同部分，从而捕捉更复杂、多维度的上下文依赖关系。

单头注意力 (Single-Head Attention)：通过计算Query（Q）、Key（K）、Value（V）的点积来衡量相关性并提取信息。多头注意力 (Multi-Head Attention)：将Q, K, V投影到个不同的子空间，分别执行次注意力计算，然后将结果拼接（Concatenate）并再次投影。

(4) 残差连接与层归一化 (Residual Connections and Layer Normalization)

在每一个子层的输出之后，都遵循以下操作：残差连接 (Residual Connection)：将子层的输入直接加到子层的输出上，即，解决梯度消失问题，并加速训练收敛。层归一化 (LN)：在残差连接后应用归一化，稳定网络中每一层输入分布的均值和方差，使得训练过程更稳定、更快速。

核心公式

（1）缩放点积注意力（Scaled Dot-Product Attention）

（2）多头注意力（Multi-Head Attention）

多头注意力将矩阵线性投影次（即个“头”），分别计算注意力，然后将结果拼接并进行最终线性投影。

where

Attention is all you need.

Transformer示意图

Figure 1:The Transformer - model architecture.

Figure 2:model architecture(xinyi.ver)

（想必一定是右图画得更好吧🤣

07 速通大模型100词

为什么OCR识别不出我的手写笔记，可能是我的字太丑吧…只能一个一个打字了。

函数 Function

符号主义 Symbolism

联结主义 Connectionism

模型 Model

权重 Weight（模型里的参数）

大模型 Large Model（参数量特别大）

大语言模型 LLM：Large Language Model（用于自然语言处理的大模型）

训练 training（调整参数的过程）

预训练 Pretraining（事先训练的一个基础模型）

微调 Fine-tuning（基于Pretraining让模型继续训练，让model学习具体任务）

推理 Inference（调好参后，基于input有output）

涌现 Emergence（量变引起质变，出现之前没有的现象）

ChatGPT（2023）用于聊天的模型

GPT（Generative Pre-trained Transformer）

Open AI（CloseAI：闭源）

闭源模型 Closed-source Model（不开放源代码，不提供权重，只对外提供服务）e.g. ChatGPT、Claude、Gemini

开放权重 Open-weight Model（下载权重部署到自己电脑上，但未开放代码/训练数据） e.g. DeepSeek、Lama

完全开源 Fully Open-source Model（完全开放权重、代码和训练数据） e.g. Mistral

私有化部署 Private Deployment（不依赖于他人服务，将模型下载到本地使用）

云桌面 Cloud Desktop

镜像

生成式AI Generative AI（基于input自动生成内容的人工智能系统）

token（分割为最小力度的词）

上下文 Context（对话时给大模型的信息）

提示词 Prompt（指导模型的回答流程和风格）

提示词工程师 Prompt Engineer（教怎么跟大模型说话）

随机性 Randomness（下一个词的生成不总是取前面概率最高的词）

温度 Temperature（控制输出随机性的参数）

Top-K 从概率最高的K个词中选

幻觉 Hallucination（语言上说得通，但事实狗屁不通，出现虚假信息）

联网 Browsing（将网上查的信息与问题拼在一起）

炸裂体炸了，天塌了，~~人类完了。~~

检索增强生成 RAG（Retrieval-Augmented Generation，从私有数据库中查找答案）

知识库 KB（Knowledge Base，私有数据库）

向量数据库 Vector Database（模型与知识库中知识匹配，以向量形式存储）

词嵌入 Embedding（文字转化为词向量）

向量检索 Vector Search（对比词向量之间的相似度，在知识库中找到相关答案）

PGC Professionally Generated Content（由专家权威创作的内容）

UGC User Generated Content（由普通用户创作的内容）

AIGC AI Generated Content（AI创作/辅助创作的内容）

通用人工智能 AGI（Artificial General Intelligence，对人工智能最终形态的畅想及通用人工智能）

多模态 Multimodel（处理多种模式内容）

工作流 Workflow（把多个步骤编排成一个流程）

扣子 Coze（在页面上傻瓜操作编排工作流的工具）

Long Chain（用代码的方式编排工作流的框架）

智能体 Agent（按工作流封装大模型和一整套工具集，用于自动完成某一类复杂任务的程序）

多智能体 Multi-Agent（多个智能体相互协作，完成更复杂的任务）

插件 Plugin

AutoGPT 一种智能体

Manus 一种智能体

MCP Model Context Protocol（AI操作外部世界的统一标准）

A2A Agent-to-Agent Protocol（Google于2025.4推出Agent与Agent通信协议）

模型压缩 Model Compression（减少成本，方便个人使用）

量化 Quantization（浮点数用更低精度显示，减少显存和计算量化）

蒸馏 Distillation（用参数量较大的大模型指导参数量较小的小模型）

剪枝 Pruning（删除模型中不重要的神经元，稀疏模型提高浓度）

LoRA Low-Rank Adaptation（更低成本改善微调方式）

思维链 Chain-of-Thoughts（从推理能力方向增强模型能力）

RLHF 人类反馈强化学习（让模型说话更符合人类的方式）

套壳（封装并提供服务）

铲子（不直接卖“金子”，帮人淘金。提供AI工具、AI服务、AI课程、AI社区等）

NLP 自然语言处理（和文字相关）

Claude

Gemini

DeepSeek

DouBao

Qwen

Tencent Hunyuan

CV 计算机视觉（和图片相关）

Midjourney（闭源）

Stable Diffusion（开源）

ComfyUI（绘画工作流软件）

TSS（文本转语音，和语言相关）

ASR（语言识别）

Sora（视频相关）

可灵 Kling（AI视频生成应用）

即梦 Dreamina

数字人 Digital Human

GPU 图形处理单元 e.g.英伟达的显卡

CUDA NVIDA推出的开发框架

TPU Tensor Processing Unit（用于大模型神经网络训练与推理）

NPU Neural Processing Unit（用于终端设备推理的AI加速芯片）

Python AI编程语言

Pytorch 深度学习框架（AI编程的库）

TensorFlow 深度学习框架

Hugging Face AI开源平台及社区

Ollama 本地运行大模型工具

VLLM 大模型推理引擎（提升大语言模型推理速度）

Cursor AI编程助手、软件

GitHub Copilot 编程助手、插件

数学 Mathematics

神经网络 Neural Network

损失函数 Loss Function

反向传播 Back propagation（训练参数）

MLP 多层感知机

CNN 卷积神经网络（图像处理）

RNN 循环神经网络（序列数据处理）

Attention 注意力机制

Transformer 神框架

JupyterMou‘s Blog😉

Transformer全文链接

Attention Is All You Need

The dominant sequence transduction models are based on complex recurrent or convolutional neural networks in an encoder-decoder configuration. The best performing models also connect the encoder...

https://arxiv.org/abs/1706.03762

📎手写笔记

从函数到Transformer-牟馨怡-20251116.pdf

4.2 MiB

链接失效或有疑问请随时联系我，感谢。