值得一看的工具随记 | JupyterMou’s Blog

type

status

date

slug

summary

AI世界的基石：Token与Embedding

@lp.Zhang：这视频示意图做的很直观。 @jupyter.Mou：几分钟小视频，讲得很干货，也容易理解，讲得都是必备知识，可以看下。

AI世界的基石：Token与Embedding，一次讲透！_哔哩哔哩_bilibili

一个空格，凭什么耗费AI数十亿？揭秘大模型眼中的“天大的事”, 视频播放量 9685、弹幕量 8、点赞数 411、投硬币枚数 170、收藏人数 780、转发人数 95, 视频作者 AI茜茜茜, 作者简介实用AI工具、科技洞察、效率提升，一起探索 AI 赋能的精彩未来！，相关视频：一小时从函数到Transformer！一路大白话彻底理解AI原理，10分钟讲清楚 Prompt, Agent, MCP 是什么，10分钟，让你彻底理解Transformer，Transformer从零详细解读(可能是你见过最通俗易懂的讲解)，原来写一个 AI Agent 这么简单，DeepSeek为什么会跌落神坛？，【科普】如何感性的理解AI大模型是什么，Google AI炸裂更新， 30個疯狂应用，完全免費，Google AI Studio、NotebookLM、Gemini 2.5pro、Opal 一次上手，翻遍整个B站，这绝对是2025讲的最好的AI Agent智能体教程，手把手教你从0基础开始搭建企业级Agent智能体！全程干货无废话，让你少走99%弯路！！，MCP是啥？技术原理是什么？一个视频搞懂MCP的一切。Windows系统配置MCP，Cursor Cline使用MCP

https://b23.tv/3IGLDz3

token

Token：AI输出的最小单位，看懂输入内容的关键。

Tokenizer：分词器，把输入内容切成一块一块的token。

GPT-4o模型中，常回基地看看！被切割为7个token。

Token ID：每一个切割的碎片（token）对应的“身份证号”。

GPT-4o：输入一句话，模型转换为：一串数字，逗号，一串数字…

模型生成回答：预测下一个最有可能出现的文字。

模型生成token ID，tokenizer通过“词典”翻译为汉字输出。

使用词块而非句子：减小词典规模

使用词块而非字母/字：减小翻译规模

若不认识语句，切换成最原始的字节模式。

分词比较：

LLaMA-3和Qwen3的分词方式相似：都使用SentencePiece+BPE的分词器

贴一个：HuggingFace上的Transformer简介。

分词器的训练：用海量英文语料训练的，擅长处理英文；用代码训练的，擅长处理代码…

分词器也分“特化”版本。

模型的进化：将控制python缩进的4个空格看作一个整体，即一个token。

DeepSeek-Coder：将888拆为3个token

ChatGPT：加入”<|user|>”、”<|assistant|>”，加入对话轮次和角色。

分词器进化史：成为模型能力的定义者。

模型：通过tokenizer把输入的文字变成数字ID

Embedding嵌入

Embedding嵌入：AI理解世界的方式

给每一个token ID分配一个“坐标”，在多维空间中形成庞大的矩阵。

词块越相似，在多维空间中的距离越近。

AI通过“空间距离”来理解词语之间的关系。

语境化嵌入contextualized embedding

明确不同语境（“吃苹果”和“苹果公司”）中的词块（“苹果”）含义。

“吃苹果”：大模型将“苹果”的初始固定坐标进行一次瞬间移动，挪到靠近“水果”、“芒果”等概念的区域。

“苹果公司”：大模型将“苹果”的坐标瞬间移动到靠近“手机”、“数码”等概念的区域。

大模型的“理解”：同一个词，在不同句子里拥有了不同的、动态的坐标。

BERT中文模型理解：用分词器切碎句子，并在前后加入[CLS]、[SEP]两个token（开始处理、处理完成）。

模型输出一个的矩阵，经过动态计算后的浮点数，即包含上下文关系的新坐标。

坐标从何而来：大模型经过海量训练、对比学习预测得出。

从数字ID、到空间向量，再到万事万物的关联。

Embedding Projector

@jupyter.Mou：这是
📈
Linear Programming&Integer Programming中提到的一个网站，大概是用英文单词embedding向量得到的超高维空间，再降维到二/三维，也添加了relevance，输入英文单词也可以看到相关单词的位置，比较有意思。

Embedding projector - visualization of high-dimensional data

Visualize high dimensional data.

https://projector.tensorflow.org/

Gemini3 prompt指南

@jupyter.Mou：lpZ发我的。
Gemini 3 提示词工程指南.pdf
954.3 KiB
Gemini 3 提示词工程：通用最佳实践.pdf
689.2 KiB

使用过的VPN

如果有好用性价比高的可以推荐给我～

飞连vpn @jupyter.Mou：这是最近开始用的，主要比之前用的便宜点哈哈。教程很详细，如果导入失败可以换个代理APP。我目前用的是ios端Shadowrocket；mac端Clash Verge。用几个月再来写下评价吧。

快塔vpn @jupyter.Mou：这个超级稳定，我从2023年开始用一直都是这个。流量很足，缺点是小贵吧，我有时候用不了那么多。这个使用的代理APP是ios端Shadowrocket；mac端ClashX Pro。

测试IP的网站：https://ip.sb

大模型的训练原理：梯度下降

@jupyter.Mou：梯度下降讲得通俗易懂,这篇视频里没懂的可以看看这篇。

大模型的训练原理梯度下降：从一条直线讲起_哔哩哔哩_bilibili

从Linear到MLP AI模型的数学本质 https://www.bilibili.com/video/BV1i5koBtEUU从零搭建神经网络，识别手写数字 https://www.bilibili.com/video/BV1ypUkB7Eki加入知识星球（鞠躬感谢！）：https://t.zsxq.com/ubYr8, 视频播放量 2178、弹幕量 3、点赞数 148、投硬币枚数 73、收藏人数 104、转发人数 5, 视频作者隔壁的程序员老王, 作者简介喜欢分享知识的程序员个人主页：codewithwang.com，相关视频：【中配】英伟达刚刚终结了 iPhone 时代——迎接首款 AI 新概念手机，15分钟从CNN到Transformer！一路大白话理解AI关键原理，从神器到弃子，新版DeepSeek评测：别被分数骗了！，AI 提示词工程上下文工程 15分钟弄懂！，第三次失业潮后，IT行业已是夕阳产业，2026年程序员该何去何从？（码士集团），10分钟，让你彻底理解Transformer，不至于吧，梯度下降简单得有点离谱了啊！，1张4090 48G显卡先入DeepSeek已经满足很多小微团队，满血DeepSeek现在咨询的越来越少，，大家都在关心各种大模型，硬件预算真的不用太高了。，Qwen出图10倍质感提升，国人审美脸，这套摄影质感提升工作流，开源模型党必看，网络层：一个数据包的史诗之旅

https://b23.tv/ldBW1tV

介绍

最简单的模型：

训练目的：确定和的值

训练数据：1000组input和output

损失函数

将模型的参数赋值为一个随机数

；；

将代入模型

；和到底差多少？

Loss Function 损失函数

通过调整和的值让和的差距（）足够小。

为了避免折点，更方便计算，更新常用损失函数为：

该损失函数也叫：平方误差 Squared Error.

梯度下降

公式右侧已知，已知。

调整的值，让变小

只把当作变量：当增加时，减小；当减小时，增加（知道该往什么方向调整）变化趋势：在的斜率，即梯度。

梯度：将对求导

梯度可由Pytorch等函数库计算。

越接近最近点，梯度（斜率）越接近于0.

调整

: learning rate，控制变化多远，不能太大，也不能太小。取值策略很多，e.g. 指定一个固定的learning rate

参数：有数据训练出的数字。超参数（Hyper parameter）：需要手动设置的数字。

改表 b 的值，让Loss变小

把当作未知量：和同时调整，仍为0.5。

将对求导

调整

更新和

选取另外训练数据不断重复训练过程，直到变为较小的数值。

因为 , 沿着梯度（斜率）减小，所以叫梯度下降。

批量训练

同时训练100个和 b ，得到100个

针对100个数据的新损失函数：该损失函数：平均平方误差 Mean Square Error(MSE)

先把当成未知量，其他当作已知量，求梯度，再调整

再把当成未知量，其他当作已知量，求梯度，再调整

避免单个数据点导致偏离正确函数的可能。多个数据点平均下来一定收敛于正确公式。

batch size（超参数）：一次训练的数据量。

梯度下降时，使用损失函数，不是模型本身。梯度下降时，只有一个未知量（即当前正在调整的参数）。

“只要方向是对的，必将收敛于那个美好的未来。”