type
Post
status
Published
date
Dec 8, 2025
slug
short-notes
summary
一些值得一看的工具瞎记。
tags
健康
工具
开发
学习
category
技术浅记
icon
password
😀
这里记录下本人在互联网上看到的or别人发给我的一些好玩的技术分享。 来源我都会署名,如果有不符规定的,请联系我修正。 👀如果有好玩的,也欢迎发给我看看,我的email:muxy0719@163.com

AI世界的基石:Token与Embedding

@lp.Zhang:这视频 示意图做的很直观。 @jupyter.Mou:几分钟小视频,讲得很干货,也容易理解,讲得都是必备知识,可以看下。
  1. token
  • Token:AI输出的最小单位,看懂输入内容的关键。
notion image
notion image
  • Tokenizer:分词器,把输入内容切成一块一块的token。
notion image
GPT-4o模型中,常回 基地看看!被切割为7个token。
notion image
  • Token ID:每一个切割的碎片(token)对应的“身份证号”。
notion image
GPT-4o:输入一句话,模型转换为:一串数字,逗号,一串数字…
notion image
  • 模型生成回答:预测下一个最有可能出现的文字。
  • 模型生成token ID,tokenizer通过“词典”翻译为汉字输出。
notion image
  • 使用词块而非句子:减小词典规模
  • 使用词块而非字母/字:减小翻译规模
若不认识语句,切换成最原始的字节模式。
notion image
  • 分词比较:
贴一个:HuggingFace上的Transformer简介
notion image
  • 分词器的训练:用海量英文语料训练的,擅长处理英文;用代码训练的,擅长处理代码…
notion image
  • 分词器也分“特化”版本。
notion image
模型的进化:将控制python缩进的4个空格看作一个整体,即一个token。
notion image
DeepSeek-Coder:将888拆为3个token
notion image
ChatGPT:加入”<|user|>””<|assistant|>”,加入对话轮次和角色。
notion image
  • 分词器进化史:成为模型能力的定义者。
notion image
notion image
  • 模型:通过tokenizer把输入的文字变成数字ID
notion image
  1. Embedding嵌入
  • Embedding嵌入:AI理解世界的方式
notion image
  • 给每一个token ID分配一个“坐标”,在多维空间中形成庞大的矩阵。
  • 词块越相似,在多维空间中的距离越近。
AI通过“空间距离”来理解词语之间的关系。
notion image
notion image
  • 语境化嵌入contextualized embedding
明确不同语境(“吃苹果”和“苹果公司”)中的词块(“苹果”)含义。
notion image
“吃苹果”:大模型将“苹果”的初始固定坐标进行一次瞬间移动,挪到靠近“水果”、“芒果”等概念的区域。
notion image
“苹果公司”:大模型将“苹果”的坐标瞬间移动到靠近“手机”、“数码”等概念的区域。
大模型的“理解”:同一个词,在不同句子里拥有了不同的、动态的坐标。
notion image
BERT中文模型理解:用分词器切碎句子,并在前后加入[CLS][SEP]两个token(开始处理、处理完成)。
notion image
notion image
模型输出一个的矩阵,经过动态计算后的浮点数,即包含上下文关系的新坐标。
notion image
坐标从何而来:大模型经过海量训练、对比学习预测得出。
notion image
notion image
从数字ID、到空间向量,再到万事万物的关联。
notion image

Embedding Projector

@jupyter.Mou:这是
📈
Linear Programming&Integer Programming
中提到的一个网站,大概是用英文单词embedding向量得到的超高维空间,再降维到二/三维,也添加了relevance,输入英文单词也可以看到相关单词的位置,比较有意思。

Gemini3 prompt指南

@jupyter.Mou:lpZ发我的。

使用过的VPN

如果有好用性价比高的可以推荐给我~
飞连vpn @jupyter.Mou:这是最近开始用的,主要比之前用的便宜点哈哈。教程很详细,如果导入失败可以换个代理APP。我目前用的是ios端Shadowrocket;mac端Clash Verge。用几个月再来写下评价吧。
快塔vpn @jupyter.Mou:这个超级稳定,我从2023年开始用一直都是这个。流量很足,缺点是小贵吧,我有时候用不了那么多。这个使用的代理APP是ios端Shadowrocket;mac端ClashX Pro。
测试IP的网站:https://ip.sb

大模型的训练原理:梯度下降

@jupyter.Mou:梯度下降讲得通俗易懂,这篇视频里没懂的可以看看这篇。
  1. 介绍
  • 最简单的模型:
  • 训练目的:确定的值
notion image
notion image
  • 训练数据:1000组input和output
notion image
  1. 损失函数
  • 将模型的参数赋值为一个随机数
  • 代入模型
到底差多少?
  • Loss Function 损失函数
通过调整 的值让 的差距()足够小。
  • 为了避免折点,更方便计算,更新常用损失函数为:
notion image
该损失函数也叫:平方误差 Squared Error.
  1. 梯度下降
公式右侧已知,已知。
  • 调整 的值,让变小
只把 当作变量: 增加时,减小;当 减小时,增加(知道该往什么方向调整) 变化趋势:的斜率,即梯度。
notion image
notion image
  • 梯度:将 求导
梯度可由Pytorch等函数库计算。
越接近最近点,梯度(斜率)越接近于0.
notion image
notion image
  • 调整
: learning rate,控制 变化多远,不能太大,也不能太小。 取值策略很多,e.g. 指定一个固定的learning rate
notion image
参数:有数据训练出的数字。 超参数(Hyper parameter):需要手动设置的数字。
  • 改表 b 的值,让Loss变小
当作未知量: 同时调整, 仍为0.5。
  • 求导
  • 调整
  • 更新
notion image
  • 选取另外训练数据不断重复训练过程,直到变为较小的数值。
因为 , 沿着梯度(斜率)减小,所以叫梯度下降。
  1. 批量训练
  • 同时训练100个 和 b ,得到100个
针对100个数据的新损失函数: 该损失函数:平均平方误差 Mean Square Error(MSE)
notion image
 
notion image
  • 先把 当成未知量,其他当作已知量,求梯度,再调整
  • 再把 当成未知量,其他当作已知量,求梯度,再调整
避免单个数据点导致偏离正确函数的可能。 多个数据点平均下来一定收敛于正确公式。
  • batch size(超参数):一次训练的数据量。
梯度下降时,使用损失函数,不是模型本身。 梯度下降时,只有一个未知量(即当前正在调整的参数)。
notion image
“只要方向是对的,必将收敛于那个美好的未来。”

20行代码彻底搞懂小龙虾~

@jupyter.Mou:看看luping又给我发了啥🤣 @jupyter.Mou:代码门槛很低,很直观,0基础完全可以看懂LLM是怎么成为claw的
  • 大语言模型:一问一答
    • 写进程序里:用api接口
    • 单次交互,无上下文&记忆——>补充到空的message中加入到对话循环即可。
  • agent智能体:加上【命令】指令,让大模型一直执行命令直到任务完成。
    • skills:给大模型更“聪明”的操作步骤
    • 加入前端交互——>远程任务输入
  • claw: > agent > 大语言模型 > 提示词
    • 本质仍依赖提示词,以及各种命令的授权
    • 目标在于更标准化、更命令化的实现

LoRA大模型微调是怎么回事

@jupyter.Mou:好玩,有意思哈哈哈。只需找到那百分之一。
  • decoder only transformer
notion image
  • q, k, v:固定矩阵,需要不断训练找到最优参数
    • 模型训练:将海量数据放入模型进行计算,得到模型输出,并与期望输出通过数学的方式比较,从而不断地调整参数
    • 预训练pre-training:输入普通文本,目的为教会AI通用知识,demand足够多的材料,算力消耗极大
    • 模型微调:在预训练好的模型的基础上,再集中训练某些特定类型的文本,让模型的回复迅速集中到某一特定的知识领域。(大厂:对话形式)
    • 监督微调sft:输入某一特定类型的文本,目的为让AI如何与用户对话,数据量仅为预训练的几万分之一,计算量小
notion image
  • 二者在显存占用方面一样
notion image
 
notion image
  • LoRa: Low-Rank Adaptation of LLMs
    • 降低训练的显存需求
    • 调整参数训练数量,相应地减少显存占用
notion image
notion image
  • 根据每一个大矩阵,生成2个相乘的小矩阵。
  • 优化后的显存占用如下:
notion image
  • LoRA:使用rank很小的矩阵去适配一个大矩阵
  • 保证微调更新量级:引入alpha
notion image
 
notion image
 

什么是大模型skill?

@jupyter.Mou:老师你发得过时啦,这篇视频咋是1月的🤣
  • skill:一个skill的文件夹,包括:
    • 一段关于该skill的简短介绍(metadata),概括skill的作用
    • 具体精确细致的操作步骤,skill.md的主要内容
  • discovery:发现问题,与skill匹配
  • activation:激活,动态读取问题并选择相应的skill
    • 减小skill体积:创建其他相关knowledge.md并按需读取
  • execution:按需读取相应的skill文件
notion image
notion image
 
Python+Pycharm基础笔记建站记录
Loading...
Jupyter Mou
Jupyter Mou
211经管国际化创新实验班|SZU AI
公告
💬最近想说的话💬
“大胆地尝试,极致地执行”
🎉待完成事项🎉
毕业论文初稿(已完成!
网站维护
毕业论文全过程记录(在整理了~
做、实习项目(做了点agent相关
互联网打工心得(攒着吧!
— 感谢您的支持☺️ —