AI是如何学习的
# AI 是如何学习的?
📌 本文适合没有 AI 背景的开发者或技术感兴趣者,逐步讲清楚 AI 模型是如何学习语言、知识、逻辑的。从数据收集到训练,再到参数保存与推理输出,完整打通一个大模型诞生的过程。
# 👶 类比:AI 的成长就像小孩子学说话
一个孩子是这样学会语言和知识的:
- 听很多话(大量输入数据)
- 模仿说话(预测下一句话)
- 犯错被纠正(训练优化)
- 积累经验(形成参数)
- 面对新问题做出回答(推理)
大模型也一样:靠看大量数据、试着说话、调整自己的内部理解方式,最终学会输出逻辑正确、语义合理的内容。
# 📥 第一阶段:收集大量数据
AI 要变聪明,首先要接触“世界上的知识”。所以训练前,需要收集尽可能丰富、广泛的数据:
# ✅ 数据来源:
- 网页文本(如:Common Crawl、Wikipedia)
- 书籍、新闻、论文(如:Project Gutenberg、arXiv)
- 问答网站、论坛对话(如:Reddit、Stack Overflow)
- 代码仓库(如:GitHub,训练编程能力)
- 标注数据(如图像、语义、情感标注,用于监督学习)
✅ 有些数据是公开抓取的,有些则是授权购买的。
# 🧹 第二阶段:数据预处理(清洗 + 切分 + 转向量)
AI 并不能直接理解文字,它只理解数字。 所以需要先把文字 → 编码成数字向量。
# ✅ 什么是 Embedding?
- 把一个词、短语、句子变成一个固定长度的向量(如 768 维)
- 向量之间可以计算“相似度”
举例:
“苹果” → [0.23, 0.87, -0.56, 0.45, ...]
“香蕉” → [0.22, 0.83, -0.50, 0.48, ...]
1
2
2
它们在向量空间中“靠得很近”,所以语义上也相似。
# 🧠 第三阶段:训练(预测 + 纠错 + 学习)
这是 AI 的核心成长过程。就像孩子学语言是不断试错一样,大模型的训练过程也包含:
# ✅ 自监督训练:
- 给 AI 一段文本,要求它“补上后面的词”
- 它尝试预测 → 然后与真实结果比较 → 计算误差 → 反向传播修正权重
# ✅ 重复数百万次:
- 模型每一次预测都会更新上万个参数(权重)
- 越训练越懂语言、语法、知识、上下文、推理
# 💾 第四阶段:参数保存(模型文件)
训练完后,所有知识都不会直接写在文本里,而是以 神经网络权重参数的形式,保存在模型文件中:
model-00001-of-000163.safetensors
1
这些参数文件包含:
- 每一层网络的连接强度(权重)
- 每个 token 的 embedding 编码
- 多层 attention 的配置与记忆方式
📌 这些文件就是模型的“脑子”。不包含原始语料,但能表达语料中学到的知识与模式。
# 🧮 第五阶段:推理(根据输入计算输出)
当你使用 ChatGPT、Claude 或 DeepSeek 时, 其实就是在调用模型的“推理能力”:
- 你输入一句话(被转成 token 向量)
- 模型根据已训练好的权重进行计算
- 输出下一个最合理的 token,一步步生成完整句子
举个例子:
你输入:“乔布斯是谁?”
→ 模型内部计算:乔布斯 = 苹果公司 = 创始人 = 1976年 = CEO
→ 输出:“史蒂夫·乔布斯是苹果公司联合创始人。”
1
2
3
2
3
它并不是“记得”这个句子,而是通过关联+推理得出它。
# 🧠 总结:大模型的五步学习之路
阶段 | 内容 | 类比 |
---|---|---|
收集数据 | 获取全世界文本 | 听别人说话 |
预处理 | 编码成向量 | 学会分词和语音理解 |
训练 | 预测下一句话,修正错误 | 开始说话、被纠正 |
保存 | 存成模型文件 | 脑子里的知识网络 |
推理 | 根据提问输出答案 | 回答问题,表达清楚 |
上次更新: 2025/05/19, 20:29:54