搜索 / 关键词 / NLP 技术 20 多年的进化史(实战视角)
— dawn
一、第一阶段(1990s–2008)
🔹 规则 + 统计时代 —— n-gram 的诞生
1️⃣ 背景
- 计算能力弱
- 没有深度学习
- 文本只能「数词」
2️⃣ 核心思想
语言 = 词的概率组合
于是出现了:
- Unigram / Bigram / Trigram
- 词频(TF)
- 共现概率
3️⃣ 典型代表
- n-gram 语言模型
- 搜索引擎早期匹配
- 拼写纠错
4️⃣ 优缺点
✅ 简单、可控
❌ 不懂语义、不懂同义词
这就是你最早接触的 n-gram
二、第二阶段(2008–2015)
🔹 NLP 工具化时代 —— NLTK 的位置
1️⃣ 为什么会有 NLTK
学术界开始研究 NLP,但:
- 每个人都在重复造轮子
👉 NLTK 出现:
把分词、n-gram、POS、停用词,统一成工具
2️⃣ NLTK 本质
- 不是模型
- 是 NLP 的“实验平台”
3️⃣ 这个时代的关键词系统
分词
→ n-gram
→ 词频 / TF-IDF
→ 规则聚类
4️⃣ 局限
- 对搜索意图无能为力
- “字面相似 ≠ 语义相似”
三、第三阶段(2013–2018)
🔹 向量革命 —— Word Embedding
1️⃣ 转折点
Word2Vec(2013)
一句话总结:
词不再是字符串,而是坐标
2️⃣ 能力突破
- 同义词靠近
- 类比关系成立
king - man + woman ≈ queen
3️⃣ 局限
❌ 一个词只有一个向量
❌ 不能理解上下文
但它第一次让:
“语义”进入计算机
四、第四阶段(2018–2021)
🔹 上下文理解 —— BERT 时代
1️⃣ BERT 的革命点
词的意思取决于上下文
bank(银行 / 河岸)
2️⃣ 搜索 & SEO 的质变
- Google Hummingbird
- RankBrain
- BERT 正式进搜索
3️⃣ 关键词系统变化
关键词
→ 句子 embedding
→ 语义相似度
→ 聚类
❌ 但问题是:
- 慢
- 不适合大规模
- 不好用
五、第五阶段(2021–2023)
🔹 工业化 embedding —— Sentence-Transformers
1️⃣ 目标
让 BERT 真正“能用”
2️⃣ 特点
- 快
- 可批量
- 相似度靠谱
3️⃣ 你开始看到的东西
- MiniLM
- mpnet
- e5
- 各种“模型名”
👉 Stella 就是这个阶段的产物
六、第六阶段(2023–2024)
🔹 多能力融合 —— BGE-M3 登场
1️⃣ 为什么要 BGE-M3
之前的问题:
- 模型碎片化
- 英文强,中文弱
- 只会“相似”,不会“检索 + 聚类 + 排序”
2️⃣ BGE-M3 的核心进化
把“统计 + 结构 + 语义”统一进一个模型
三个 M:
- Multi-lingual
- Multi-granularity(≈ n-gram 进化形态)
- Multi-function
3️⃣ 本质变化
⚠️ 非常重要的一点:
n-gram 没消失,而是被“学进了模型”
七、发展到今天(2024–2026)
🔹 搜索 / 关键词系统的“真实形态”
现在的正确结构是:
规则(n-gram / 词序) +
语义(BGE-M3 / e5 / Stella) +
行为数据(搜索量 / CTR / 转化)
Google / Ads 实际在做的:
- 结构 → 召回
- 语义 → 理解
- 行为 → 决策
八、把你问过的所有词,放到时间轴上
1990s n-gram
2008 NLTK
2013 Word2Vec
2018 BERT
2021 Sentence-Transformers
2023 Stella(商业 embedding)
2024 BGE-M3
九、给你一个“认知级结论”(很重要)
不是“哪个技术淘汰哪个”
而是“每一代解决上一代的致命缺陷”
- n-gram:结构
- NLTK:工具
- embedding:语义
- BGE-M3:统一
十、结合你现在做的事,最正确的理解方式
你现在已经站在 最后一代的门口:
- 你用 Polars(工程)
- 你做关键词聚类(商业)
- 你关心 Ads / SEO(结果)
👉 你不需要纠结 NLTK / n-gram 用不用
👉 你要的是:什么时候“显式”,什么时候“隐式”
第一代:词频时代 (2000 - 2010)
关键词:文本匹配 (Lexical Match)
- 核心技术: TF-IDF(词频-逆文档频率)、布尔检索。
- NLP 状态: 极其原始。主要做分词(Tokenization)、词干提取(Stemming)。机器把网页看作一袋子词(Bag of Words)。
- 实战视角:
- 关键词堆砌 (Stuffing):只要在页面底部刷 100 遍“红色运动鞋”,排名就能上去。
- 精准匹配:如果你搜“最好的北京烤鸭”,网页标题必须包含这七个字。少一个词,权重掉一半。
- 工具: 主要是各种 Keyword Counter。
第二代:语义觉醒与知识图谱 (2011 - 2015)
关键词:概念与关联 (Concepts & Entities)
- 核心技术: LSI(潜在语义索引)、LDA(主题模型)、知识图谱 (Knowledge Graph)。
- NLP 状态: 开始识别“实体”。机器知道“乔布斯”是一个人,“苹果”是一家公司。
- 实战视角:
- 相关词策略 (LSI SEO):机器开始理解“相关性”。如果你写“跑步机”,文章里出现“卡路里”、“减震”、“时速”会显著增加权重,哪怕你没重复写“跑步机”。
- 搜索意图雏形:Google 开始区分“导航型”、“信息型”和“交易型”搜索。
- 标志性事件: 2013 年 Google Hummingbird(蜂鸟算法)发布,正式宣告“对话式”搜索的开始。
第三代:深度学习与向量空间 (2016 - 2018)
关键词:向量化 (Vectorization)
- 核心技术: Word2Vec、RankBrain(Google 2015年上线)、RNN/LSTM。
- NLP 状态: 词语变成了高维空间里的坐标。计算两个词的距离,不再看长得像不像,而是看出现的上下文像不像。
- 实战视角:
- 意图识别胜过关键词:即使网页里没有搜索词,只要语义坐标足够近,也能排在第一。
- 长尾词大爆发:机器能理解从未见过的新组合词。
- 生产力变革: 此时开始出现自动化的词簇聚类工具,利用空间距离自动将 10 万词分类。
第四代:Transformer 与 预训练大模型 (2019 - 2022)
关键词:全景上下文 (Attention is All You Need)
- 核心技术: BERT(2019)、T5、GPT-3。
- NLP 状态: “注意力机制”解决了多义词和长句理解。机器彻底理解了“指代”和“修饰”。它不再是处理词,而是处理“意念”。
- 实战视角:
- 高质量内容的霸权:BERT 让“垃圾内容制造机”彻底失效。对用户有用的深度长文(Comprehensive Content)统治了 SERP。
- PAA (People Also Ask):搜索引擎变成了一个问答机。SEO 的目标变成了“回答用户的问题”。
- Topic Authority (话题权威度):你不能只写一篇好文章,你必须覆盖这个话题的所有语义节点,形成图谱。
第五代:生成式搜索与智能体 (2023 - 2026+)
关键词:主权防御与 RAG (Answer Engine Optimization)
- 核心技术: LLMs (GPT-4/DeepSeek)、RAG (检索增强生成)、SGE (生成式搜索体验)。
- NLP 状态: 机器不仅能读,还能直接基于你的内容生成最终答案。
- 实战视角 (当前的 V3 重构背景):
- PREO (像素主权):传统的排名不再等于点击。由于 AI 摘要(Snapshot)占据了 800+ 像素,SEO 必须争夺“被 AI 引用”的位置。
- 语义去噪:2026 年的流量极度稀缺,低意图的词(信息型词)大量被 AI 拦截,SEM 必须追求极高的损益对齐。
- 多头共识:不再依赖单一的 TF-IDF。V3 架构中的“多头注意力”其实是模拟 AI 搜索引擎的共识机制,判断一个词是否具备“商业转化红利”。
- 工具形态: 从“查询器”变成了“决策指挥部”。不再是给你 100 万个词,而是通过 GraphRAG 告诉你 3 个进攻动作。