跳转到主要内容

搜索 / 关键词 / NLP 技术 20 多年的进化史(实战视角)

dawn

一、第一阶段(1990s–2008)

🔹 规则 + 统计时代 —— n-gram 的诞生

1️⃣ 背景

  • 计算能力弱
  • 没有深度学习
  • 文本只能「数词」

2️⃣ 核心思想

语言 = 词的概率组合

于是出现了:

  • Unigram / Bigram / Trigram
  • 词频(TF)
  • 共现概率

3️⃣ 典型代表

  • n-gram 语言模型
  • 搜索引擎早期匹配
  • 拼写纠错

4️⃣ 优缺点

✅ 简单、可控
❌ 不懂语义、不懂同义词

这就是你最早接触的 n-gram

二、第二阶段(2008–2015)

🔹 NLP 工具化时代 —— NLTK 的位置

1️⃣ 为什么会有 NLTK

学术界开始研究 NLP,但:

  • 每个人都在重复造轮子

👉 NLTK 出现:

把分词、n-gram、POS、停用词,统一成工具

2️⃣ NLTK 本质

  • 不是模型
  • 是 NLP 的“实验平台”

3️⃣ 这个时代的关键词系统

分词
→ n-gram
→ 词频 / TF-IDF
→ 规则聚类

4️⃣ 局限

  • 对搜索意图无能为力
  • “字面相似 ≠ 语义相似”

三、第三阶段(2013–2018)

🔹 向量革命 —— Word Embedding

1️⃣ 转折点

Word2Vec(2013)

一句话总结:

词不再是字符串,而是坐标

2️⃣ 能力突破

  • 同义词靠近
  • 类比关系成立

king - man + woman ≈ queen

3️⃣ 局限

❌ 一个词只有一个向量
❌ 不能理解上下文

但它第一次让:

“语义”进入计算机

四、第四阶段(2018–2021)

🔹 上下文理解 —— BERT 时代

1️⃣ BERT 的革命点

词的意思取决于上下文

bank(银行 / 河岸)

2️⃣ 搜索 & SEO 的质变

  • Google Hummingbird
  • RankBrain
  • BERT 正式进搜索

3️⃣ 关键词系统变化

关键词
→ 句子 embedding
→ 语义相似度
→ 聚类

❌ 但问题是:

  • 不适合大规模
  • 不好用

五、第五阶段(2021–2023)

🔹 工业化 embedding —— Sentence-Transformers

1️⃣ 目标

让 BERT 真正“能用”

2️⃣ 特点

  • 可批量
  • 相似度靠谱

3️⃣ 你开始看到的东西

  • MiniLM
  • mpnet
  • e5
  • 各种“模型名”

👉 Stella 就是这个阶段的产物


六、第六阶段(2023–2024)

🔹 多能力融合 —— BGE-M3 登场

1️⃣ 为什么要 BGE-M3

之前的问题:

  • 模型碎片化
  • 英文强,中文弱
  • 只会“相似”,不会“检索 + 聚类 + 排序”

2️⃣ BGE-M3 的核心进化

把“统计 + 结构 + 语义”统一进一个模型

三个 M:

  • Multi-lingual
  • Multi-granularity(≈ n-gram 进化形态)
  • Multi-function

3️⃣ 本质变化

⚠️ 非常重要的一点:

n-gram 没消失,而是被“学进了模型”

七、发展到今天(2024–2026)

🔹 搜索 / 关键词系统的“真实形态”

现在的正确结构是:

规则(n-gram / 词序)
+
语义(BGE-M3 / e5 / Stella)
+
行为数据(搜索量 / CTR / 转化)

  • 结构 → 召回
  • 语义 → 理解
  • 行为 → 决策

八、把你问过的所有词,放到时间轴上

1990s n-gram
2008 NLTK
2013 Word2Vec
2018 BERT
2021 Sentence-Transformers
2023 Stella(商业 embedding)
2024 BGE-M3


九、给你一个“认知级结论”(很重要)

不是“哪个技术淘汰哪个”
而是“每一代解决上一代的致命缺陷”
  • n-gram:结构
  • NLTK:工具
  • embedding:语义
  • BGE-M3:统一

十、结合你现在做的事,最正确的理解方式

你现在已经站在 最后一代的门口

  • 你用 Polars(工程)
  • 你做关键词聚类(商业)
  • 你关心 Ads / SEO(结果)

👉 你不需要纠结 NLTK / n-gram 用不用
👉 你要的是:什么时候“显式”,什么时候“隐式”

第一代:词频时代 (2000 - 2010)

关键词:文本匹配 (Lexical Match)

  • 核心技术: TF-IDF(词频-逆文档频率)、布尔检索。
  • NLP 状态: 极其原始。主要做分词(Tokenization)、词干提取(Stemming)。机器把网页看作一袋子词(Bag of Words)。
  • 实战视角:
    • 关键词堆砌 (Stuffing):只要在页面底部刷 100 遍“红色运动鞋”,排名就能上去。
    • 精准匹配:如果你搜“最好的北京烤鸭”,网页标题必须包含这七个字。少一个词,权重掉一半。
  • 工具: 主要是各种 Keyword Counter。

第二代:语义觉醒与知识图谱 (2011 - 2015)

关键词:概念与关联 (Concepts & Entities)

  • 核心技术: LSI(潜在语义索引)、LDA(主题模型)、知识图谱 (Knowledge Graph)
  • NLP 状态: 开始识别“实体”。机器知道“乔布斯”是一个人,“苹果”是一家公司。
  • 实战视角:
    • 相关词策略 (LSI SEO):机器开始理解“相关性”。如果你写“跑步机”,文章里出现“卡路里”、“减震”、“时速”会显著增加权重,哪怕你没重复写“跑步机”。
    • 搜索意图雏形:Google 开始区分“导航型”、“信息型”和“交易型”搜索。
  • 标志性事件: 2013 年 Google Hummingbird(蜂鸟算法)发布,正式宣告“对话式”搜索的开始。

第三代:深度学习与向量空间 (2016 - 2018)

关键词:向量化 (Vectorization)

  • 核心技术: Word2VecRankBrain(Google 2015年上线)、RNN/LSTM
  • NLP 状态: 词语变成了高维空间里的坐标。计算两个词的距离,不再看长得像不像,而是看出现的上下文像不像。
  • 实战视角:
    • 意图识别胜过关键词:即使网页里没有搜索词,只要语义坐标足够近,也能排在第一。
    • 长尾词大爆发:机器能理解从未见过的新组合词。
  • 生产力变革: 此时开始出现自动化的词簇聚类工具,利用空间距离自动将 10 万词分类。

第四代:Transformer 与 预训练大模型 (2019 - 2022)

关键词:全景上下文 (Attention is All You Need)

  • 核心技术: BERT(2019)、T5GPT-3
  • NLP 状态: “注意力机制”解决了多义词和长句理解。机器彻底理解了“指代”和“修饰”。它不再是处理词,而是处理“意念”。
  • 实战视角:
    • 高质量内容的霸权:BERT 让“垃圾内容制造机”彻底失效。对用户有用的深度长文(Comprehensive Content)统治了 SERP。
    • PAA (People Also Ask):搜索引擎变成了一个问答机。SEO 的目标变成了“回答用户的问题”。
    • Topic Authority (话题权威度):你不能只写一篇好文章,你必须覆盖这个话题的所有语义节点,形成图谱。

第五代:生成式搜索与智能体 (2023 - 2026+)

关键词:主权防御与 RAG (Answer Engine Optimization)

  • 核心技术: LLMs (GPT-4/DeepSeek)RAG (检索增强生成)SGE (生成式搜索体验)
  • NLP 状态: 机器不仅能读,还能直接基于你的内容生成最终答案。
  • 实战视角 (当前的 V3 重构背景):
    • PREO (像素主权):传统的排名不再等于点击。由于 AI 摘要(Snapshot)占据了 800+ 像素,SEO 必须争夺“被 AI 引用”的位置。
    • 语义去噪:2026 年的流量极度稀缺,低意图的词(信息型词)大量被 AI 拦截,SEM 必须追求极高的损益对齐。
    • 多头共识:不再依赖单一的 TF-IDF。V3 架构中的“多头注意力”其实是模拟 AI 搜索引擎的共识机制,判断一个词是否具备“商业转化红利”。
  • 工具形态: 从“查询器”变成了“决策指挥部”。不再是给你 100 万个词,而是通过 GraphRAG 告诉你 3 个进攻动作。

总结:实战思维的转变

阶段核心逻辑生产工具关注点
词频时代怎么写出这个词?关键词密度、H1 标签
语义时代还有哪些相关的词?LSI 词组、主题分类
向量时代用户的意图是什么?词簇聚类、意图标签
预训练时代我的内容专业度够吗?写作大纲 (Brief)、EEAT 审计
生成式时代AI 会引用我吗?我亏钱吗?像素主权、损益对齐、知识图谱