“极速统计”到“顶级 AI 模拟”的关键词分组算法

Jan 18, 2026 — dawn

📊 第一阶段：基于“长相”的统计分组 (L1-L2 级算力)

这些方法速度极快，不消耗 AI 点券，适合处理 10 万级以上的超大规模原始数据。

1. N-Gram 词根聚类 (你的 L1 核心)

原理：统计连续出现的单词片段（如 2-Gram, 3-Gram）。
例子：fat tire ebike 和 best fat tire bike 都包含 fat tire，归为一堆。
优点：速度极快，内存占用极低。
缺点：不懂意思。它认为 bike 和 bicycle 是两个物种。

2. 模糊匹配 (Fuzzy Matching / Levenshtein)

原理：计算两个词之间改动几个字母能变成对方（编辑距离）。
例子：ebike 和 e-bike 距离很近，自动合并。
适用场景：清理拼写错误、单复数、连字符变体。

3. 词序无关聚类 (Permutation Grouping)

原理：把词拆成字母排序，只要包含的单词完全一样（不论顺序），就归为一类。
例子：ebike folding 750w 和 750w folding ebike 是一回事。

🧠 第二阶段：基于“意图”的逻辑分组 (L3 级算力)

这不再看词的长相，而是看词背后的“潜台词”。

4. 搜索意图聚类 (Intent Clustering)

原理：根据词根里的意图信号（Buy, How, Review）进行硬性归类。
分组结果：交易组、信息组、对比组、B2B 组。
你的优势：结合你 Registry 里的 intent_score，可以实现自动化的意图漏斗划分。

5. 商业模式聚类 (Biz-Model Grouping)

原理：识别“Wholesale”、“Retail”、“Service”等核心业务词。
适用场景：将流量瞬间切分为“找工厂的”和“买单件的”。

💎 第三阶段：基于“意思”的语义聚类 (L4-V3 级算力)

这是你目前 BGE-M3 和 Stella 发挥作用的领域，模拟人类大脑的理解力。

6. 向量空间聚类 (Embedding + K-Means / DBSCAN)

原理：把词变成高维坐标，坐标挨得近的归为一类。
你的 V3 核心 (HDBSCAN)：这是目前最先进的算法，它不需要你告诉它要分多少组，它会自动发现“稠密区域”，并把不相关的词作为“噪音”踢出去。
优点：能识别同义词。electric bike 和 battery powered cycle 会被完美分在一起。

7. 社区发现算法 (Community Detection)

原理：把关键词看作社交网络里的“人”，如果两个词经常在语义上“聊天”（关联度高），就构成一个圈子。
适用场景：发现行业内隐藏的“话题圈子”，比如“冬季电池维护”和“零下骑行技巧”。

🏰 第四阶段：基于“架构”的层次聚类 (L5 级算力)

这不仅是分组，而是在画“组织架构图”。

8. 层次聚类 (Hierarchical Clustering)

原理：像剥洋葱一样，先分大类（电单车），再分中类（折叠款），再分小类（750W 功率）。
实战产出：Silo 架构蓝图。直接生成网站的目录树：/ebikes/folding/750w/。

⚔️ 第五阶段：基于“战场反应”的 SERP 聚类 (SEO 终极算法)

这是目前全球最顶尖 SEO 工具（如 Keyword Cupid, ClusterAI）采用的方法，你的项目未来可以进化的方向。

9. SERP 重叠聚类 (SERP Overlap Clustering)

原理：不在乎词的意思，直接看 Google 的结果。如果搜 A 词和搜 B 词，Google 给出的前 10 名网站有 5 个是重合的，那么 A 和 B 必须写在同一个页面里。
意义：彻底杜绝关键词内耗。这是判断“一个词是否需要开新页面”的唯一科学标准。

10. 特性聚类 (SERP Feature Grouping)

原理：按 Google 展现出的组件分组。
例子：所有触发“视频位”的词归一类（给视频组）；所有触发“地图包”的词归一类（给线下店）。

不考虑算力增加

在拥有“无限算力”和“海量存储”的前提下，关键词聚类会进入**“多模态”、“图谱化”和“实时反馈”**的超高维度。以下是补充的、更顶级的关键词分组与聚类方法大全：

1. 深度语义与大模型原生聚类 (LLM-Native Clustering)

不再仅仅把词变成向量，而是直接利用大模型的“逻辑直觉”。

Agentic Recursive Clustering (智能体递归聚类)：
- 原理：派出一个 AI Agent 扫描所有词，先分出大类，再针对每个大类派生出专门负责该领域的“垂直 Agent”进行亚类划分。
- 优势：能理解极端复杂的逻辑。比如它能自动识别出“48V 15Ah”和“High Range”是父子关系，而不仅仅是相似。
Zero-Shot Prompted Labeling (零样本提示工程分组)：
- 原理：直接将关键词列表喂给 GPT-4o 或 Claude 3.5 级别的模型，利用其预训练的百科全书式知识，按“人类商业逻辑”直接写出分组名称。
Cross-Lingual Universal Clustering (跨语种统一聚类)：
- 原理：利用算力将德语、法语、中文、英语的关键词全部打碎，在同一个“全球意图空间”里聚类。
- 实战：让你发现德国人搜“E-moped”的心理和美国人搜“Electric Commuter”其实是同一个话题组。

2. 知识图谱与本体论分组 (Knowledge Graph & Ontology)

超越文本本身，基于客观世界的实体关系分组。

Entity-Relationship Grouping (实体关系分组)：
- 原理：利用 Google Knowledge Graph 或维基百科数据库，识别词的“物理属性”。
- 例子：将“Bafang M510”、“Bosch Performance Line”、“Shimano EP8”自动聚类为 [Motor] -> [Mid-Drive] -> [Top Brands]。这不是靠意思猜的，是靠数据库硬核关联的。
Ontological Hierarchies (本体论分级)：
- 原理：按照“是一个（Is-A）”和“属于（Part-Of）”逻辑。
- 例子：电池属于电机系统，电机系统属于电单车。这种层级结构是物理世界定死的，比语义计算更稳固。

3. 动态时间轴与趋势聚类 (Temporal & Velocity Clustering)

不看词的意思，看词在时间轴上的“心跳”。

Volatility-Based Grouping (波动率聚类)：
- 原理：把搜索热度曲线相似的词分在一起。
- 例子：所有在“黑五”前两周开始暴涨的词归为“大促预热组”；所有热度十年如一日的词归为“常青树教育组”。
Life-Cycle Clustering (生命周期聚类)：
- 原理：识别关键词处于哪个阶段（新兴、爆发、成熟、衰退）。
- 实战：将所有“新兴技术词”归一类，这类词虽然量小，但竞争极低，是抢占先机的关键。

4. 消费者路径与行为聚类 (Behavioral Journey Clustering)

基于营销漏斗和用户心理路径的深度切分。

Psychological Persona Clustering (心理人格聚类)：
- 原理：识别搜索者的“性格特征”。
- 分组：极客技术型（搜参数）、价格敏感型（搜折扣）、品质至上型（搜 Review/Best）、急需解决型（搜 Repair/Near me）。
Friction-Based Clustering (阻力点聚类)：
- 原理：专门收集那些代表用户“担忧”的词。
- 实战：将所有关于“Battery Fire”、“Safety”、“Warranty”、“Shipping Delay”的词聚在一起。这在 CRO（转化率优化）中价值连城。

5. 竞争对手 DNA 逆向聚类 (Competitor-Driven Aggregation)

这是一种“偷懒”但极其精准的方法：看对手是怎么分的。

URL Aggregation (基于 URL 的聚合)：
- 原理：如果竞争对手用同一个 URL 排名了 500 个关键词，那么这 500 个词就物理强制归为一组。
- 优势：这是最符合 SEO 实战的算法，直接告诉你的编辑：这一篇文章必须涵盖这 500 个词。
Market Share Gap Clustering (占有率缺口聚类)：
- 原理：将“对手已霸屏”和“对手尚未进入”的词分开。
- 实战：专门分出一个“进攻组”，全是那些对手排名在 4-10 名、存在防御漏洞的词。

6. 高级数学统计模型 (Advanced Statistical Math)

如果不计成本地运行数学模型，还有这些：

NMF (非负矩阵分解)：比 LDA 更先进的文本主题提取方法，尤其适合关键词这种短文本。
K-Medoids (中心点聚类)：比 K-Means 更稳健，能自动剔除异常值（Outliers），让每个组的主题极其纯净。
Gaussian Mixture Models (高斯混合模型)：允许一个词同时属于两个组（软聚类），这符合现实情况——一个词往往兼具“信息意图”和“商业意图”。

考虑算力增加

1. 逆向“同行 URL”聚合分组 (Reverse URL Aggregation) —— SEO 价值最高

这是目前你的系统中最缺的一个“实战派”分组。

逻辑：不在乎词的意思，只看竞争对手。如果对手用同一个网页（URL）同时排了 50 个词，那么这 50 个词就应该被强行分为一组。
为什么适合 11GB：它只是一个简单的 Group By URL 动作，不需要向量计算。
实战意义：直接告诉用户，你不需要写 50 篇文章，你只需要写 1 篇 涵盖这 50 个词的文章就能打败对手。

2. 增长动能与生命周期分组 (Velocity & Life-Cycle) —— 决策价值最高

目前你有 momentum_score，但没有根据它进行“状态分群”。

逻辑：利用 12 个月趋势数据，将词库切分为：
- 新兴黑马 (Rising Stars)：量不大，但斜率极高（今年刚火）。
- 季节性周期 (Seasonal)：规律性波动（如每年 11 月火）。
- 衰退资产 (Declining)：连续 3 个月下滑。
- 常青树 (Evergreen)：波动率极低。
为什么适合 11GB：基于 Numpy 的线性回归计算，内存占用几乎为零。
实战意义：老板会问：“哪些词是今年新出的机会？”这个分组能直接回答。

3. SERP 视觉组件协同分组 (Visual SERP Synergy) —— SEM 避坑必备

根据 Google 搜索结果页出现的“零件”进行分组。

逻辑：
- 视频统治组：首页全是 YouTube 视频（建议用户拍视频，而不是写文章）。
- 本地包围组：首页全是 Google Maps（建议用户做 Local SEO）。
- 电商霸屏组：首页全是 Shopping Ads 和 Amazon。
为什么适合 11GB：你现有的 serp_features 字段已经存了这些信息，只需要写个分类逻辑（Categorizer）即可。
实战意义：防止用户在“视频词”上死磕文字排名，浪费资源。

4. 心理阻力与转化诱因分组 (Friction vs. Incentive) —— CRO 价值最高

这是从 attr_friction_type 和 attr_descriptors_core 派生出的深度心理分组。

逻辑：
- 信任驱动组：包含 Review, Test, Safe, Certified（用户怕被骗）。
- 物流诱因组：包含 Fast Shipping, 2-day, In stock（用户急着要）。
- 价格敏感组：包含 Bulk, Wholesale, Cheap, Coupon（用户想要钱）。
为什么适合 11GB：通过正则匹配（Regex）和关键词提取即可实现。
实战意义：直接决定了 Landing Page（着陆页）上那个按钮该写“立即下单”还是“查看安全证书”。

5. 跨平台相关性分组 (Cross-Platform Affinity) —— 全域引流必备

识别哪些词在 Reddit、TikTok 或知乎上有极高的讨论度。

逻辑：基于你之前的 reddit_harvester.py，标记出“社区属性强”的词。
为什么适合 11GB：这是一个 Boolean（是/否）标记的聚合。
实战意义：如果一个组被标记为“Reddit 高热度”，建议用户去 Reddit 潜水发帖，而不是只在官网等流量。