跳转到主要内容

“极速统计”到“顶级 AI 模拟”的关键词分组算法

dawn

📊 第一阶段:基于“长相”的统计分组 (L1-L2 级算力)

这些方法速度极快,不消耗 AI 点券,适合处理 10 万级以上的超大规模原始数据。

1. N-Gram 词根聚类 (你的 L1 核心)

  • 原理:统计连续出现的单词片段(如 2-Gram, 3-Gram)。
  • 例子:fat tire ebike 和 best fat tire bike 都包含 fat tire,归为一堆。
  • 优点:速度极快,内存占用极低。
  • 缺点:不懂意思。它认为 bike 和 bicycle 是两个物种。

2. 模糊匹配 (Fuzzy Matching / Levenshtein)

  • 原理:计算两个词之间改动几个字母能变成对方(编辑距离)。
  • 例子:ebike 和 e-bike 距离很近,自动合并。
  • 适用场景:清理拼写错误、单复数、连字符变体。

3. 词序无关聚类 (Permutation Grouping)

  • 原理:把词拆成字母排序,只要包含的单词完全一样(不论顺序),就归为一类。
  • 例子:ebike folding 750w 和 750w folding ebike 是一回事。

🧠 第二阶段:基于“意图”的逻辑分组 (L3 级算力)

这不再看词的长相,而是看词背后的“潜台词”。

4. 搜索意图聚类 (Intent Clustering)

  • 原理:根据词根里的意图信号(Buy, How, Review)进行硬性归类。
  • 分组结果:交易组、信息组、对比组、B2B 组。
  • 你的优势:结合你 Registry 里的 intent_score,可以实现自动化的意图漏斗划分。

5. 商业模式聚类 (Biz-Model Grouping)

  • 原理:识别“Wholesale”、“Retail”、“Service”等核心业务词。
  • 适用场景:将流量瞬间切分为“找工厂的”和“买单件的”。

💎 第三阶段:基于“意思”的语义聚类 (L4-V3 级算力)

这是你目前 BGE-M3 和 Stella 发挥作用的领域,模拟人类大脑的理解力。

6. 向量空间聚类 (Embedding + K-Means / DBSCAN)

  • 原理:把词变成高维坐标,坐标挨得近的归为一类。
  • 你的 V3 核心 (HDBSCAN):这是目前最先进的算法,它不需要你告诉它要分多少组,它会自动发现“稠密区域”,并把不相关的词作为“噪音”踢出去。
  • 优点:能识别同义词。electric bike 和 battery powered cycle 会被完美分在一起。

7. 社区发现算法 (Community Detection)

  • 原理:把关键词看作社交网络里的“人”,如果两个词经常在语义上“聊天”(关联度高),就构成一个圈子。
  • 适用场景:发现行业内隐藏的“话题圈子”,比如“冬季电池维护”和“零下骑行技巧”。

🏰 第四阶段:基于“架构”的层次聚类 (L5 级算力)

这不仅是分组,而是在画“组织架构图”。

8. 层次聚类 (Hierarchical Clustering)

  • 原理:像剥洋葱一样,先分大类(电单车),再分中类(折叠款),再分小类(750W 功率)。
  • 实战产出Silo 架构蓝图。直接生成网站的目录树:/ebikes/folding/750w/。

⚔️ 第五阶段:基于“战场反应”的 SERP 聚类 (SEO 终极算法)

这是目前全球最顶尖 SEO 工具(如 Keyword Cupid, ClusterAI)采用的方法,你的项目未来可以进化的方向。

9. SERP 重叠聚类 (SERP Overlap Clustering)

  • 原理:不在乎词的意思,直接看 Google 的结果。如果搜 A 词和搜 B 词,Google 给出的前 10 名网站有 5 个是重合的,那么 A 和 B 必须写在同一个页面里。
  • 意义彻底杜绝关键词内耗。这是判断“一个词是否需要开新页面”的唯一科学标准。

10. 特性聚类 (SERP Feature Grouping)

  • 原理:按 Google 展现出的组件分组。
  • 例子:所有触发“视频位”的词归一类(给视频组);所有触发“地图包”的词归一类(给线下店)。

不考虑算力增加

在拥有“无限算力”和“海量存储”的前提下,关键词聚类会进入**“多模态”“图谱化”“实时反馈”**的超高维度。以下是补充的、更顶级的关键词分组与聚类方法大全:


1. 深度语义与大模型原生聚类 (LLM-Native Clustering)

不再仅仅把词变成向量,而是直接利用大模型的“逻辑直觉”。

  • Agentic Recursive Clustering (智能体递归聚类)
    • 原理:派出一个 AI Agent 扫描所有词,先分出大类,再针对每个大类派生出专门负责该领域的“垂直 Agent”进行亚类划分。
    • 优势:能理解极端复杂的逻辑。比如它能自动识别出“48V 15Ah”和“High Range”是父子关系,而不仅仅是相似。
  • Zero-Shot Prompted Labeling (零样本提示工程分组)
    • 原理:直接将关键词列表喂给 GPT-4o 或 Claude 3.5 级别的模型,利用其预训练的百科全书式知识,按“人类商业逻辑”直接写出分组名称。
  • Cross-Lingual Universal Clustering (跨语种统一聚类)
    • 原理:利用算力将德语、法语、中文、英语的关键词全部打碎,在同一个“全球意图空间”里聚类。
    • 实战:让你发现德国人搜“E-moped”的心理和美国人搜“Electric Commuter”其实是同一个话题组。

2. 知识图谱与本体论分组 (Knowledge Graph & Ontology)

超越文本本身,基于客观世界的实体关系分组。

  • Entity-Relationship Grouping (实体关系分组)
    • 原理:利用 Google Knowledge Graph 或维基百科数据库,识别词的“物理属性”。
    • 例子:将“Bafang M510”、“Bosch Performance Line”、“Shimano EP8”自动聚类为 [Motor] -> [Mid-Drive] -> [Top Brands]。这不是靠意思猜的,是靠数据库硬核关联的。
  • Ontological Hierarchies (本体论分级)
    • 原理:按照“是一个(Is-A)”和“属于(Part-Of)”逻辑。
    • 例子:电池属于电机系统,电机系统属于电单车。这种层级结构是物理世界定死的,比语义计算更稳固。

3. 动态时间轴与趋势聚类 (Temporal & Velocity Clustering)

不看词的意思,看词在时间轴上的“心跳”。

  • Volatility-Based Grouping (波动率聚类)
    • 原理:把搜索热度曲线相似的词分在一起。
    • 例子:所有在“黑五”前两周开始暴涨的词归为“大促预热组”;所有热度十年如一日的词归为“常青树教育组”。
  • Life-Cycle Clustering (生命周期聚类)
    • 原理:识别关键词处于哪个阶段(新兴、爆发、成熟、衰退)。
    • 实战:将所有“新兴技术词”归一类,这类词虽然量小,但竞争极低,是抢占先机的关键。

4. 消费者路径与行为聚类 (Behavioral Journey Clustering)

基于营销漏斗和用户心理路径的深度切分。

  • Psychological Persona Clustering (心理人格聚类)
    • 原理:识别搜索者的“性格特征”。
    • 分组:极客技术型(搜参数)、价格敏感型(搜折扣)、品质至上型(搜 Review/Best)、急需解决型(搜 Repair/Near me)。
  • Friction-Based Clustering (阻力点聚类)
    • 原理:专门收集那些代表用户“担忧”的词。
    • 实战:将所有关于“Battery Fire”、“Safety”、“Warranty”、“Shipping Delay”的词聚在一起。这在 CRO(转化率优化)中价值连城。

5. 竞争对手 DNA 逆向聚类 (Competitor-Driven Aggregation)

这是一种“偷懒”但极其精准的方法:看对手是怎么分的。

  • URL Aggregation (基于 URL 的聚合)
    • 原理:如果竞争对手用同一个 URL 排名了 500 个关键词,那么这 500 个词就物理强制归为一组。
    • 优势:这是最符合 SEO 实战的算法,直接告诉你的编辑:这一篇文章必须涵盖这 500 个词。
  • Market Share Gap Clustering (占有率缺口聚类)
    • 原理:将“对手已霸屏”和“对手尚未进入”的词分开。
    • 实战:专门分出一个“进攻组”,全是那些对手排名在 4-10 名、存在防御漏洞的词。

6. 高级数学统计模型 (Advanced Statistical Math)

如果不计成本地运行数学模型,还有这些:

  • NMF (非负矩阵分解):比 LDA 更先进的文本主题提取方法,尤其适合关键词这种短文本。
  • K-Medoids (中心点聚类):比 K-Means 更稳健,能自动剔除异常值(Outliers),让每个组的主题极其纯净。
  • Gaussian Mixture Models (高斯混合模型):允许一个词同时属于两个组(软聚类),这符合现实情况——一个词往往兼具“信息意图”和“商业意图”。

考虑算力增加

1. 逆向“同行 URL”聚合分组 (Reverse URL Aggregation) —— SEO 价值最高

这是目前你的系统中最缺的一个“实战派”分组。

  • 逻辑:不在乎词的意思,只看竞争对手。如果对手用同一个网页(URL)同时排了 50 个词,那么这 50 个词就应该被强行分为一组。
  • 为什么适合 11GB:它只是一个简单的 Group By URL 动作,不需要向量计算。
  • 实战意义:直接告诉用户,你不需要写 50 篇文章,你只需要写 1 篇 涵盖这 50 个词的文章就能打败对手。

2. 增长动能与生命周期分组 (Velocity & Life-Cycle) —— 决策价值最高

目前你有 momentum_score,但没有根据它进行“状态分群”。

  • 逻辑:利用 12 个月趋势数据,将词库切分为:
    • 新兴黑马 (Rising Stars):量不大,但斜率极高(今年刚火)。
    • 季节性周期 (Seasonal):规律性波动(如每年 11 月火)。
    • 衰退资产 (Declining):连续 3 个月下滑。
    • 常青树 (Evergreen):波动率极低。
  • 为什么适合 11GB:基于 Numpy 的线性回归计算,内存占用几乎为零。
  • 实战意义:老板会问:“哪些词是今年新出的机会?”这个分组能直接回答。

3. SERP 视觉组件协同分组 (Visual SERP Synergy) —— SEM 避坑必备

根据 Google 搜索结果页出现的“零件”进行分组。

  • 逻辑
    • 视频统治组:首页全是 YouTube 视频(建议用户拍视频,而不是写文章)。
    • 本地包围组:首页全是 Google Maps(建议用户做 Local SEO)。
    • 电商霸屏组:首页全是 Shopping Ads 和 Amazon。
  • 为什么适合 11GB:你现有的 serp_features 字段已经存了这些信息,只需要写个分类逻辑(Categorizer)即可。
  • 实战意义:防止用户在“视频词”上死磕文字排名,浪费资源。

4. 心理阻力与转化诱因分组 (Friction vs. Incentive) —— CRO 价值最高

这是从 attr_friction_type 和 attr_descriptors_core 派生出的深度心理分组。

  • 逻辑
    • 信任驱动组:包含 Review, Test, Safe, Certified(用户怕被骗)。
    • 物流诱因组:包含 Fast Shipping, 2-day, In stock(用户急着要)。
    • 价格敏感组:包含 Bulk, Wholesale, Cheap, Coupon(用户想要钱)。
  • 为什么适合 11GB:通过正则匹配(Regex)和关键词提取即可实现。
  • 实战意义:直接决定了 Landing Page(着陆页)上那个按钮该写“立即下单”还是“查看安全证书”。

5. 跨平台相关性分组 (Cross-Platform Affinity) —— 全域引流必备

识别哪些词在 Reddit、TikTok 或知乎上有极高的讨论度。

  • 逻辑:基于你之前的 reddit_harvester.py,标记出“社区属性强”的词。
  • 为什么适合 11GB:这是一个 Boolean(是/否)标记的聚合。
  • 实战意义:如果一个组被标记为“Reddit 高热度”,建议用户去 Reddit 潜水发帖,而不是只在官网等流量。