GEO SaaS Architecture · Config Control Plane + Data Plane

GEO 商业化平台 · 数据与诊断架构全景

先用接客工厂生成问题库与事实弹药,再由配置控制平面横向注入运行链路;右侧数据平面自上而下完成 RPA 采集、清洗入库、国内外双系统诊断、策略战役与发布复测闭环。

5+3国内引擎 / 海外引擎双市场监测
8-12Worker Pool 并发,账号池 LRU 轮转
~80单账号日配额闸,冷却切换
0RPA 采集运行时 token
CN/US市场域、语言、出口策略分流
1:N策略拆战役,再拆内容任务

接客工厂:AI 生成配置 + 人工审核落库

冷启动不是手工填表,而是两条可重跑、可回滚的生产线:AI 出初稿,同事界面审核/微调,最终落入配置、问题库和事实库。

问题库 = 测量仪器

决定采集频率与战场覆盖
① 智能填充身份

只填租户名 + 主品牌,联网反推 id、行业、产品线、官网、品牌色、logo;查不到宁可留空,禁止编造。

② 生成行业配置

产出 12-20 个归因维度;每个维度带 4-8 个 AI 答案真实关键词,并生成 8-15 个真实竞品。

③ 生成分层问题库
A 品类题 45-55% B 对比/排行 20-25% C 品牌口碑 15-20% D 顾虑消除 8-12% E 长尾 5-10% F 竞品对决 ≤8%

每题落 category × qtype × scene × stage × weight;海外按真实英文问法重构,不做直译。

④ 导入已有问题

客户裸问题直接进入审核台,AI 只补归类和权重,不改原问题文本,避免测量口径漂移。

事实库 = 弹药库

只有已发布事实能进诊断
官网整站抓取
BFS + 顺序 ID 兜底
公开内容抽取
官网/白皮书/案例/FAQ
来源发现
证据 + 置信度防幻觉
① 结构化抽取
  • 按语言分组、切块并发抽取
  • 营销话术不算事实
  • 保留 source_id / market / language
② validateFact 质检
  • 品类归正 + 三分面词表校验
  • claim 8-400 字,参数必须含数值
  • 时序事实必须含年份,空泛夸张驳回
③ applyFacts 落库
  • 去重、溯源打标、状态候选
  • 候选 → 草稿 → 已发布
  • 已发布事实才可作为诊断弹药
人工审核门:候选事实和 AI 生成配置都必须经同事界面确认,支持重跑、回滚与版本快照。
产物统一落入 tenants.config_json + prompts + atomic_facts + sources,向下游采集、调度、诊断和策略持续供参。

① 数据源 · 被监测的 AI 搜索引擎

由租户配置与平台目录决定采哪些平台、哪个市场、哪种语言

国内引擎 ×5

豆包 · DeepSeek · 元宝 · 千问 · Kimi

RPA 抓对话式 Web UI · 均已 GA

海外引擎 ×3(灰度)

ChatGPT · Gemini · Perplexity

Gemini 走 SERP · 引用源结构更细

② 采集层 · geo-collector(可替换执行器)

账号/IP 策略从左侧注入,采集器只做确定性执行

Patchright 真 Chrome · SSE 网络劫持

DOM 定位 + 拟人逐字输入 + 鼠标轨迹 + 登录态 profile 复用;采集运行时零 token。

国内出口

直连 / 国内住宅 IP + Clash

海外出口

住宅代理 US;登录 IP = 采集 IP;sticky session

账号池

LRU 轮转;单账号约 80 条/天;冷却切换

调度执行

Worker Pool 8-12;query fan-out 追踪;跨租户去重;预算闸

③ 回传与清洗 · 原始层 / 干净层分离

采集波动先隔离,清洗可重跑、可溯源

采集器三接口回传

results / citations / fact-source

X-Collector-Key · 幂等键去重

raw_ingest 原始暂存

kind=answer / citation / fact_source

脏数据隔离 · processed=-1 可重跑

normalize 清洗

跨租户扇出 · 品牌识别/排名/负面

domain 归一 · 按 model 拆分

④ 数据域 · 多租户隔离(tenant_id 贯穿,走 TenantRepo)

诊断依据来自下方四库,而不是模型臆测

answer_logs

答案库 / 驾驶舱核心

提及 · 排名 · 首推 · 负面 · qtype · market · language

answer_citations

引用源清单

替谁说话 · 作用 · 位置 · alignment · absorption

atomic_facts + sources

原子事实 + 来源库

claim · evidence_url · source_type · industry · scenario · confidence

visibility_checks

域名可见性体检

robots · WAF · index · snippet

⑤ 诊断双系统 · 国内回答级 vs 海外引用级

核心不是事实库 RAG,而是证据检索 + 规则诊断 + 大模型解释/产出;国内外先分流,能打到的层级和证据精度完全不同。

Query
用户问题
Answer
AI 回答
Citations
AI 引用源
Brand Facts
品牌事实库
Public Assets
公开内容
Competitors
竞品
Engine
AI 平台
Timestamp
回答时间
01 GEO BOUNDARY

被检索到

域名可访问、页面可索引、能进入候选引用源池;否则先修 robots/WAF/index/snippet。

02 SEMANTIC FIT

被理解

问题意图、行业场景、产品线、实体关系与品牌事实能否语义对齐。

03 SOURCE TRUST

被采信

品牌源、第三方源、竞品源谁被引用;权威背书和 citation precision 决定采信强度。

04 ANSWER SHARE

被推荐

最终回答是否提及、排第几、是否首推、是否被竞品压制,并进入复测 KPI。

一条答案进入诊断

先读取 engine + language + 引用列表结构,决定使用哪套词典、哪套引擎画像、事实库取 zh 还是 en,以及本次最多能打到 L1-L5 哪几层。

① language

切换整套词典:AUTHORITY_RE、NEGATIVE_PATTERNS、dimKeywords 与事实语言隔离。

② isOverseasEngine

切换归因结构:海外可前置 L1/L2,国内主战场落在 L3-L5。

③ engineProfile

按平台画像切诊断路径:SERP 依赖、对话式 RPA、query fan-out 轨迹与引用形态。

④ 有无引用列表

无引用时做回答级诊断;有引用时升维到引用源解析、采信和吸收判断。

1. 解析 Query

判断选型/对比/推荐/排名/价格/场景方案,先确定品牌该不该出现。

2. 抽取 Answer 断言

抽取 AI 回答中的品牌能力、竞品评价、行业结论和隐含比较。

3. 解析 Citations

判断引用源是谁的、讲什么、第三方/竞品/品牌自有以及权威性。

4. 混合检索事实

向量检索 + BM25 + 元数据过滤 + 实体关系表召回相关原子事实。

5. 三方对比

对比品牌事实写了什么、AI 采用了什么、引用源支撑了什么。

6. 根因与评分

强制归入标准根因,并输出可见度、引用占有率、事实命中率等评分。

L1 可访问层

前置 P0 · 命中即止
规则诊断robots 拒爬、WAF/403、meta/noindex、JS 渲染重、需要登录、URL 不稳定。
国内回答级爬虫标准弱,缺少 Search Console 型可观测,多数只能标记 unknown,不轻易归因到 L1。
海外引用级robots/WAF/meta 可真实探测;可见性未恢复前,补内容与改文案全部暂缓。

L2 索引层

前置 P0 · snippet 资格
规则诊断未索引、snippet 资格缺失、搜索页不可见、引用源池没有进入候选。
国内回答级索引链路不可见,通常不做硬判,只作为低置信提示输出。
海外引用级Gemini 依赖 Google SERP / Search Console;ChatGPT、Perplexity 走自有索引画像。
L1/L2 是海外真正跑得起来的前置层;一旦命中,诊断定调为可见性问题,跳过下游内容竞争判断。

L3 归属层

qtype + 产品线
规则诊断判断问题是否品类外、品牌不该出现,或竞品对决题中是否存在蹭入机会。
国内回答级依赖 product_lines、qtype、中文行业词和竞品词,避免把“未提及”误判成失利。
海外引用级同样先判场景归属,但使用英文 category / scenario / competitor 关系表。

L4 召回层

完全未提及
规则诊断看同题 × 同模型提及率,区分个例波动和系统性召回缺口。
国内回答级可观测指标是提及、排名、首推、负面;结合品牌/竞品词典做批量监控。
海外引用级进一步看引用池是否完全没有品牌源,拆成召回失败或源池缺席。

L5 竞争层

提到但输
五类根因信源权重输、吸收失败、弹药缺口、篇幅被压制、临门一脚。
国内回答级用 AUTHORITY_RE / NEGATIVE_PATTERNS / keywords 判断权威背书、负面和维度命中。
海外引用级用 AUTHORITY_RE_EN 识别 G2、Gartner、Forrester、榜单/报告等高权重信源。

国内诊断系统 · 回答级

  • 中文词典:AUTHORITY_RE / NEGATIVE_PATTERNS / keywords
  • 事实弹药只取 zh,避免中英事实混用
  • 主战场是 L3-L5:归属、召回、竞争
  • 可观测:提及、排名、首推、负面、维度命中
  • 输出六维 health:可见度、篇幅占有、事实命中、弹药健康等
  • 局限:无引用列表时,不能做引用级采信/吸收归因

海外诊断系统 · 引用级升维

  • 英文词典 _EN:G2 / Gartner / Forrester / review / analyst
  • 事实弹药只取 en,按市场真实表达检索
  • L1-L5 全层诊断:可访问、索引、归属、召回、竞争
  • 引用显性:Perplexity 内联角标 / ChatGPT Sources 面板
  • citationVerdict 八档:fragile_first / mixed_pool / trust_fail 等
  • 引用精度:alignment / absorption / role / position / freshness

标准化根因与评分

召回失败采信失败吸收失败语义错位 实体混淆信源权重输内容形态不匹配公开可见性问题 品牌可见度引用占有率事实命中率事实保真度 竞品压制度信源健康度语义匹配度

大模型边界

LLM 只做三件事:抽取回答/引用源断言,解释规则证据到诊断结论,产出 FAQ、对比页和优化建议。每个数字和结论都必须能在输入证据里找到,宁缺勿编。

海外相对国内是诊断升维:从“AI 提没提到我”,升级到“AI 读了哪几篇、我那句有没有被采信、是不是被榜单和竞品信源垄断”。诊断产出再喂 buildStrategySystem,进入策略/战役层。

⑥ 策略生成与内容产出 · 诊断 → 行动的编排中间层

策略以快照冻结,任务以矩阵展开,内容草稿由结构化证据驱动

buildStrategy

拉最近 100 条失利答案聚合

维度战场 → 八大知识域 · 弹药评估 · 结构性断裂
1:N

campaigns 战役

冻结 strategy_snapshot

baseline_kpi 采纳基线 · issue · priority · status

content_tasks 内容任务

维度 × claim × 渠道 × 形态

生成标准答案页 / FAQ / 对比页 · stage · published_url

⑦ 发布与复测监控 · 最小可用闭环

发布结果重新进入采集监测,7天/14天后验证品牌可见度与引用占有率

内容上线(published_url) → 采集端抓到内容进入 AI 引用源 → rollup 复测

人工确认后发布内容;7天/14天后复测同一批问题,对比基线 KPI vs 当前 KPI + 与竞品 diff-in-diff;追踪 T0 采纳 → T1 上线 → T2 生效,形成效果证明。

⑧ MVP 实现栈 · 从单案诊断到批量监控

不是事实库 RAG 问答,而是 AI 搜索结果的归因诊断系统

PostgreSQL

事实、案例、引用源、诊断结果

tenant_id 隔离 · Repo 收口

pgvector + BM25

语义检索 + 关键词检索

行业/场景/公开性/时间过滤

爬虫 + LLM 服务

抓引用源页面;抽取断言、解释归因、生成内容

LLM 只消费结构化上下文

任务队列 + 看板

批量跑问题,展示根因、优先级、建议动作

支撑 7/14 天复测闭环

飞书官网风格浅色信息架构图:左侧配置控制平面横向注入,右侧数据运行平面纵向流转;虚线和光点表示配置与数据的动态流向。