GEO SaaS Architecture · Config Control Plane + Data Plane

GEO 商业化平台 · 数据与诊断架构全景

先用接客工厂生成问题库与事实弹药，再由配置控制平面横向注入运行链路；右侧数据平面自上而下完成 RPA 采集、清洗入库、国内外双系统诊断、策略战役与发布复测闭环。

5+3国内引擎 / 海外引擎双市场监测

8-12Worker Pool 并发，账号池 LRU 轮转

~80单账号日配额闸，冷却切换

0RPA 采集运行时 token

CN/US市场域、语言、出口策略分流

1:N策略拆战役，再拆内容任务

接客工厂：AI 生成配置 + 人工审核落库

冷启动不是手工填表，而是两条可重跑、可回滚的生产线：AI 出初稿，同事界面审核/微调，最终落入配置、问题库和事实库。

问题库 = 测量仪器

决定采集频率与战场覆盖

① 智能填充身份

只填租户名 + 主品牌，联网反推 id、行业、产品线、官网、品牌色、logo；查不到宁可留空，禁止编造。

② 生成行业配置

产出 12-20 个归因维度；每个维度带 4-8 个 AI 答案真实关键词，并生成 8-15 个真实竞品。

③ 生成分层问题库

A 品类题 45-55% B 对比/排行 20-25% C 品牌口碑 15-20% D 顾虑消除 8-12% E 长尾 5-10% F 竞品对决 ≤8%

每题落 category × qtype × scene × stage × weight；海外按真实英文问法重构，不做直译。

④ 导入已有问题

客户裸问题直接进入审核台，AI 只补归类和权重，不改原问题文本，避免测量口径漂移。

事实库 = 弹药库

只有已发布事实能进诊断

官网整站抓取
BFS + 顺序 ID 兜底

公开内容抽取
官网/白皮书/案例/FAQ

来源发现
证据 + 置信度防幻觉

① 结构化抽取

按语言分组、切块并发抽取
营销话术不算事实
保留 source_id / market / language

② validateFact 质检

品类归正 + 三分面词表校验
claim 8-400 字，参数必须含数值
时序事实必须含年份，空泛夸张驳回

③ applyFacts 落库

去重、溯源打标、状态候选
候选 → 草稿 → 已发布
已发布事实才可作为诊断弹药

人工审核门：候选事实和 AI 生成配置都必须经同事界面确认，支持重跑、回滚与版本快照。

产物统一落入 tenants.config_json + prompts + atomic_facts + sources，向下游采集、调度、诊断和策略持续供参。

配置控制平面

从左到右供参

配置不是底部脚注，而是贯穿采集、调度、诊断和策略的控制入口。Core 不动，租户差异尽量走 config。

tenants.config_json

租户身份与业务配置，一次生成后贯穿所有链路。

品牌/竞品词典、品牌色、logo
维度词典中英、产品线、市场域 CN/US
监测平台、权益套餐、specCheck

PLATFORM_CATALOG + engine_profile

引擎画像决定采集方式与可见性诊断路径。

region：cn / overseas
collectMode：rpa / serp_rpa
crawlerAgents / indexDependency

prompts + 调度规则

问题库和权重决定采集频率、市场语言和预算。

qtype、category、weight、branded
market、language、enabled
query fan-out 可观测、跨租户去重、频率分级、预算闸

账号/IP 与风控策略

RPA 稳定性由出口、账号池和拟人节奏共同控制。

国内：直连 / 国内住宅 IP + Clash
海外：住宅代理 US，登录 IP = 采集 IP
sticky session、LRU 轮转、~80 条/账号/天

四层宪法

控制定制边界，避免为单客户改核心。

CoreConfigExtensionOverride

① 数据源 · 被监测的 AI 搜索引擎

由租户配置与平台目录决定采哪些平台、哪个市场、哪种语言

国内引擎 ×5

豆包 · DeepSeek · 元宝 · 千问 · Kimi

RPA 抓对话式 Web UI · 均已 GA

海外引擎 ×3（灰度）

ChatGPT · Gemini · Perplexity

Gemini 走 SERP · 引用源结构更细

② 采集层 · geo-collector（可替换执行器）

账号/IP 策略从左侧注入，采集器只做确定性执行

Patchright 真 Chrome · SSE 网络劫持

DOM 定位 + 拟人逐字输入 + 鼠标轨迹 + 登录态 profile 复用；采集运行时零 token。

国内出口

直连 / 国内住宅 IP + Clash

海外出口

住宅代理 US；登录 IP = 采集 IP；sticky session

账号池

LRU 轮转；单账号约 80 条/天；冷却切换

调度执行

Worker Pool 8-12；query fan-out 追踪；跨租户去重；预算闸

③ 回传与清洗 · 原始层 / 干净层分离

采集波动先隔离，清洗可重跑、可溯源

采集器三接口回传

results / citations / fact-source

X-Collector-Key · 幂等键去重

→

raw_ingest 原始暂存

kind=answer / citation / fact_source

脏数据隔离 · processed=-1 可重跑

→

normalize 清洗

跨租户扇出 · 品牌识别/排名/负面

domain 归一 · 按 model 拆分

④ 数据域 · 多租户隔离（tenant_id 贯穿，走 TenantRepo）

诊断依据来自下方四库，而不是模型臆测

answer_logs

答案库 / 驾驶舱核心

提及 · 排名 · 首推 · 负面 · qtype · market · language

answer_citations

引用源清单

替谁说话 · 作用 · 位置 · alignment · absorption

atomic_facts + sources

原子事实 + 来源库

claim · evidence_url · source_type · industry · scenario · confidence

visibility_checks

域名可见性体检

robots · WAF · index · snippet

⑤ 诊断双系统 · 国内回答级 vs 海外引用级

核心不是事实库 RAG，而是证据检索 + 规则诊断 + 大模型解释/产出；国内外先分流，能打到的层级和证据精度完全不同。

Query
用户问题

Answer
AI 回答

Citations
AI 引用源

Brand Facts
品牌事实库

Public Assets
公开内容

Competitors
竞品

Engine
AI 平台

Timestamp
回答时间

01 GEO BOUNDARY

被检索到

域名可访问、页面可索引、能进入候选引用源池；否则先修 robots/WAF/index/snippet。

02 SEMANTIC FIT

被理解

问题意图、行业场景、产品线、实体关系与品牌事实能否语义对齐。

03 SOURCE TRUST

被采信

品牌源、第三方源、竞品源谁被引用；权威背书和 citation precision 决定采信强度。

04 ANSWER SHARE

被推荐

最终回答是否提及、排第几、是否首推、是否被竞品压制，并进入复测 KPI。

一条答案进入诊断

先读取 engine + language + 引用列表结构，决定使用哪套词典、哪套引擎画像、事实库取 zh 还是 en，以及本次最多能打到 L1-L5 哪几层。

① language

切换整套词典：AUTHORITY_RE、NEGATIVE_PATTERNS、dimKeywords 与事实语言隔离。

② isOverseasEngine

切换归因结构：海外可前置 L1/L2，国内主战场落在 L3-L5。

③ engineProfile

按平台画像切诊断路径：SERP 依赖、对话式 RPA、query fan-out 轨迹与引用形态。

④ 有无引用列表

无引用时做回答级诊断；有引用时升维到引用源解析、采信和吸收判断。

1. 解析 Query

判断选型/对比/推荐/排名/价格/场景方案，先确定品牌该不该出现。

2. 抽取 Answer 断言

抽取 AI 回答中的品牌能力、竞品评价、行业结论和隐含比较。

3. 解析 Citations

判断引用源是谁的、讲什么、第三方/竞品/品牌自有以及权威性。

4. 混合检索事实

向量检索 + BM25 + 元数据过滤 + 实体关系表召回相关原子事实。

5. 三方对比

对比品牌事实写了什么、AI 采用了什么、引用源支撑了什么。

6. 根因与评分

强制归入标准根因，并输出可见度、引用占有率、事实命中率等评分。

L1 可访问层

前置 P0 · 命中即止

规则诊断robots 拒爬、WAF/403、meta/noindex、JS 渲染重、需要登录、URL 不稳定。

国内回答级爬虫标准弱，缺少 Search Console 型可观测，多数只能标记 unknown，不轻易归因到 L1。

海外引用级robots/WAF/meta 可真实探测；可见性未恢复前，补内容与改文案全部暂缓。

L2 索引层

前置 P0 · snippet 资格

规则诊断未索引、snippet 资格缺失、搜索页不可见、引用源池没有进入候选。

国内回答级索引链路不可见，通常不做硬判，只作为低置信提示输出。

海外引用级Gemini 依赖 Google SERP / Search Console；ChatGPT、Perplexity 走自有索引画像。

L1/L2 是海外真正跑得起来的前置层；一旦命中，诊断定调为可见性问题，跳过下游内容竞争判断。

L3 归属层

qtype + 产品线

规则诊断判断问题是否品类外、品牌不该出现，或竞品对决题中是否存在蹭入机会。

国内回答级依赖 product_lines、qtype、中文行业词和竞品词，避免把“未提及”误判成失利。

海外引用级同样先判场景归属，但使用英文 category / scenario / competitor 关系表。

L4 召回层

完全未提及

规则诊断看同题 × 同模型提及率，区分个例波动和系统性召回缺口。

国内回答级可观测指标是提及、排名、首推、负面；结合品牌/竞品词典做批量监控。

海外引用级进一步看引用池是否完全没有品牌源，拆成召回失败或源池缺席。

L5 竞争层

提到但输

五类根因信源权重输、吸收失败、弹药缺口、篇幅被压制、临门一脚。

国内回答级用 AUTHORITY_RE / NEGATIVE_PATTERNS / keywords 判断权威背书、负面和维度命中。

海外引用级用 AUTHORITY_RE_EN 识别 G2、Gartner、Forrester、榜单/报告等高权重信源。

国内诊断系统 · 回答级

中文词典：AUTHORITY_RE / NEGATIVE_PATTERNS / keywords
事实弹药只取 zh，避免中英事实混用
主战场是 L3-L5：归属、召回、竞争
可观测：提及、排名、首推、负面、维度命中
输出六维 health：可见度、篇幅占有、事实命中、弹药健康等
局限：无引用列表时，不能做引用级采信/吸收归因

海外诊断系统 · 引用级升维

英文词典 _EN：G2 / Gartner / Forrester / review / analyst
事实弹药只取 en，按市场真实表达检索
L1-L5 全层诊断：可访问、索引、归属、召回、竞争
引用显性：Perplexity 内联角标 / ChatGPT Sources 面板
citationVerdict 八档：fragile_first / mixed_pool / trust_fail 等
引用精度：alignment / absorption / role / position / freshness

标准化根因与评分

召回失败采信失败吸收失败语义错位实体混淆信源权重输内容形态不匹配公开可见性问题品牌可见度引用占有率事实命中率事实保真度竞品压制度信源健康度语义匹配度

大模型边界

LLM 只做三件事：抽取回答/引用源断言，解释规则证据到诊断结论，产出 FAQ、对比页和优化建议。每个数字和结论都必须能在输入证据里找到，宁缺勿编。

海外相对国内是诊断升维：从“AI 提没提到我”，升级到“AI 读了哪几篇、我那句有没有被采信、是不是被榜单和竞品信源垄断”。诊断产出再喂 buildStrategySystem，进入策略/战役层。

⑥ 策略生成与内容产出 · 诊断 → 行动的编排中间层

策略以快照冻结，任务以矩阵展开，内容草稿由结构化证据驱动

buildStrategy

拉最近 100 条失利答案聚合

维度战场 → 八大知识域 · 弹药评估 · 结构性断裂

1:N

campaigns 战役

冻结 strategy_snapshot

baseline_kpi 采纳基线 · issue · priority · status

→

content_tasks 内容任务

维度 × claim × 渠道 × 形态

生成标准答案页 / FAQ / 对比页 · stage · published_url

⑦ 发布与复测监控 · 最小可用闭环

发布结果重新进入采集监测，7天/14天后验证品牌可见度与引用占有率

内容上线（published_url） → 采集端抓到内容进入 AI 引用源 → rollup 复测

人工确认后发布内容；7天/14天后复测同一批问题，对比基线 KPI vs 当前 KPI + 与竞品 diff-in-diff；追踪 T0 采纳 → T1 上线 → T2 生效，形成效果证明。

⑧ MVP 实现栈 · 从单案诊断到批量监控

不是事实库 RAG 问答，而是 AI 搜索结果的归因诊断系统

PostgreSQL

事实、案例、引用源、诊断结果

tenant_id 隔离 · Repo 收口

pgvector + BM25

语义检索 + 关键词检索

行业/场景/公开性/时间过滤

爬虫 + LLM 服务

抓引用源页面；抽取断言、解释归因、生成内容

LLM 只消费结构化上下文

任务队列 + 看板

批量跑问题，展示根因、优先级、建议动作

支撑 7/14 天复测闭环

飞书官网风格浅色信息架构图：左侧配置控制平面横向注入，右侧数据运行平面纵向流转；虚线和光点表示配置与数据的动态流向。