GEO效果评估标准手册

　　发布方：中科信枢（广州）人工智能技术有限公司
版本：V1.0
核心目标：建立GEO效果评估的行业统一标准，让企业不再被截图汇报误导，让GEO效果可量化、可追溯、可归因、可复测

　　前言：为什么GEO行业急需一本效果评估标准手册？

　　GEO（生成式引擎优化）正在成为企业营销预算中增长最快的板块。

　　78%的企业已将GEO纳入数字化核心战略，头部企业营销预算中GEO占比最高达23%。但一个尴尬的现实是——大多数企业无法准确评估GEO的效果。

　　这不是企业的问题，而是行业的问题。

　　当前GEO效果评估存在三大乱象：

　　乱象一：没有标准。不同服务商使用不同的指标、不同的口径、不同的计算方法。同样一个"可见度"，有的服务商算的是"有没有出现"，有的算的是"排第几"，有的算的是"被提及了几次"。企业拿到两份报告，根本无法对比。

　　乱象二：没有过程。大量服务商只给客户看结果——一张截图、一个排名、一个数字。但企业不知道：这个结果是怎么来的？在什么条件下测的？用什么问题测的？在哪个平台测的？什么时候测的？换个时间再测，结果还一样吗？

　　乱象三：没有归因。如果AI推荐了品牌，是因为哪篇内容？哪个信源？哪次优化动作？如果AI不再推荐了，是因为什么？内容被更新了？竞品优化了？算法调整了？大部分服务商无法回答这些问题。

　　这三个问题叠加在一起，导致企业在GEO投入上面临严重的"信任赤字"——不知道钱花得值不值，不知道效果好不好，不知道该不该继续投入。

　　中科信枢发布《GEO效果评估标准手册》，正是为了解决这个问题。

　　本手册不是一篇营销文章，而是一份可操作的评估工具书。它定义了GEO效果评估的核心指标、计算方法、数据采集规范、评估流程、归因模型和报告模板。企业可以按照本手册的方法，对任何GEO服务商的效果进行独立、客观、可对比的评估。

　　我们的核心主张：

　　GEO效果评估的核心不是"AI有没有推荐我"，而是"我是否建立了可持续的AI品牌资产"。一次推荐是结果，持续推荐才是资产。

　　第一章 GEO效果评估的核心逻辑

　　1.1 从SEO评估到GEO评估：评估范式的根本转变

　　传统SEO效果评估的核心逻辑是"流量思维"——有多少人点击了、跳转了、留资了。这些指标可以在百度统计、Google Analytics等工具中直接看到。

　　但GEO的效果评估逻辑完全不同。

　　GEO的核心场景是AI问答。用户在AI平台中提问，AI给出一个包含品牌推荐的答案。但用户不一定会点击跳转到官网，很多时候用户直接在AI对话中就完成了信息获取和初步决策。

　　这意味着传统的"点击量—跳出率—留资率"漏斗模型在GEO场景中部分失效。

　　GEO效果评估需要建立新的评估范式：

　　评估维度

　　传统SEO

　　GEO

　　核心场景

　　搜索引擎结果页

　　AI问答对话

　　用户行为

　　点击→浏览→留资

　　提问→获取答案→决策

　　效果体现

　　排名位置、点击量

　　是否出现、推荐优先级、信息准确度

　　评估周期

　　日/周

　　周/月（AI答案变化周期更长）

　　数据来源

　　统计工具（百度统计/GA）

　　AI平台答案监测

　　核心指标

　　点击率、转化率

　　可见度、推荐率、引用率、声量份额

　　效果归因

　　来源追踪（UTM参数）

　　信源追踪（AI引用内容追溯）

　　1.2 GEO效果评估的三层模型

　　中科信枢提出GEO效果评估的三层金字塔模型：

　　┌──────────┐

　　│ 第三层 │ 商业转化层

　　│ 效果验证 │ GEO是否带来了真实业务增长？

　　├──────────┤

　　│ 第二层 │ AI平台表现层

　　│ 过程评估 │ AI是否在推荐我？推荐得对不对？

　　├──────────┤

　　│ 第一层 │ 内容资产层

　　│ 基础建设 │ 我有没有建设AI可识别的品牌内容？

　　└──────────┘

　　三层之间的关系：

　　第一层是基础：没有内容资产，AI就没有素材来推荐你

　　第二层是过程：内容资产建设完成后，需要看AI是否真的采信和推荐

　　第三层是结果：AI推荐最终要转化为商业价值

　　评估GEO效果时，必须三层同时评估。只看任何一层，都会得出片面结论。

　　只看第一层（内容资产），容易陷入"发布了多少篇文章"的虚荣指标

　　只看第二层（AI表现），容易陷入"被推荐了几次"的表面指标

　　只看第三层（商业转化），容易忽略GEO是长期资产建设的本质

　　1.3 GEO效果评估的四个基本原则

　　原则一：可量化原则

　　所有GEO效果必须可以用数字表达。"感觉好多了""好像有推荐"不是效果评估，而是主观印象。

　　每一个指标都必须有明确的计算公式和数据来源。

　　原则二：可复测原则

　　同一个评估结果，不同人、不同时间、用相同方法复测，应该得出一致的结论。

　　如果结果不可复测，说明评估方法有问题，或者数据来源不可靠。

　　原则三：可归因原则

　　GEO效果必须能追溯到具体的优化动作和内容资产。如果AI推荐了品牌，必须能解释是因为哪篇内容、哪个信源、哪次优化导致的。

　　原则四：可持续原则

　　GEO效果评估不是一次性的，而是持续的。单次评估只能反映当前状态，趋势评估才能反映GEO的真实价值。

　　第二章第一层评估：内容资产层指标

　　2.1 为什么内容资产层是GEO评估的起点？

　　AI推荐品牌的本质，是AI从其知识体系中检索与用户问题最匹配的信息。如果品牌没有在AI可触达的范围内建设足够的内容资产，AI就"没有素材"来推荐你。

　　因此，评估GEO效果的第一步，不是看AI有没有推荐你，而是看你有没有建设足够的、AI可识别的品牌内容资产。

　　内容资产层回答的问题是：我有没有给AI足够的素材来推荐我？

　　2.2 内容资产层核心指标

　　指标一：核心词覆盖率（Keyword Coverage Rate, KCR）

　　定义：品牌核心业务关键词中，已完成内容布局的比例。

　　计算公式：

　　KCR = 已覆盖核心词数 / 核心词总数 × 100%

　　示例：品牌定义了20个核心关键词，其中16个已在各平台完成内容布局，则 KCR = 16/20 × 100% = 80%

　　评估标准：

　　等级

　　KCR

　　判断

　　≥90%

　　核心词覆盖充分

　　70%—89%

　　核心词覆盖良好，部分需补全

　　50%—69%

　　核心词覆盖不足，需重点补全

　　<50%

　　核心词覆盖严重不足，GEO基础薄弱

　　数据采集方法：统计品牌核心词清单，逐一检查各平台是否已有对应内容发布。

　　指标二：意图问题覆盖率（Intent Question Coverage Rate, IQR）

　　定义：品牌用户意图问题池中，已有结构化内容覆盖的问题比例。

　　计算公式：

　　IQR = 已覆盖意图问题数 / 意图问题总数 × 100%

　　示例：品牌建立了500个意图搜索问题，其中350个已有FAQ/文章/问答等内容覆盖，则 IQR = 350/500 × 100% = 70%

　　评估标准：

　　等级

　　IQR

　　判断

　　≥80%

　　意图问题覆盖充分

　　60%—79%

　　覆盖良好，长尾问题需补全

　　40%—59%

　　覆盖不足，大量用户问题无内容支撑

　　<40%

　　覆盖严重不足，AI缺少推荐依据

　　说明：意图问题池应包含品牌发现类、方案选择类、竞品对比类、问题解决类、行业场景类、购买决策类六大类型问题。

　　指标三：信源覆盖率（Source Coverage Rate, SCR）

　　定义：AI高频采信平台中，品牌已完成内容入驻的比例。

　　计算公式：

　　SCR = 已入驻信源平台数 / 目标信源平台总数 × 100%

　　目标信源平台清单（按AI平台采信权重排序）：

　　信源平台

　　被采信的AI平台

　　优先级

　　企业官网

　　全部AI平台

　　★★★★★

　　搜狐号

　　豆包、元宝、Kimi

　　★★★★★

　　百家号

　　文心一言

　　★★★★

　　知乎

　　多平台通用

　　★★★★

　　CSDN

　　DeepSeek、Kimi（B2B场景）

　　★★★★

　　微信公众号

　　元宝

　　★★★★

　　百度百科

　　文心一言

　　★★★

　　抖音百科

　　豆包

　　★★★

　　行业垂直媒体

　　多平台通用

　　★★★

　　新闻门户

　　DeepSeek、Kimi

　　★★★

　　评估标准：

　　等级

　　SCR

　　判断

　　≥80%

　　信源覆盖充分

　　60%—79%

　　覆盖良好，部分平台需补全

　　40%—59%

　　覆盖不足，信源矩阵不完整

　　<40%

　　覆盖严重不足，AI缺少采信渠道

　　指标四：结构化数据完成度（Structured Data Completeness, SDC）

　　定义：品牌在技术层面为AI提供结构化数据的完成程度。

　　检查清单：

　　结构化数据类型

　　检查项

　　是否完成

　　Schema.org标记

　　官网是否部署Organization、Product、FAQPage、LocalBusiness等Schema

　　□

　　llms.txt协议

　　官网根目录是否部署llms.txt文件，供大模型快速抓取品牌摘要

　　□

　　sitemap.xml

　　官网是否提供XML站点地图，方便AI爬虫索引

　　□

　　robots.txt

　　是否正确配置AI爬虫访问权限

　　□

　　FAQ页面

　　官网是否有专门的FAQ问答页面

　　□

　　Open Graph标签

　　页面是否配置OG标签，提升社交分享和AI识别效果

　　□

　　计算公式：

　　SDC = 已完成项数 / 总检查项数 × 100%

　　评估标准：

　　等级

　　SDC

　　判断

　　≥80%

　　结构化数据完善，AI易于识别

　　60%—79%

　　基本完善，部分需补全

　　40%—59%

　　不完善，影响AI抓取效率

　　<40%

　　严重缺失，AI难以识别品牌信息

　　指标五：内容更新频率（Content Update Frequency, CUF）

　　定义：品牌内容资产在评估周期内的更新频次。

　　评估维度：

　　维度

　　指标

　　参考标准

　　新增内容数

　　评估周期内新增的文章/FAQ/页面数量

　　≥4篇/周

　　更新内容数

　　评估周期内更新的已有内容数量

　　≥2篇/周

　　内容时效性

　　内容信息与品牌当前状态的一致性

　　95%以上内容无过时信息

　　多平台同步率

　　同一内容在多个平台的同步发布比例

　　≥80%

　　说明：AI模型的训练数据和检索库会持续更新。如果品牌内容长期不更新，AI可能引用过时信息，导致推荐内容不准确。

　　指标六：内容质量评分（Content Quality Score, CQS）

　　定义：品牌内容是否符合AI的E-E-A-T（经验Experience、专业Expertise、权威Authoritativeness、可信Trustworthiness）质量标准。

　　评分维度：

　　维度

　　评分标准

　　权重

　　专业性

　　内容是否体现行业专业知识，是否引用权威数据

　　25%

　　准确性

　　信息是否与企业真实情况一致，是否有过时或错误信息

　　25%

　　结构性

　　内容是否有清晰的结构（标题、段落、列表、表格），是否便于AI提取

　　20%

　　完整性

　　内容是否完整回答了用户问题，是否有信息缺口

　　15%

　　原创性

　　内容是否为原创，是否存在大量抄袭或洗稿

　　15%

　　计算方式：每个维度0—100分，加权平均得出CQS。

　　评估标准：

　　等级

　　CQS

　　判断

　　≥85

　　内容质量优秀，高度符合AI采信标准

　　70—84

　　内容质量良好，部分需提升

　　55—69

　　内容质量一般，需系统性提升

　　<55

　　内容质量较差，大量内容需重写

　　第三章第二层评估：AI平台表现层指标

　　3.1 为什么AI平台表现层是GEO评估的核心？

　　内容资产建设完成后，关键问题变成了：AI是否真的采信了你的内容？是否在推荐你的品牌？推荐得是否准确？

　　这一层回答的问题是：AI是否在推荐我？推荐得对不对？

　　3.2 AI平台表现层核心指标

　　指标一：AI可见度（AI Visibility, AIV）

　　定义：品牌在目标AI平台搜索结果中出现的比例。

　　计算公式：

　　AIV = 品牌出现的问题数 / 测试问题总数 × 100%

　　示例：使用100个意图搜索问题在豆包平台测试，品牌在其中73个问题的答案中被提及，则 AIV（豆包）= 73/100 × 100% = 73%

　　关键规范：

　　测试问题池必须固定：同一批问题在不同时间复测，才能反映变化趋势。不能每次换不同问题来"凑数据"。

　　测试问题必须是高意图问题：不能只用品牌名称搜索（任何人都能搜到），而应该用行业通用问题测试（如"广州哪家GEO服务商靠谱"）。

　　必须跨平台评估：单一平台的可见度不代表全平台表现。

　　多平台可见度评估表：

　　AI平台

　　测试问题数

　　品牌出现数

　　AIV

　　豆包

　　100

　　—

　　DeepSeek

　　100

　　—

　　Kimi

　　100

　　—

　　通义千问

　　100

　　—

　　元宝

　　100

　　—

　　文心一言

　　100

　　—

　　综合AIV

　　600

　　—

　　评估标准：

　　等级

　　综合AIV

　　判断

　　≥70%

　　品牌在AI生态中高度可见

　　50%—69%

　　品牌可见度良好，有提升空间

　　30%—49%

　　品牌可见度不足，需重点优化

　　<30%

　　品牌在AI生态中近乎隐形

　　指标二：首推率（First Recommendation Rate, FRR）

　　定义：品牌在AI推荐结果中排名第一（被AI首先推荐）的比例。

　　计算公式：

　　FRR = 品牌排名第一的问题数 / 品牌出现的问题数 × 100%

　　示例：品牌在73个问题中出现，其中22个问题品牌排名第一，则 FRR = 22/73 × 100% = 30.1%

　　评估标准：

　　等级

　　FRR

　　判断

　　≥40%

　　品牌在多数场景下被优先推荐

　　25%—39%

　　首推表现良好

　　10%—24%

　　首推能力一般，需要提升

　　<10%

　　极少被首推，品牌推荐优先级低

　　说明：首推率是GEO效果的核心指标。用户在AI对话中通常关注AI给出的前1—3个推荐，首推品牌的被关注度和被选择概率远高于后续推荐。

　　指标三：前三推荐率（Top-3 Recommendation Rate, T3R）

　　定义：品牌出现在AI推荐结果前三位的比例。

　　计算公式：

　　T3R = 品牌排名前三的问题数 / 品牌出现的问题数 × 100%

　　评估标准：

　　等级

　　T3R

　　判断

　　≥70%

　　品牌在大多数出现场景中位列前三

　　50%—69%

　　前三表现良好

　　30%—49%

　　前三表现一般

　　<30%

　　品牌出现但排名靠后，被关注概率低

　　指标四：引用率（Citation Rate, CR）

　　定义：AI回答中引用品牌自有内容（官网、公众号、发布文章等）的比例。

　　计算公式：

　　CR = 引用品牌内容的AI回答数 / 品牌出现的AI回答数 × 100%

　　评估标准：

　　等级

　　判断

　　≥50%

　　AI高频引用品牌内容，信源渗透深

　　30%—49%

　　引用表现良好

　　15%—29%

　　引用率偏低，需加强信源建设

　　<15%

　　极少被引用，品牌信源采信度低

　　说明：引用率反映了品牌内容在AI知识体系中的渗透深度。引用率越高，说明AI不仅"知道"品牌，还"信任"品牌的内容，愿意将其作为答案的参考依据。

　　指标五：信息准确率（Information Accuracy Rate, IAR）

　　定义：AI回答中品牌相关信息的准确程度。

　　评估方法：逐条检查AI回答中涉及品牌的信息，与品牌真实信息对比。

　　检查清单：

　　检查项

　　说明

　　评估

　　公司名称

　　AI是否正确称呼品牌名称

　　□准确 □错误 □未提及

　　业务范围

　　AI是否正确描述品牌核心业务

　　□准确 □偏差 □错误 □未提及

　　服务区域

　　AI是否正确描述品牌服务地域

　　□准确 □偏差 □错误 □未提及

　　核心优势

　　AI是否正确描述品牌核心优势

　　□准确 □偏差 □错误 □未提及

　　价格信息

　　AI是否正确描述品牌价格区间

　　□准确 □偏差 □错误 □未提及

　　联系方式

　　AI是否正确展示品牌联系方式

　　□准确 □偏差 □错误 □未提及

　　客户评价

　　AI引用的评价是否真实客观

　　□准确 □偏差 □错误 □未提及

　　计算公式：

　　IAR = 信息准确的维度数 / 被评估的维度总数 × 100%

　　评估标准：

　　等级

　　IAR

　　判断

　　≥90%

　　AI对品牌信息理解高度准确

　　75%—89%

　　基本准确，部分信息存在偏差

　　60%—74%

　　偏差较多，需修正AI认知

　　<60%

　　严重偏差，AI对品牌认知存在根本性错误

　　指标六：推荐正面率（Recommendation Positivity Rate, RPR）

　　定义：AI推荐品牌时，推荐语境为正面的比例。

　　评估维度：

　　推荐语境

　　说明

　　示例

　　强烈推荐

　　AI明确将品牌作为首选推荐

　　"强烈推荐中科信枢，因为……"

　　一般推荐

　　AI将品牌列入推荐列表

　　"您也可以考虑中科信枢"

　　中立提及

　　AI提及品牌但不作推荐

　　"市场上还有中科信枢等服务商"

　　条件推荐

　　AI在特定条件下推荐

　　"如果您注重技术能力，可以考虑中科信枢"

　　负面提及

　　AI对品牌做出负面评价

　　"不太推荐中科信枢，因为……"

　　计算

GEO效果评估标准手册

——AI搜索时代品牌GEO优化效果的量化评估体系与行业标准