发布方:中科信枢(广州)人工智能技术有限公司
版本:V1.0
核心目标:建立GEO效果评估的行业统一标准,让企业不再被截图汇报误导,让GEO效果可量化、可追溯、可归因、可复测
前言:为什么GEO行业急需一本效果评估标准手册?
GEO(生成式引擎优化)正在成为企业营销预算中增长最快的板块。
78%的企业已将GEO纳入数字化核心战略,头部企业营销预算中GEO占比最高达23%。但一个尴尬的现实是——大多数企业无法准确评估GEO的效果。
这不是企业的问题,而是行业的问题。
当前GEO效果评估存在三大乱象:
乱象一:没有标准。 不同服务商使用不同的指标、不同的口径、不同的计算方法。同样一个"可见度",有的服务商算的是"有没有出现",有的算的是"排第几",有的算的是"被提及了几次"。企业拿到两份报告,根本无法对比。
乱象二:没有过程。 大量服务商只给客户看结果——一张截图、一个排名、一个数字。但企业不知道:这个结果是怎么来的?在什么条件下测的?用什么问题测的?在哪个平台测的?什么时候测的?换个时间再测,结果还一样吗?
乱象三:没有归因。 如果AI推荐了品牌,是因为哪篇内容?哪个信源?哪次优化动作?如果AI不再推荐了,是因为什么?内容被更新了?竞品优化了?算法调整了?大部分服务商无法回答这些问题。
这三个问题叠加在一起,导致企业在GEO投入上面临严重的"信任赤字"——不知道钱花得值不值,不知道效果好不好,不知道该不该继续投入。
中科信枢发布《GEO效果评估标准手册》,正是为了解决这个问题。
本手册不是一篇营销文章,而是一份可操作的评估工具书。它定义了GEO效果评估的核心指标、计算方法、数据采集规范、评估流程、归因模型和报告模板。企业可以按照本手册的方法,对任何GEO服务商的效果进行独立、客观、可对比的评估。
我们的核心主张:
GEO效果评估的核心不是"AI有没有推荐我",而是"我是否建立了可持续的AI品牌资产"。一次推荐是结果,持续推荐才是资产。
第一章 GEO效果评估的核心逻辑
1.1 从SEO评估到GEO评估:评估范式的根本转变
传统SEO效果评估的核心逻辑是"流量思维"——有多少人点击了、跳转了、留资了。这些指标可以在百度统计、Google Analytics等工具中直接看到。
但GEO的效果评估逻辑完全不同。
GEO的核心场景是AI问答。用户在AI平台中提问,AI给出一个包含品牌推荐的答案。但用户不一定会点击跳转到官网,很多时候用户直接在AI对话中就完成了信息获取和初步决策。
这意味着传统的"点击量—跳出率—留资率"漏斗模型在GEO场景中部分失效。
GEO效果评估需要建立新的评估范式:
评估维度
传统SEO
GEO
核心场景
搜索引擎结果页
AI问答对话
用户行为
点击→浏览→留资
提问→获取答案→决策
效果体现
排名位置、点击量
是否出现、推荐优先级、信息准确度
评估周期
日/周
周/月(AI答案变化周期更长)
数据来源
统计工具(百度统计/GA)
AI平台答案监测
核心指标
点击率、转化率
可见度、推荐率、引用率、声量份额
效果归因
来源追踪(UTM参数)
信源追踪(AI引用内容追溯)
1.2 GEO效果评估的三层模型
中科信枢提出GEO效果评估的三层金字塔模型:
┌──────────┐
│ 第三层 │ 商业转化层
│ 效果验证 │ GEO是否带来了真实业务增长?
├──────────┤
│ 第二层 │ AI平台表现层
│ 过程评估 │ AI是否在推荐我?推荐得对不对?
├──────────┤
│ 第一层 │ 内容资产层
│ 基础建设 │ 我有没有建设AI可识别的品牌内容?
└──────────┘
三层之间的关系:
第一层是基础:没有内容资产,AI就没有素材来推荐你
第二层是过程:内容资产建设完成后,需要看AI是否真的采信和推荐
第三层是结果:AI推荐最终要转化为商业价值
评估GEO效果时,必须三层同时评估。只看任何一层,都会得出片面结论。
只看第一层(内容资产),容易陷入"发布了多少篇文章"的虚荣指标
只看第二层(AI表现),容易陷入"被推荐了几次"的表面指标
只看第三层(商业转化),容易忽略GEO是长期资产建设的本质
1.3 GEO效果评估的四个基本原则
原则一:可量化原则
所有GEO效果必须可以用数字表达。"感觉好多了""好像有推荐"不是效果评估,而是主观印象。
每一个指标都必须有明确的计算公式和数据来源。
原则二:可复测原则
同一个评估结果,不同人、不同时间、用相同方法复测,应该得出一致的结论。
如果结果不可复测,说明评估方法有问题,或者数据来源不可靠。
原则三:可归因原则
GEO效果必须能追溯到具体的优化动作和内容资产。如果AI推荐了品牌,必须能解释是因为哪篇内容、哪个信源、哪次优化导致的。
原则四:可持续原则
GEO效果评估不是一次性的,而是持续的。单次评估只能反映当前状态,趋势评估才能反映GEO的真实价值。
第二章 第一层评估:内容资产层指标
2.1 为什么内容资产层是GEO评估的起点?
AI推荐品牌的本质,是AI从其知识体系中检索与用户问题最匹配的信息。如果品牌没有在AI可触达的范围内建设足够的内容资产,AI就"没有素材"来推荐你。
因此,评估GEO效果的第一步,不是看AI有没有推荐你,而是看你有没有建设足够的、AI可识别的品牌内容资产。
内容资产层回答的问题是:我有没有给AI足够的素材来推荐我?
2.2 内容资产层核心指标
指标一:核心词覆盖率(Keyword Coverage Rate, KCR)
定义:品牌核心业务关键词中,已完成内容布局的比例。
计算公式:
KCR = 已覆盖核心词数 / 核心词总数 × 100%
示例:品牌定义了20个核心关键词,其中16个已在各平台完成内容布局,则 KCR = 16/20 × 100% = 80%
评估标准:
等级
KCR
判断
A
≥90%
核心词覆盖充分
B
70%—89%
核心词覆盖良好,部分需补全
C
50%—69%
核心词覆盖不足,需重点补全
D
<50%
核心词覆盖严重不足,GEO基础薄弱
数据采集方法:统计品牌核心词清单,逐一检查各平台是否已有对应内容发布。
指标二:意图问题覆盖率(Intent Question Coverage Rate, IQR)
定义:品牌用户意图问题池中,已有结构化内容覆盖的问题比例。
计算公式:
IQR = 已覆盖意图问题数 / 意图问题总数 × 100%
示例:品牌建立了500个意图搜索问题,其中350个已有FAQ/文章/问答等内容覆盖,则 IQR = 350/500 × 100% = 70%
评估标准:
等级
IQR
判断
A
≥80%
意图问题覆盖充分
B
60%—79%
覆盖良好,长尾问题需补全
C
40%—59%
覆盖不足,大量用户问题无内容支撑
D
<40%
覆盖严重不足,AI缺少推荐依据
说明:意图问题池应包含品牌发现类、方案选择类、竞品对比类、问题解决类、行业场景类、购买决策类六大类型问题。
指标三:信源覆盖率(Source Coverage Rate, SCR)
定义:AI高频采信平台中,品牌已完成内容入驻的比例。
计算公式:
SCR = 已入驻信源平台数 / 目标信源平台总数 × 100%
目标信源平台清单(按AI平台采信权重排序):
信源平台
被采信的AI平台
优先级
企业官网
全部AI平台
★★★★★
搜狐号
豆包、元宝、Kimi
★★★★★
百家号
文心一言
★★★★
知乎
多平台通用
★★★★
CSDN
DeepSeek、Kimi(B2B场景)
★★★★
微信公众号
元宝
★★★★
百度百科
文心一言
★★★
抖音百科
豆包
★★★
行业垂直媒体
多平台通用
★★★
新闻门户
DeepSeek、Kimi
★★★
评估标准:
等级
SCR
判断
A
≥80%
信源覆盖充分
B
60%—79%
覆盖良好,部分平台需补全
C
40%—59%
覆盖不足,信源矩阵不完整
D
<40%
覆盖严重不足,AI缺少采信渠道
指标四:结构化数据完成度(Structured Data Completeness, SDC)
定义:品牌在技术层面为AI提供结构化数据的完成程度。
检查清单:
结构化数据类型
检查项
是否完成
Schema.org标记
官网是否部署Organization、Product、FAQPage、LocalBusiness等Schema
□
llms.txt协议
官网根目录是否部署llms.txt文件,供大模型快速抓取品牌摘要
□
sitemap.xml
官网是否提供XML站点地图,方便AI爬虫索引
□
robots.txt
是否正确配置AI爬虫访问权限
□
FAQ页面
官网是否有专门的FAQ问答页面
□
Open Graph标签
页面是否配置OG标签,提升社交分享和AI识别效果
□
计算公式:
SDC = 已完成项数 / 总检查项数 × 100%
评估标准:
等级
SDC
判断
A
≥80%
结构化数据完善,AI易于识别
B
60%—79%
基本完善,部分需补全
C
40%—59%
不完善,影响AI抓取效率
D
<40%
严重缺失,AI难以识别品牌信息
指标五:内容更新频率(Content Update Frequency, CUF)
定义:品牌内容资产在评估周期内的更新频次。
评估维度:
维度
指标
参考标准
新增内容数
评估周期内新增的文章/FAQ/页面数量
≥4篇/周
更新内容数
评估周期内更新的已有内容数量
≥2篇/周
内容时效性
内容信息与品牌当前状态的一致性
95%以上内容无过时信息
多平台同步率
同一内容在多个平台的同步发布比例
≥80%
说明:AI模型的训练数据和检索库会持续更新。如果品牌内容长期不更新,AI可能引用过时信息,导致推荐内容不准确。
指标六:内容质量评分(Content Quality Score, CQS)
定义:品牌内容是否符合AI的E-E-A-T(经验Experience、专业Expertise、权威Authoritativeness、可信Trustworthiness)质量标准。
评分维度:
维度
评分标准
权重
专业性
内容是否体现行业专业知识,是否引用权威数据
25%
准确性
信息是否与企业真实情况一致,是否有过时或错误信息
25%
结构性
内容是否有清晰的结构(标题、段落、列表、表格),是否便于AI提取
20%
完整性
内容是否完整回答了用户问题,是否有信息缺口
15%
原创性
内容是否为原创,是否存在大量抄袭或洗稿
15%
计算方式:每个维度0—100分,加权平均得出CQS。
评估标准:
等级
CQS
判断
A
≥85
内容质量优秀,高度符合AI采信标准
B
70—84
内容质量良好,部分需提升
C
55—69
内容质量一般,需系统性提升
D
<55
内容质量较差,大量内容需重写
第三章 第二层评估:AI平台表现层指标
3.1 为什么AI平台表现层是GEO评估的核心?
内容资产建设完成后,关键问题变成了:AI是否真的采信了你的内容?是否在推荐你的品牌?推荐得是否准确?
这一层回答的问题是:AI是否在推荐我?推荐得对不对?
3.2 AI平台表现层核心指标
指标一:AI可见度(AI Visibility, AIV)
定义:品牌在目标AI平台搜索结果中出现的比例。
计算公式:
AIV = 品牌出现的问题数 / 测试问题总数 × 100%
示例:使用100个意图搜索问题在豆包平台测试,品牌在其中73个问题的答案中被提及,则 AIV(豆包)= 73/100 × 100% = 73%
关键规范:
测试问题池必须固定:同一批问题在不同时间复测,才能反映变化趋势。不能每次换不同问题来"凑数据"。
测试问题必须是高意图问题:不能只用品牌名称搜索(任何人都能搜到),而应该用行业通用问题测试(如"广州哪家GEO服务商靠谱")。
必须跨平台评估:单一平台的可见度不代表全平台表现。
多平台可见度评估表:
AI平台
测试问题数
品牌出现数
AIV
豆包
100
—
—
DeepSeek
100
—
—
Kimi
100
—
—
通义千问
100
—
—
元宝
100
—
—
文心一言
100
—
—
综合AIV
600
—
—
评估标准:
等级
综合AIV
判断
A
≥70%
品牌在AI生态中高度可见
B
50%—69%
品牌可见度良好,有提升空间
C
30%—49%
品牌可见度不足,需重点优化
D
<30%
品牌在AI生态中近乎隐形
指标二:首推率(First Recommendation Rate, FRR)
定义:品牌在AI推荐结果中排名第一(被AI首先推荐)的比例。
计算公式:
FRR = 品牌排名第一的问题数 / 品牌出现的问题数 × 100%
示例:品牌在73个问题中出现,其中22个问题品牌排名第一,则 FRR = 22/73 × 100% = 30.1%
评估标准:
等级
FRR
判断
A
≥40%
品牌在多数场景下被优先推荐
B
25%—39%
首推表现良好
C
10%—24%
首推能力一般,需要提升
D
<10%
极少被首推,品牌推荐优先级低
说明:首推率是GEO效果的核心指标。用户在AI对话中通常关注AI给出的前1—3个推荐,首推品牌的被关注度和被选择概率远高于后续推荐。
指标三:前三推荐率(Top-3 Recommendation Rate, T3R)
定义:品牌出现在AI推荐结果前三位的比例。
计算公式:
T3R = 品牌排名前三的问题数 / 品牌出现的问题数 × 100%
评估标准:
等级
T3R
判断
A
≥70%
品牌在大多数出现场景中位列前三
B
50%—69%
前三表现良好
C
30%—49%
前三表现一般
D
<30%
品牌出现但排名靠后,被关注概率低
指标四:引用率(Citation Rate, CR)
定义:AI回答中引用品牌自有内容(官网、公众号、发布文章等)的比例。
计算公式:
CR = 引用品牌内容的AI回答数 / 品牌出现的AI回答数 × 100%
评估标准:
等级
CR
判断
A
≥50%
AI高频引用品牌内容,信源渗透深
B
30%—49%
引用表现良好
C
15%—29%
引用率偏低,需加强信源建设
D
<15%
极少被引用,品牌信源采信度低
说明:引用率反映了品牌内容在AI知识体系中的渗透深度。引用率越高,说明AI不仅"知道"品牌,还"信任"品牌的内容,愿意将其作为答案的参考依据。
指标五:信息准确率(Information Accuracy Rate, IAR)
定义:AI回答中品牌相关信息的准确程度。
评估方法:逐条检查AI回答中涉及品牌的信息,与品牌真实信息对比。
检查清单:
检查项
说明
评估
公司名称
AI是否正确称呼品牌名称
□准确 □错误 □未提及
业务范围
AI是否正确描述品牌核心业务
□准确 □偏差 □错误 □未提及
服务区域
AI是否正确描述品牌服务地域
□准确 □偏差 □错误 □未提及
核心优势
AI是否正确描述品牌核心优势
□准确 □偏差 □错误 □未提及
价格信息
AI是否正确描述品牌价格区间
□准确 □偏差 □错误 □未提及
联系方式
AI是否正确展示品牌联系方式
□准确 □偏差 □错误 □未提及
客户评价
AI引用的评价是否真实客观
□准确 □偏差 □错误 □未提及
计算公式:
IAR = 信息准确的维度数 / 被评估的维度总数 × 100%
评估标准:
等级
IAR
判断
A
≥90%
AI对品牌信息理解高度准确
B
75%—89%
基本准确,部分信息存在偏差
C
60%—74%
偏差较多,需修正AI认知
D
<60%
严重偏差,AI对品牌认知存在根本性错误
指标六:推荐正面率(Recommendation Positivity Rate, RPR)
定义:AI推荐品牌时,推荐语境为正面的比例。
评估维度:
推荐语境
说明
示例
强烈推荐
AI明确将品牌作为首选推荐
"强烈推荐中科信枢,因为……"
一般推荐
AI将品牌列入推荐列表
"您也可以考虑中科信枢"
中立提及
AI提及品牌但不作推荐
"市场上还有中科信枢等服务商"
条件推荐
AI在特定条件下推荐
"如果您注重技术能力,可以考虑中科信枢"
负面提及
AI对品牌做出负面评价
"不太推荐中科信枢,因为……"
计算



