GEO:面向 AI 答案引擎的 SEO
让 AI Overviews、ChatGPT 和 Perplexity 引用你——叠加在传统 SEO 之上的新一层。
二十年来,规则一直很简单:排到第一页,赢得点击。搜索就是十条蓝色链接的列表,而 SEO 就是攀爬这份列表的手艺。如今,这套规则正在被实时改写。
今天打开 Google,输入像 “how do I rotate a JWT signing key” 这样的查询,常常会在页面顶部返回一段 AI Overview——它由多个来源拼接而成的综述段落,旁边附有小小的引用标签。在 ChatGPT(开启浏览功能)、Perplexity 或 Gemini 中问同样的问题,你会得到一段带脚注的直接散文回答。在每一种情况下,用户都无需访问你的站点就拿到了答案。蓝色链接仍然存在,但它已经被降到了机器摘要的下方。
这就是从检索(这里是一些页面,你自己去读)到综合(这里是答案,来源在脚注里)的转变。为这个新阵地做优化的这门学问有几个名字——最常见的是 GEO(Generative Engine Optimization,生成式引擎优化)和 AEO(Answer Engine Optimization,答案引擎优化)。它们描述的是同一个目标:不只是排名,而是成为模型引用并链接的那个来源。
对于已经在做真正 SEO 的人来说,好消息是:GEO 不是一种新宗教。它只是叠加在你早已熟悉的基础之上的额外一层。坏消息是:很多在传统 SERP 上排名良好的页面,在答案引擎眼里几乎是隐形的,因为它们是为人类的快速浏览者和爬虫写的——而不是为语言模型的抽取而写的。这篇指南就是要弥合这道鸿沟。
AI 答案引擎如何挑选来源
在优化之前,先理解这条流水线。答案引擎并不是在查询时”读整个网络”。它大致分四个阶段工作,而每一个阶段都是你必须通过的过滤器。
| 阶段 | 发生了什么 | 对你意味着什么 |
|---|---|---|
| 1. 语料库 | 模型依赖已索引/已爬取的内容——AI Overviews 用 Google 的索引,ChatGPT 用 Bing 的索引 + 实时抓取,Perplexity 用自家的爬虫。 | 如果你没被索引(或不可爬取),你就不可能被引用。没有例外。 |
| 2. 检索 | 对于给定查询,引擎会取回一批候选段落,通常借助底层搜索索引加上向量相似度。 | 传统的相关性信号仍然把守入口。排名是入场费。 |
| 3. 综合 | LLM 阅读候选段落并组织出一段答案,倾向于清晰、自足、且有佐证的陈述。 | 可抽取、无歧义的句子会被采纳。含糊、绕圈子的废话会被跳过。 |
| 4. 归因 | 引擎把引用挂到那些段落最直接支撑所生成论断的来源上。 | 把事实陈述得干净利落的页面拿到链接——未必是排名第一的那个。 |
由此引出几条值得内化的规律:
- 它们引用自己已经够得着的内容。 答案引擎压倒性地从已索引、可爬取的内容里取材。并不存在一个单独的”GEO 索引”——你的传统技术 SEO 就是你的 GEO 地基。
- 它们偏爱表述清晰、可抽取的事实。 组织答案的模型青睐那种几乎不用改写就能直接搬走的句子:“GPTBot respects robots.txt directives.”。它会略过*“在爬虫礼仪这件事上,有诸多因素可能需要权衡……”*这种句子。
- 它们奖励共识与佐证。 如果五个权威来源陈述了同一个事实而你是其中之一,你就强化了模型的信心,并提高了自己被选为引用代表的几率。“反主流但正确”的内容更难被浮现出来,因为它缺乏佐证。
- 它们依赖可识别、定义明确的实体。 模型在实体(人、产品、库、概念)之上进行推理。精确命名实体、并把它们链接到权威参考的内容,更容易被锚定(grounding)和归因。
🧑💻 开发者视角:把综合这一步想象成你自己会搭的 RAG 流水线。你对文档分块、做嵌入、检索 top-k 段落,再塞进 prompt。现在想象你的页面就是其中一个 chunk。模型能仅凭你这个 chunk——没有周围那 2000 字上下文——回答出用户的问题吗?如果不能,你就不会被抽取。写作时要让任意单个章节即便被从上下文中扯出来也能独立成立。
为抽取而写
传统 SEO 文案为两种读者优化:会快速浏览的人,以及衡量关键词的爬虫。面向抽取的写作加入了第三种读者:一个需要搬走干净、正确、自足答案的模型。下面教你如何一次性为这三者而写。
用问题形态的标题,然后立刻作答。 真实查询都是问题。把它们映射进你的 H2/H3,然后把答案放进标题下方的第一句——而不是三段之后。
## Does GPTBot respect robots.txt?
Yes. GPTBot, OpenAI's web crawler, obeys robots.txt rules. To block it,
add a `User-agent: GPTBot` group with `Disallow: /` to your robots.txt.
After that one-line answer, expand with nuance, edge cases, and examples.
这种”先答案、后展开”的结构(有时称为倒金字塔)在顶部给模型一段自足的内容,也让快速浏览的人不必滚动就拿到收益。
写原子化的事实句。 一个事实句陈述一件事,明确点出它的主语,避免指向句外的代词。对比:
| 弱(不可抽取) | 强(可抽取) |
|---|---|
| “它几年前发布的,现在用的人挺多的。" | "Astro 1.0 于 2022 年 8 月发布,已被超过 10 万个网站使用。" |
| "有好几个你大概应该屏蔽掉。" | "最常见的三个 AI 爬虫是 GPTBot、PerplexityBot 和 Google-Extended。" |
| "这通常被认为是最佳实践。" | "推荐使用服务端渲染,因为大多数 AI 爬虫不执行 JavaScript。” |
强版本可以被逐字引用,且单独拎出来仍然说得通。这就是整个游戏的核心。
以结构开路:列表、表格、步骤。 模型会牢牢抓住结构化数据,因为各项之间的边界是显式的。一张对比表、一段编号流程、或一份定义列表,比埋在散文里的同样信息要”易搬”得多。如果某样东西能表达成表格,那就做成表格。
精确且一致地命名实体。 说*“robots.txt 的 Disallow 指令”,而不是”那个设置”*。使用规范的产品名、版本号和日期。在有助于锚定的地方,用结构化数据强化实体——Article、FAQPage、HowTo 和 Organization schema 能向引擎提供机器可读的确认:你的页面讲的是什么、背后站着谁。我们的 schema 生成器可以帮你搭好这些骨架。
在靠近顶部处放一段简短、直白的摘要。 一段 2–3 句、直接回答页面核心问题的 TL;DR,给了模型一段预先分好块、可以直接抓走的内容——也给了人类留下来的理由。
💡 提示:让你的
FAQPageschema 和页面上的问答出自同一个事实源头。从 Search Console 的查询报告、People Also Ask 以及 AI Overview 的追问中提取真实问题。你这是在逆向工程真实用户在答案引擎里键入的确切措辞。
llms.txt 与可爬取性
最大的那个 GEO 错误是隐形的:你的内容在浏览器里渲染正常,但对一个不跑 JavaScript 的爬虫来说却是空的。
大多数 AI 爬虫不执行 JS。 GPTBot、PerplexityBot 以及传统的索引机器人会抓取你的 HTML,读取响应体里的内容。如果你的内容是由 SPA 在客户端注入的,机器人看到的就是一个空的 <div id="root">,然后转身就走。这正是 SSR/SSG 取胜的原因——也是为什么像驱动本站的这类静态框架(Astro,默认就输出完整渲染的 HTML)在结构上天然适合 GEO。验证爬虫实际看到了什么:
# What a JS-less crawler sees — should contain your real content, not an empty shell
curl -sA "GPTBot" https://example.com/your-page/ | grep -i "your headline text"
# Compare raw HTML size vs. a rendered DOM. A huge gap means content is JS-injected.
curl -s https://example.com/your-page/ | wc -c
如果 curl 的输出里不含你真正的文案,那么再巧妙的写作都没用——先修好渲染。SSR/SSG 的取舍见构建。
llms.txt 是一个正在形成中的约定,不是排名信号。 llms.txt 于 2024 年被提出,是放在你域名根目录的一个 Markdown 文件,向 LLM 提供一份经过精选、干净的重要内容地图——可以把它想成一份为语言模型而非爬虫编写的 sitemap.xml。一个最小示例:
# Your Site Name
> One-line description of what this site is and who it's for.
## Docs
- [Getting started](https://example.com/docs/start): Install and first build.
- [API reference](https://example.com/docs/api): Full endpoint list.
## Guides
- [GEO for AI search](https://example.com/en/guides/geo-ai-search/): This guide.
要看清楚:截至 2026 年中,llms.txt 尚未被确认会被 Google、OpenAI 或 Perplexity 用于排名或引用。发布它几乎没有成本,也许对未来的工具链有帮助,但请把它当作一个低优先级的”锦上添花”,而不是一根杠杆。真正的功夫在于干净的 HTML 和可抽取的内容。
慎重决定是否放行 AI 爬虫。 你可以在 robots.txt 中按 user-agent 控制 AI 访问。需要知道的几个主要爬虫:
| User-agent | 运营方 | 放行它会做什么 |
|---|---|---|
GPTBot | OpenAI | 让你的内容可用于 ChatGPT 的回答/训练。 |
OAI-SearchBot | OpenAI | 驱动 ChatGPT 的搜索结果与引用。 |
PerplexityBot | Perplexity | 让 Perplexity 索引并引用你的页面。 |
Google-Extended | Gemini/Vertex 训练的选择性加入。不影响 AI Overviews 或搜索。 | |
ClaudeBot | Anthropic | 为 Claude 做爬取。 |
# robots.txt — example: allow AI citation crawlers, opt out of training-only
User-agent: GPTBot
Allow: /
User-agent: OAI-SearchBot
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: Google-Extended
Disallow: /
⚠️ 注意:屏蔽
Google-Extended并不会把你从 Google 搜索或 AI Overviews 中移除——后者跑在标准的Googlebot上。目前除了彻底屏蔽Googlebot(那会把你从索引中除名)之外,并没有针对 AI Overviews 的单独退出选项。请在知情的前提下做权衡。我们的 robots 与 sitemap 工具能帮你组装并校验这些规则。
衡量 AI 流量
你无法管理你看不见的东西,而 AI 阵地是刻意模糊的。下面是你今天真正能衡量到的东西。
Google Search Console——留意 AI Overviews 的足迹。 Google 没有给你一个干净的”AI Overviews”过滤器,但信号会以间接方式显现:
- 曝光上升,CTR 下降。 当你的页面被引用进一段 AI Overview 时,你会累积一次曝光,但用户往往不点击就拿到了答案。在信息型查询上出现”曝光攀升 / CTR 下滑”的形态,正是经典的 GEO 指纹。
- 问题型查询上的排名波动。 AI Overviews 重新洗牌了”排名第一”到底意味着什么。把信息型查询和交易型查询分开追踪,免得噪声掩盖了你在交易型上的胜果。
引荐流量——在你的分析里找出答案引擎。 当用户确实从某个 AI 回答点了进来时,它会显示为一次引荐。盯住这些主机名:
chatgpt.com # clicks from ChatGPT citations
perplexity.ai # clicks from Perplexity answers
gemini.google.com # clicks from Gemini
copilot.microsoft.com
在 GA4 中,建一个按 Session source 匹配这些主机过滤的探索,或者直接查询原始事件:
-- GA4 BigQuery export: sessions referred by AI answer engines
SELECT
traffic_source.source AS source,
COUNT(DISTINCT user_pseudo_id) AS users,
COUNT(*) AS events
FROM `your_project.analytics_XXXXXX.events_*`
WHERE REGEXP_CONTAINS(
traffic_source.source,
r'chatgpt\.com|perplexity\.ai|gemini\.google\.com|copilot\.microsoft\.com')
GROUP BY source
ORDER BY users DESC;
直接抽查这些引擎。 土办法但有效:定期在 ChatGPT、Perplexity 和 Google 里问你的目标问题,记录你是否被引用、哪些竞争对手被引用、以及模型用了什么措辞。维护一张追踪表:query → cited? → competitor cited → notes。这种定性审查能抓到任何仪表盘都看不到的东西。搭建测量管道的事见分析。
💡 提示:在你开始优化之前就把引荐埋点好,这样你才有一条基线。对大多数站点来说,AI 引荐量仍然很小——个位数百分比——但它意向强且在增长。现在就开始测量,意味着拐点到来时你能认出它。
GEO 与传统 SEO
人们很容易把 GEO 当成让 SEO 过时的继任者。它不是。GEO 是一个叠加层,而非替代品——而它下面那一层,正是你已经在做的同一套 SEO。
想想答案引擎流水线的每个阶段都依赖什么:
- 进入语料库需要可索引性——robots、sitemap、canonical 标签、抓取预算。纯粹的技术 SEO。
- 挺过检索需要主题相关性与权威性——和赢得传统排名的是同一批信号。
- 被综合并被引用需要信任与佐证——也就是 E-E-A-T、外链 以及一个可信的实体,这些都是优秀 SEO 一直在构建的东西。
换句话说,答案引擎无法引用一个它爬不到的页面,不会去检索一个缺乏权威的页面,也不会信任一个毫无履历的页面。孱弱的 SEO 在结构上必然产出孱弱的 GEO。 操作顺序没有变:
- 先抓技术健康。 可爬取、快速、服务端渲染的 HTML。没有这一步,下游一切都不成立。
- 其次是真正有用的内容。 原创、准确、结构良好——赢得成为来源的资格。
- 第三是抽取打磨。 问题式标题、原子化事实、表格、摘要——这一层 GEO 专属的功夫,把一个能排名的页面变成一个可被引用的页面。
GEO 改变的,是成功的定义。胜利不再仅仅是”排到第一并拿下点击”。它还包括”成为模型引用的那句话,并在脚注上署上你的名字”。有时这意味着更少的点击但更大的影响力——即便没人来访,你的品牌也成了那个答案。相应地调整你的目标和测量方式,但别把地基拆了。地基正是让这新一层成为可能的东西。
要点回顾
- ✅ GEO 是叠加在 SEO 之上的一层,而非替代——答案引擎只能引用它已经能爬取、检索并信任的内容,所以技术健康和优质内容仍是根基。
- ✅ 为抽取而写:问题形态的标题配上”先答案”的句子、原子化且自足的事实,以及模型能逐字搬走的结构化表格/列表。
- ✅ 服务端渲染——大多数 AI 爬虫不执行 JavaScript,所以用
curl -A "GPTBot"验证你真正的内容就在原始 HTML 里;像 Astro 这样的 SSG/SSR 框架占优。 - ✅ 慎重设置 robots.txt 中的
GPTBot、OAI-SearchBot、PerplexityBot和Google-Extended——并记住,屏蔽Google-Extended并不会把你从 AI Overviews 中移除。 - ✅ 把
llms.txt当作可选项——发布起来便宜,但还不是已确认的排名或引用信号;把精力花在干净的 HTML 和清晰的事实上。 - ✅ 衡量这块新阵地:在 GSC 中留意”曝光攀升 / CTR 下滑”的指纹,在 GA4 中追踪
chatgpt.com和perplexity.ai的引荐,并手动抽查引用情况。