GEO：面向 AI 答案引擎的 SEO

二十年来，规则一直很简单：排到第一页，赢得点击。搜索就是十条蓝色链接的列表，而 SEO 就是攀爬这份列表的手艺。如今，这套规则正在被实时改写。

今天打开 Google，输入像 “how do I rotate a JWT signing key” 这样的查询，常常会在页面顶部返回一段 AI Overview——它由多个来源拼接而成的综述段落，旁边附有小小的引用标签。在 ChatGPT（开启浏览功能）、Perplexity 或 Gemini 中问同样的问题，你会得到一段带脚注的直接散文回答。在每一种情况下，用户都无需访问你的站点就拿到了答案。蓝色链接仍然存在，但它已经被降到了机器摘要的下方。

这就是从检索（这里是一些页面，你自己去读）到综合（这里是答案，来源在脚注里）的转变。为这个新阵地做优化的这门学问有几个名字——最常见的是 GEO（Generative Engine Optimization，生成式引擎优化）和 AEO（Answer Engine Optimization，答案引擎优化）。它们描述的是同一个目标：不只是排名，而是成为模型引用并链接的那个来源。

对于已经在做真正 SEO 的人来说，好消息是：GEO 不是一种新宗教。它只是叠加在你早已熟悉的基础之上的额外一层。坏消息是：很多在传统 SERP 上排名良好的页面，在答案引擎眼里几乎是隐形的，因为它们是为人类的快速浏览者和爬虫写的——而不是为语言模型的抽取而写的。这篇指南就是要弥合这道鸿沟。

AI 答案引擎如何挑选来源

在优化之前，先理解这条流水线。答案引擎并不是在查询时”读整个网络”。它大致分四个阶段工作，而每一个阶段都是你必须通过的过滤器。

阶段	发生了什么	对你意味着什么
1. 语料库	模型依赖已索引/已爬取的内容——AI Overviews 用 Google 的索引，ChatGPT 用 Bing 的索引 + 实时抓取，Perplexity 用自家的爬虫。	如果你没被索引（或不可爬取），你就不可能被引用。没有例外。
2. 检索	对于给定查询，引擎会取回一批候选段落，通常借助底层搜索索引加上向量相似度。	传统的相关性信号仍然把守入口。排名是入场费。
3. 综合	LLM 阅读候选段落并组织出一段答案，倾向于清晰、自足、且有佐证的陈述。	可抽取、无歧义的句子会被采纳。含糊、绕圈子的废话会被跳过。
4. 归因	引擎把引用挂到那些段落最直接支撑所生成论断的来源上。	把事实陈述得干净利落的页面拿到链接——未必是排名第一的那个。

由此引出几条值得内化的规律：

它们引用自己已经够得着的内容。 答案引擎压倒性地从已索引、可爬取的内容里取材。并不存在一个单独的”GEO 索引”——你的传统技术 SEO 就是你的 GEO 地基。
它们偏爱表述清晰、可抽取的事实。 组织答案的模型青睐那种几乎不用改写就能直接搬走的句子：“GPTBot respects robots.txt directives.”。它会略过*“在爬虫礼仪这件事上，有诸多因素可能需要权衡……”*这种句子。
它们奖励共识与佐证。 如果五个权威来源陈述了同一个事实而你是其中之一，你就强化了模型的信心，并提高了自己被选为引用代表的几率。“反主流但正确”的内容更难被浮现出来，因为它缺乏佐证。
它们依赖可识别、定义明确的实体。 模型在实体（人、产品、库、概念）之上进行推理。精确命名实体、并把它们链接到权威参考的内容，更容易被锚定（grounding）和归因。

🧑‍💻 开发者视角：把综合这一步想象成你自己会搭的 RAG 流水线。你对文档分块、做嵌入、检索 top-k 段落，再塞进 prompt。现在想象你的页面就是其中一个 chunk。模型能仅凭你这个 chunk——没有周围那 2000 字上下文——回答出用户的问题吗？如果不能，你就不会被抽取。写作时要让任意单个章节即便被从上下文中扯出来也能独立成立。

为抽取而写

传统 SEO 文案为两种读者优化：会快速浏览的人，以及衡量关键词的爬虫。面向抽取的写作加入了第三种读者：一个需要搬走干净、正确、自足答案的模型。下面教你如何一次性为这三者而写。

用问题形态的标题，然后立刻作答。 真实查询都是问题。把它们映射进你的 H2/H3，然后把答案放进标题下方的第一句——而不是三段之后。

## Does GPTBot respect robots.txt?

Yes. GPTBot, OpenAI's web crawler, obeys robots.txt rules. To block it,
add a `User-agent: GPTBot` group with `Disallow: /` to your robots.txt.
After that one-line answer, expand with nuance, edge cases, and examples.

这种”先答案、后展开”的结构（有时称为倒金字塔）在顶部给模型一段自足的内容，也让快速浏览的人不必滚动就拿到收益。

写原子化的事实句。 一个事实句陈述一件事，明确点出它的主语，避免指向句外的代词。对比：

弱（不可抽取）	强（可抽取）
“它几年前发布的，现在用的人挺多的。"	"Astro 1.0 于 2022 年 8 月发布，已被超过 10 万个网站使用。"
"有好几个你大概应该屏蔽掉。"	"最常见的三个 AI 爬虫是 GPTBot、PerplexityBot 和 Google-Extended。"
"这通常被认为是最佳实践。"	"推荐使用服务端渲染，因为大多数 AI 爬虫不执行 JavaScript。”

强版本可以被逐字引用，且单独拎出来仍然说得通。这就是整个游戏的核心。

以结构开路：列表、表格、步骤。 模型会牢牢抓住结构化数据，因为各项之间的边界是显式的。一张对比表、一段编号流程、或一份定义列表，比埋在散文里的同样信息要”易搬”得多。如果某样东西能表达成表格，那就做成表格。

精确且一致地命名实体。 说*“robots.txt 的 Disallow 指令”，而不是”那个设置”*。使用规范的产品名、版本号和日期。在有助于锚定的地方，用结构化数据强化实体——Article、FAQPage、HowTo 和 Organization schema 能向引擎提供机器可读的确认：你的页面讲的是什么、背后站着谁。我们的 schema 生成器可以帮你搭好这些骨架。

在靠近顶部处放一段简短、直白的摘要。 一段 2–3 句、直接回答页面核心问题的 TL;DR，给了模型一段预先分好块、可以直接抓走的内容——也给了人类留下来的理由。

💡 提示：让你的 FAQPage schema 和页面上的问答出自同一个事实源头。从 Search Console 的查询报告、People Also Ask 以及 AI Overview 的追问中提取真实问题。你这是在逆向工程真实用户在答案引擎里键入的确切措辞。

llms.txt 与可爬取性

最大的那个 GEO 错误是隐形的：你的内容在浏览器里渲染正常，但对一个不跑 JavaScript 的爬虫来说却是空的。

大多数 AI 爬虫不执行 JS。 GPTBot、PerplexityBot 以及传统的索引机器人会抓取你的 HTML，读取响应体里的内容。如果你的内容是由 SPA 在客户端注入的，机器人看到的就是一个空的 <div id="root">，然后转身就走。这正是 SSR/SSG 取胜的原因——也是为什么像驱动本站的这类静态框架（Astro，默认就输出完整渲染的 HTML）在结构上天然适合 GEO。验证爬虫实际看到了什么：

# What a JS-less crawler sees — should contain your real content, not an empty shell
curl -sA "GPTBot" https://example.com/your-page/ | grep -i "your headline text"

# Compare raw HTML size vs. a rendered DOM. A huge gap means content is JS-injected.
curl -s https://example.com/your-page/ | wc -c

如果 curl 的输出里不含你真正的文案，那么再巧妙的写作都没用——先修好渲染。SSR/SSG 的取舍见构建。

llms.txt 是一个正在形成中的约定，不是排名信号。 llms.txt 于 2024 年被提出，是放在你域名根目录的一个 Markdown 文件，向 LLM 提供一份经过精选、干净的重要内容地图——可以把它想成一份为语言模型而非爬虫编写的 sitemap.xml。一个最小示例：

# Your Site Name

> One-line description of what this site is and who it's for.

## Docs
- [Getting started](https://example.com/docs/start): Install and first build.
- [API reference](https://example.com/docs/api): Full endpoint list.

## Guides
- [GEO for AI search](https://example.com/en/guides/geo-ai-search/): This guide.

要看清楚：截至 2026 年中，llms.txt 尚未被确认会被 Google、OpenAI 或 Perplexity 用于排名或引用。发布它几乎没有成本，也许对未来的工具链有帮助，但请把它当作一个低优先级的”锦上添花”，而不是一根杠杆。真正的功夫在于干净的 HTML 和可抽取的内容。

慎重决定是否放行 AI 爬虫。 你可以在 robots.txt 中按 user-agent 控制 AI 访问。需要知道的几个主要爬虫：

User-agent	运营方	放行它会做什么
`GPTBot`	OpenAI	让你的内容可用于 ChatGPT 的回答/训练。
`OAI-SearchBot`	OpenAI	驱动 ChatGPT 的搜索结果与引用。
`PerplexityBot`	Perplexity	让 Perplexity 索引并引用你的页面。
`Google-Extended`	Google	Gemini/Vertex 训练的选择性加入。不影响 AI Overviews 或搜索。
`ClaudeBot`	Anthropic	为 Claude 做爬取。

# robots.txt — example: allow AI citation crawlers, opt out of training-only
User-agent: GPTBot
Allow: /

User-agent: OAI-SearchBot
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Google-Extended
Disallow: /

⚠️ 注意：屏蔽 Google-Extended 并不会把你从 Google 搜索或 AI Overviews 中移除——后者跑在标准的 Googlebot 上。目前除了彻底屏蔽 Googlebot（那会把你从索引中除名）之外，并没有针对 AI Overviews 的单独退出选项。请在知情的前提下做权衡。我们的 robots 与 sitemap 工具能帮你组装并校验这些规则。

衡量 AI 流量

你无法管理你看不见的东西，而 AI 阵地是刻意模糊的。下面是你今天真正能衡量到的东西。

Google Search Console——留意 AI Overviews 的足迹。 Google 没有给你一个干净的”AI Overviews”过滤器，但信号会以间接方式显现：

曝光上升，CTR 下降。 当你的页面被引用进一段 AI Overview 时，你会累积一次曝光，但用户往往不点击就拿到了答案。在信息型查询上出现”曝光攀升 / CTR 下滑”的形态，正是经典的 GEO 指纹。
问题型查询上的排名波动。 AI Overviews 重新洗牌了”排名第一”到底意味着什么。把信息型查询和交易型查询分开追踪，免得噪声掩盖了你在交易型上的胜果。

引荐流量——在你的分析里找出答案引擎。 当用户确实从某个 AI 回答点了进来时，它会显示为一次引荐。盯住这些主机名：

chatgpt.com        # clicks from ChatGPT citations
perplexity.ai      # clicks from Perplexity answers
gemini.google.com  # clicks from Gemini
copilot.microsoft.com

在 GA4 中，建一个按 Session source 匹配这些主机过滤的探索，或者直接查询原始事件：

-- GA4 BigQuery export: sessions referred by AI answer engines
SELECT
  traffic_source.source AS source,
  COUNT(DISTINCT user_pseudo_id) AS users,
  COUNT(*) AS events
FROM `your_project.analytics_XXXXXX.events_*`
WHERE REGEXP_CONTAINS(
        traffic_source.source,
        r'chatgpt\.com|perplexity\.ai|gemini\.google\.com|copilot\.microsoft\.com')
GROUP BY source
ORDER BY users DESC;

直接抽查这些引擎。 土办法但有效：定期在 ChatGPT、Perplexity 和 Google 里问你的目标问题，记录你是否被引用、哪些竞争对手被引用、以及模型用了什么措辞。维护一张追踪表：query → cited? → competitor cited → notes。这种定性审查能抓到任何仪表盘都看不到的东西。搭建测量管道的事见分析。

💡 提示：在你开始优化之前就把引荐埋点好，这样你才有一条基线。对大多数站点来说，AI 引荐量仍然很小——个位数百分比——但它意向强且在增长。现在就开始测量，意味着拐点到来时你能认出它。

GEO 与传统 SEO

人们很容易把 GEO 当成让 SEO 过时的继任者。它不是。GEO 是一个叠加层，而非替代品——而它下面那一层，正是你已经在做的同一套 SEO。

想想答案引擎流水线的每个阶段都依赖什么：

进入语料库需要可索引性——robots、sitemap、canonical 标签、抓取预算。纯粹的技术 SEO。
挺过检索需要主题相关性与权威性——和赢得传统排名的是同一批信号。
被综合并被引用需要信任与佐证——也就是 E-E-A-T、外链以及一个可信的实体，这些都是优秀 SEO 一直在构建的东西。

换句话说，答案引擎无法引用一个它爬不到的页面，不会去检索一个缺乏权威的页面，也不会信任一个毫无履历的页面。孱弱的 SEO 在结构上必然产出孱弱的 GEO。 操作顺序没有变：

先抓技术健康。 可爬取、快速、服务端渲染的 HTML。没有这一步，下游一切都不成立。
其次是真正有用的内容。 原创、准确、结构良好——赢得成为来源的资格。
第三是抽取打磨。 问题式标题、原子化事实、表格、摘要——这一层 GEO 专属的功夫，把一个能排名的页面变成一个可被引用的页面。

GEO 改变的，是成功的定义。胜利不再仅仅是”排到第一并拿下点击”。它还包括”成为模型引用的那句话，并在脚注上署上你的名字”。有时这意味着更少的点击但更大的影响力——即便没人来访，你的品牌也成了那个答案。相应地调整你的目标和测量方式，但别把地基拆了。地基正是让这新一层成为可能的东西。

要点回顾

✅ GEO 是叠加在 SEO 之上的一层，而非替代——答案引擎只能引用它已经能爬取、检索并信任的内容，所以技术健康和优质内容仍是根基。
✅ 为抽取而写：问题形态的标题配上”先答案”的句子、原子化且自足的事实，以及模型能逐字搬走的结构化表格/列表。
✅ 服务端渲染——大多数 AI 爬虫不执行 JavaScript，所以用 curl -A "GPTBot" 验证你真正的内容就在原始 HTML 里；像 Astro 这样的 SSG/SSR 框架占优。
✅ 慎重设置 robots.txt 中的 GPTBot、OAI-SearchBot、PerplexityBot 和 Google-Extended——并记住，屏蔽 Google-Extended 并不会把你从 AI Overviews 中移除。
✅ 把 llms.txt 当作可选项——发布起来便宜，但还不是已确认的排名或引用信号；把精力花在干净的 HTML 和清晰的事实上。
✅ 衡量这块新阵地：在 GSC 中留意”曝光攀升 / CTR 下滑”的指纹，在 GA4 中追踪 chatgpt.com 和 perplexity.ai 的引荐，并手动抽查引用情况。