🤖

GEO:面向 AI 答案引擎的 SEO

让 AI Overviews、ChatGPT 和 Perplexity 引用你——叠加在传统 SEO 之上的新一层。

📖 12 分钟阅读 🕑 更新于 2026-06-22

二十年来,规则一直很简单:排到第一页,赢得点击。搜索就是十条蓝色链接的列表,而 SEO 就是攀爬这份列表的手艺。如今,这套规则正在被实时改写。

今天打开 Google,输入像 “how do I rotate a JWT signing key” 这样的查询,常常会在页面顶部返回一段 AI Overview——它由多个来源拼接而成的综述段落,旁边附有小小的引用标签。在 ChatGPT(开启浏览功能)、PerplexityGemini 中问同样的问题,你会得到一段带脚注的直接散文回答。在每一种情况下,用户都无需访问你的站点就拿到了答案。蓝色链接仍然存在,但它已经被降到了机器摘要的下方。

这就是从检索(这里是一些页面,你自己去读)到综合(这里是答案,来源在脚注里)的转变。为这个新阵地做优化的这门学问有几个名字——最常见的是 GEO(Generative Engine Optimization,生成式引擎优化)和 AEO(Answer Engine Optimization,答案引擎优化)。它们描述的是同一个目标:不只是排名,而是成为模型引用并链接的那个来源

对于已经在做真正 SEO 的人来说,好消息是:GEO 不是一种新宗教。它只是叠加在你早已熟悉的基础之上的额外一层。坏消息是:很多在传统 SERP 上排名良好的页面,在答案引擎眼里几乎是隐形的,因为它们是为人类的快速浏览者和爬虫写的——而不是为语言模型的抽取而写的。这篇指南就是要弥合这道鸿沟。

AI 答案引擎如何挑选来源

在优化之前,先理解这条流水线。答案引擎并不是在查询时”读整个网络”。它大致分四个阶段工作,而每一个阶段都是你必须通过的过滤器。

阶段发生了什么对你意味着什么
1. 语料库模型依赖已索引/已爬取的内容——AI Overviews 用 Google 的索引,ChatGPT 用 Bing 的索引 + 实时抓取,Perplexity 用自家的爬虫。如果你没被索引(或不可爬取),你就不可能被引用。没有例外。
2. 检索对于给定查询,引擎会取回一批候选段落,通常借助底层搜索索引加上向量相似度。传统的相关性信号仍然把守入口。排名是入场费。
3. 综合LLM 阅读候选段落并组织出一段答案,倾向于清晰、自足、且有佐证的陈述。可抽取、无歧义的句子会被采纳。含糊、绕圈子的废话会被跳过。
4. 归因引擎把引用挂到那些段落最直接支撑所生成论断的来源上。把事实陈述得干净利落的页面拿到链接——未必是排名第一的那个。

由此引出几条值得内化的规律:

  • 它们引用自己已经够得着的内容。 答案引擎压倒性地从已索引、可爬取的内容里取材。并不存在一个单独的”GEO 索引”——你的传统技术 SEO 就是你的 GEO 地基。
  • 它们偏爱表述清晰、可抽取的事实。 组织答案的模型青睐那种几乎不用改写就能直接搬走的句子:“GPTBot respects robots.txt directives.”。它会略过*“在爬虫礼仪这件事上,有诸多因素可能需要权衡……”*这种句子。
  • 它们奖励共识与佐证。 如果五个权威来源陈述了同一个事实而你是其中之一,你就强化了模型的信心,并提高了自己被选为引用代表的几率。“反主流但正确”的内容更难被浮现出来,因为它缺乏佐证。
  • 它们依赖可识别、定义明确的实体。 模型在实体(人、产品、库、概念)之上进行推理。精确命名实体、并把它们链接到权威参考的内容,更容易被锚定(grounding)和归因。

🧑‍💻 开发者视角:把综合这一步想象成你自己会搭的 RAG 流水线。你对文档分块、做嵌入、检索 top-k 段落,再塞进 prompt。现在想象你的页面就是其中一个 chunk。模型能仅凭你这个 chunk——没有周围那 2000 字上下文——回答出用户的问题吗?如果不能,你就不会被抽取。写作时要让任意单个章节即便被从上下文中扯出来也能独立成立。

为抽取而写

传统 SEO 文案为两种读者优化:会快速浏览的人,以及衡量关键词的爬虫。面向抽取的写作加入了第三种读者:一个需要搬走干净、正确、自足答案的模型。下面教你如何一次性为这三者而写。

用问题形态的标题,然后立刻作答。 真实查询都是问题。把它们映射进你的 H2/H3,然后把答案放进标题下方的第一句——而不是三段之后。

## Does GPTBot respect robots.txt?

Yes. GPTBot, OpenAI's web crawler, obeys robots.txt rules. To block it,
add a `User-agent: GPTBot` group with `Disallow: /` to your robots.txt.
After that one-line answer, expand with nuance, edge cases, and examples.

这种”先答案、后展开”的结构(有时称为倒金字塔)在顶部给模型一段自足的内容,也让快速浏览的人不必滚动就拿到收益。

写原子化的事实句。 一个事实句陈述一件事,明确点出它的主语,避免指向句外的代词。对比:

弱(不可抽取)强(可抽取)
“它几年前发布的,现在用的人挺多的。""Astro 1.0 于 2022 年 8 月发布,已被超过 10 万个网站使用。"
"有好几个你大概应该屏蔽掉。""最常见的三个 AI 爬虫是 GPTBot、PerplexityBot 和 Google-Extended。"
"这通常被认为是最佳实践。""推荐使用服务端渲染,因为大多数 AI 爬虫不执行 JavaScript。”

强版本可以被逐字引用,且单独拎出来仍然说得通。这就是整个游戏的核心。

以结构开路:列表、表格、步骤。 模型会牢牢抓住结构化数据,因为各项之间的边界是显式的。一张对比表、一段编号流程、或一份定义列表,比埋在散文里的同样信息要”易搬”得多。如果某样东西能表达成表格,那就做成表格。

精确且一致地命名实体。 说*“robots.txtDisallow 指令”,而不是”那个设置”*。使用规范的产品名、版本号和日期。在有助于锚定的地方,用结构化数据强化实体——ArticleFAQPageHowToOrganization schema 能向引擎提供机器可读的确认:你的页面讲的是什么、背后站着谁。我们的 schema 生成器可以帮你搭好这些骨架。

在靠近顶部处放一段简短、直白的摘要。 一段 2–3 句、直接回答页面核心问题的 TL;DR,给了模型一段预先分好块、可以直接抓走的内容——也给了人类留下来的理由。

💡 提示:让你的 FAQPage schema 和页面上的问答出自同一个事实源头。从 Search Console 的查询报告、People Also Ask 以及 AI Overview 的追问中提取真实问题。你这是在逆向工程真实用户在答案引擎里键入的确切措辞。

llms.txt 与可爬取性

最大的那个 GEO 错误是隐形的:你的内容在浏览器里渲染正常,但对一个不跑 JavaScript 的爬虫来说却是空的。

大多数 AI 爬虫不执行 JS。 GPTBot、PerplexityBot 以及传统的索引机器人会抓取你的 HTML,读取响应体里的内容。如果你的内容是由 SPA 在客户端注入的,机器人看到的就是一个空的 <div id="root">,然后转身就走。这正是 SSR/SSG 取胜的原因——也是为什么像驱动本站的这类静态框架(Astro,默认就输出完整渲染的 HTML)在结构上天然适合 GEO。验证爬虫实际看到了什么:

# What a JS-less crawler sees — should contain your real content, not an empty shell
curl -sA "GPTBot" https://example.com/your-page/ | grep -i "your headline text"

# Compare raw HTML size vs. a rendered DOM. A huge gap means content is JS-injected.
curl -s https://example.com/your-page/ | wc -c

如果 curl 的输出里不含你真正的文案,那么再巧妙的写作都没用——先修好渲染。SSR/SSG 的取舍见构建

llms.txt 是一个正在形成中的约定,不是排名信号。 llms.txt 于 2024 年被提出,是放在你域名根目录的一个 Markdown 文件,向 LLM 提供一份经过精选、干净的重要内容地图——可以把它想成一份为语言模型而非爬虫编写的 sitemap.xml。一个最小示例:

# Your Site Name

> One-line description of what this site is and who it's for.

## Docs
- [Getting started](https://example.com/docs/start): Install and first build.
- [API reference](https://example.com/docs/api): Full endpoint list.

## Guides
- [GEO for AI search](https://example.com/en/guides/geo-ai-search/): This guide.

要看清楚:截至 2026 年中,llms.txt被确认会被 Google、OpenAI 或 Perplexity 用于排名或引用。发布它几乎没有成本,也许对未来的工具链有帮助,但请把它当作一个低优先级的”锦上添花”,而不是一根杠杆。真正的功夫在于干净的 HTML 和可抽取的内容。

慎重决定是否放行 AI 爬虫。 你可以在 robots.txt 中按 user-agent 控制 AI 访问。需要知道的几个主要爬虫:

User-agent运营方放行它会做什么
GPTBotOpenAI让你的内容可用于 ChatGPT 的回答/训练。
OAI-SearchBotOpenAI驱动 ChatGPT 的搜索结果与引用。
PerplexityBotPerplexity让 Perplexity 索引并引用你的页面。
Google-ExtendedGoogleGemini/Vertex 训练的选择性加入。影响 AI Overviews 或搜索。
ClaudeBotAnthropic为 Claude 做爬取。
# robots.txt — example: allow AI citation crawlers, opt out of training-only
User-agent: GPTBot
Allow: /

User-agent: OAI-SearchBot
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Google-Extended
Disallow: /

⚠️ 注意:屏蔽 Google-Extended 并不会把你从 Google 搜索或 AI Overviews 中移除——后者跑在标准的 Googlebot 上。目前除了彻底屏蔽 Googlebot(那会把你从索引中除名)之外,并没有针对 AI Overviews 的单独退出选项。请在知情的前提下做权衡。我们的 robots 与 sitemap 工具能帮你组装并校验这些规则。

衡量 AI 流量

你无法管理你看不见的东西,而 AI 阵地是刻意模糊的。下面是你今天真正能衡量到的东西。

Google Search Console——留意 AI Overviews 的足迹。 Google 没有给你一个干净的”AI Overviews”过滤器,但信号会以间接方式显现:

  • 曝光上升,CTR 下降。 当你的页面被引用进一段 AI Overview 时,你会累积一次曝光,但用户往往不点击就拿到了答案。在信息型查询上出现”曝光攀升 / CTR 下滑”的形态,正是经典的 GEO 指纹。
  • 问题型查询上的排名波动。 AI Overviews 重新洗牌了”排名第一”到底意味着什么。把信息型查询和交易型查询分开追踪,免得噪声掩盖了你在交易型上的胜果。

引荐流量——在你的分析里找出答案引擎。 当用户确实从某个 AI 回答点了进来时,它会显示为一次引荐。盯住这些主机名:

chatgpt.com        # clicks from ChatGPT citations
perplexity.ai      # clicks from Perplexity answers
gemini.google.com  # clicks from Gemini
copilot.microsoft.com

在 GA4 中,建一个按 Session source 匹配这些主机过滤的探索,或者直接查询原始事件:

-- GA4 BigQuery export: sessions referred by AI answer engines
SELECT
  traffic_source.source AS source,
  COUNT(DISTINCT user_pseudo_id) AS users,
  COUNT(*) AS events
FROM `your_project.analytics_XXXXXX.events_*`
WHERE REGEXP_CONTAINS(
        traffic_source.source,
        r'chatgpt\.com|perplexity\.ai|gemini\.google\.com|copilot\.microsoft\.com')
GROUP BY source
ORDER BY users DESC;

直接抽查这些引擎。 土办法但有效:定期在 ChatGPT、Perplexity 和 Google 里问你的目标问题,记录你是否被引用、哪些竞争对手被引用、以及模型用了什么措辞。维护一张追踪表:query → cited? → competitor cited → notes。这种定性审查能抓到任何仪表盘都看不到的东西。搭建测量管道的事见分析

💡 提示:在你开始优化之前就把引荐埋点好,这样你才有一条基线。对大多数站点来说,AI 引荐量仍然很小——个位数百分比——但它意向强且在增长。现在就开始测量,意味着拐点到来时你能认出它。

GEO 与传统 SEO

人们很容易把 GEO 当成让 SEO 过时的继任者。它不是。GEO 是一个叠加层,而非替代品——而它下面那一层,正是你已经在做的同一套 SEO。

想想答案引擎流水线的每个阶段都依赖什么:

  • 进入语料库需要可索引性——robots、sitemap、canonical 标签、抓取预算。纯粹的技术 SEO。
  • 挺过检索需要主题相关性与权威性——和赢得传统排名的是同一批信号。
  • 被综合并被引用需要信任与佐证——也就是 E-E-A-T外链 以及一个可信的实体,这些都是优秀 SEO 一直在构建的东西。

换句话说,答案引擎无法引用一个它爬不到的页面,不会去检索一个缺乏权威的页面,也不会信任一个毫无履历的页面。孱弱的 SEO 在结构上必然产出孱弱的 GEO。 操作顺序没有变:

  1. 先抓技术健康。 可爬取、快速、服务端渲染的 HTML。没有这一步,下游一切都不成立。
  2. 其次是真正有用的内容。 原创、准确、结构良好——赢得成为来源的资格。
  3. 第三是抽取打磨。 问题式标题、原子化事实、表格、摘要——这一层 GEO 专属的功夫,把一个能排名的页面变成一个可被引用的页面。

GEO 改变的,是成功的定义。胜利不再仅仅是”排到第一并拿下点击”。它还包括”成为模型引用的那句话,并在脚注上署上你的名字”。有时这意味着更少的点击但更大的影响力——即便没人来访,你的品牌也成了那个答案。相应地调整你的目标和测量方式,但别把地基拆了。地基正是让这新一层成为可能的东西。

要点回顾

  • GEO 是叠加在 SEO 之上的一层,而非替代——答案引擎只能引用它已经能爬取、检索并信任的内容,所以技术健康和优质内容仍是根基。
  • 为抽取而写:问题形态的标题配上”先答案”的句子、原子化且自足的事实,以及模型能逐字搬走的结构化表格/列表。
  • 服务端渲染——大多数 AI 爬虫不执行 JavaScript,所以用 curl -A "GPTBot" 验证你真正的内容就在原始 HTML 里;像 Astro 这样的 SSG/SSR 框架占优。
  • 慎重设置 robots.txt 中的 GPTBotOAI-SearchBotPerplexityBotGoogle-Extended——并记住,屏蔽 Google-Extended 并不会把你从 AI Overviews 中移除。
  • llms.txt 当作可选项——发布起来便宜,但还不是已确认的排名或引用信号;把精力花在干净的 HTML 和清晰的事实上。
  • 衡量这块新阵地:在 GSC 中留意”曝光攀升 / CTR 下滑”的指纹,在 GA4 中追踪 chatgpt.comperplexity.ai 的引荐,并手动抽查引用情况。