GEO：AI回答エンジンのためのSEO

この20年間、取引はシンプルだった。1ページ目にランクインすれば、クリックを獲得できる。検索とは10本の青いリンクのリストであり、SEOとはそのリストを駆け上がる技術だった。その取引は今まさにリアルタイムで書き換えられている。

今日 Google を開いて “how do I rotate a JWT signing key” のようなクエリを入力すると、しばしばページ上部に AI Overview が返ってくる——複数のソースを縫い合わせて合成した段落で、その横に小さな引用チップが添えられている。同じことを ChatGPT（ブラウジング有効）、Perplexity、Gemini に尋ねると、脚注付きの直接的な散文形式の回答が得られる。いずれの場合も、ユーザーは あなたのサイトを訪れることなく 答えを手にする。青いリンクは依然として存在するが、機械の要約の下に格下げされている。

これは retrieval（取得）（ここにページがあります、読みに行ってください）から synthesis（合成）（これが答えです、ソースは脚注に）への転換だ。この新しい面に向けて最適化する分野にはいくつかの呼び名があり、最も一般的なのは GEO（Generative Engine Optimization）と AEO（Answer Engine Optimization）だ。どちらも同じゴールを指している。単に ランクインする ことではなく、モデルが引用しリンクするソースになる ことだ。

すでに本物のSEOを実践している人にとっての朗報：GEOは新しい宗教ではない。それはあなたがすでに知っている基礎の上に重なる追加レイヤーにすぎない。悪い知らせ：従来のSERPで問題なくランクインしているページの多くが、回答エンジンにとってはほぼ不可視だということだ。なぜなら、それらは人間の流し読みとクローラーのために書かれており——言語モデルによる抽出のためには書かれていないからだ。このガイドはそのギャップを埋めることを扱う。

AI回答エンジンはどうやってソースを選ぶのか

最適化の前に、パイプラインを理解しよう。回答エンジンはクエリ時に「ウェブを読む」わけではない。おおよそ4つの段階で動作し、それぞれがあなたが通過しなければならないフィルターだ。

段階	何が起きるか	あなたにとっての意味
1. コーパス	モデルはインデックス済み／クロール済みのコンテンツを参照する——AI Overviews には Google のインデックス、ChatGPT には Bing のインデックス + ライブ取得、Perplexity には独自のクロール。	インデックスされていない（あるいはクロール不可能）なら、引用されることはない。以上。
2. 取得（Retrieval）	あるクエリに対して、エンジンは候補となるパッセージのセットを取得する。通常は基盤となる検索インデックスとベクトル類似度を用いる。	従来の関連性シグナルが依然として入口を制御する。ランキングは入場料だ。
3. 合成（Synthesis）	LLM が候補パッセージを読み、明確で、自己完結的で、裏付けのある記述を優先しながら回答を構成する。	抽出可能で曖昧さのない文が引き込まれる。漠然とした前置きだらけの散文はスキップされる。
4. 帰属（Attribution）	エンジンは、生成された主張を最も直接的に裏付けるパッセージを持つソースに引用を付ける。	事実をきれいに述べたページがリンクを得る——必ずしも1位にランクインしたページではない。

ここからいくつかのパターンが導かれる。内面化しておく価値がある。

すでに到達できるものを引用する。 回答エンジンは圧倒的に、すでにインデックスされクロール可能なコンテンツからソースを引いてくる。別個の「GEOインデックス」など存在しない——あなたの従来のテクニカルSEOが そのまま GEOの基礎なのだ。
明確に述べられた、抽出可能な事実を好む。 回答を組み立てるモデルは、最小限の書き換えで引き抜ける文を好む。“GPTBot respects robots.txt directives.” のような文だ。“When it comes to crawler etiquette, there are a number of considerations one might weigh…” のような文は見送られる。
コンセンサスと裏付けに報いる。 評判の良い5つのソースが同じ事実を述べていて、あなたがその1つであれば、モデルの確信を強化し、引用される代表になる確率を高める。逆張りだが正しいコンテンツは、裏付けを欠くため表面化させるのが難しい。
認識可能で、明確に定義されたエンティティに依拠する。 モデルはエンティティ（人物、製品、ライブラリ、概念）の上で推論する。エンティティを正確に名指しし、権威ある参照にリンクしているコンテンツは、グラウンディングと帰属がしやすい。

🧑‍💻 開発者視点：合成ステップは、自分で構築する RAG パイプラインのように考えるとよい。ドキュメントをチャンク化し、埋め込み、top-k のパッセージを取得し、プロンプトに詰め込む。さて、あなたのページがそれらのチャンクの1つだと想像してほしい。周囲の2,000語の文脈なしに、あなたのチャンクだけ からモデルはユーザーの質問に答えられるだろうか？答えがノーなら、抽出されない。どの単一セクションも、文脈から引き剥がされても生き残るように書こう。

抽出のために書く

従来のSEOコピーライティングは、流し読みする人間と、キーワードを評価するクローラーのために最適化する。抽出に最適化された文章は、3人目の読者を加える。きれいで、正しく、自己完結した答えを引き抜く必要があるモデルだ。この3者すべてに同時に向けて書く方法を示す。

質問形の見出しを使い、すぐに答える。 実際のクエリは質問だ。それを H2／H3 に映し出し、見出しの直下の 最初の文 に答えを置く——3段落も先ではなく。

## Does GPTBot respect robots.txt?

Yes. GPTBot, OpenAI's web crawler, obeys robots.txt rules. To block it,
add a `User-agent: GPTBot` group with `Disallow: /` to your robots.txt.
After that one-line answer, expand with nuance, edge cases, and examples.

この「答えが先、詳細は後」の形（逆ピラミッドと呼ばれることもある）は、モデルに上部の自己完結したパッセージを与え、流し読みする人間にはスクロールせずに要点を与える。

アトミックな事実の文を書く。 事実の文は1つのことを述べ、その主語を明示的に名指しし、文の外を指す代名詞を避ける。比較してみよう。

弱い（抽出不可能）	強い（抽出可能）
“It was released a couple years back and is pretty widely used now."	"Astro 1.0 was released in August 2022 and is used by over 100,000 websites."
"There are several of them you should probably block."	"The three most common AI crawlers are GPTBot, PerplexityBot, and Google-Extended."
"This is generally considered best practice."	"Server-side rendering is recommended because most AI crawlers do not execute JavaScript.”

強い方のバージョンは一字一句そのまま引用でき、それでも単独で意味が通る。それがすべてだ。

構造を前面に：リスト、表、ステップ。 モデルは構造化データに食いつく。項目間の境界が明示的だからだ。比較表、番号付きの手順、定義リストは、同じ情報を散文に埋め込んだものよりはるかに「引き抜きやすい」。表として表現できるものは、表にしよう。

エンティティを正確かつ一貫して名指しする。 “that setting” ではなく、“the robots.txt Disallow directive” と言おう。正式な製品名、バージョン番号、日付を使う。グラウンディングに役立つ場面では、構造化データでエンティティを補強する——Article、FAQPage、HowTo、Organization スキーマは、あなたのページが何についてのもので誰が背後にいるのかを、エンジンに機械可読な形で確認させる。当サイトのスキーマジェネレーターでこれらの土台を組める。

上部に短く、文字どおりの要約を加える。 ページの中核的な問いに直接答える2〜3文のTL;DRは、モデルに事前チャンク化されたパッセージを掴ませ——人間にとどまる理由を与える。

💡 提示：FAQPage スキーマとページ内のQ&Aは、同じ信頼できる情報源から書こう。実際の質問は Search Console のクエリレポート、People Also Ask、AI Overview のフォローアップから引いてくる。実際のユーザーが回答エンジンに打ち込む正確な言い回しを、リバースエンジニアリングしているのだ。

llms.txt とクロール可能性

GEOで最も大きなミスは目に見えない。あなたのコンテンツはブラウザでは問題なくレンダリングされるが、JavaScript を実行しないクローラーにとっては空っぽだ。

ほとんどのAIクローラーはJSを実行しない。 GPTBot、PerplexityBot、そして従来のインデックス用ボットは、あなたのHTMLを取得し、レスポンスボディの中にあるもの を読む。コンテンツが SPA によってクライアントサイドでハイドレートされている場合、ボットは空の <div id="root"> を見て立ち去る。これが SSR/SSG が勝つ 理由だ——そして、このサイトを動かしているような静的フレームワーク（Astro はデフォルトで完全にレンダリングされたHTMLを配信する）が、構造的にGEOに適している理由でもある。クローラーが実際に何を見ているかを検証しよう。

# What a JS-less crawler sees — should contain your real content, not an empty shell
curl -sA "GPTBot" https://example.com/your-page/ | grep -i "your headline text"

# Compare raw HTML size vs. a rendered DOM. A huge gap means content is JS-injected.
curl -s https://example.com/your-page/ | wc -c

curl の出力に実際の本文が含まれていなければ、どれだけ巧妙に書いても無意味だ——まずレンダリングを直そう。SSR/SSG の判断についてはビルドを参照。

llms.txt は新興の慣習であり、ランキングシグナルではない。 2024年に提案された llms.txt は、ドメインルートに置く Markdown ファイルで、最も重要なコンテンツの整理されたクリーンなマップを LLM に提供する——クローラー向けではなく言語モデル向けに書かれた sitemap.xml のようなものと考えるとよい。最小限の例：

# Your Site Name

> One-line description of what this site is and who it's for.

## Docs
- [Getting started](https://example.com/docs/start): Install and first build.
- [API reference](https://example.com/docs/api): Full endpoint list.

## Guides
- [GEO for AI search](https://example.com/en/guides/geo-ai-search/): This guide.

これについては冷静に見よう。2026年半ば時点で、llms.txt がランキングや引用のために Google、OpenAI、Perplexity に消費されることは 確認されていない。公開するコストはほぼゼロで、将来のツールに役立つかもしれないが、てこ（leverage）ではなく優先度の低い「あれば嬉しい」ものとして扱おう。本当にやるべき仕事は、クリーンなHTMLと抽出可能なコンテンツだ。

AIクローラーを許可するかどうかを意図的に決める。 AIアクセスは robots.txt でユーザーエージェントごとに制御する。知っておくべき主要なものは以下のとおり。

ユーザーエージェント	運営者	許可すると何が起きるか
`GPTBot`	OpenAI	あなたのコンテンツが ChatGPT の回答／学習に使われるようになる。
`OAI-SearchBot`	OpenAI	ChatGPT の検索結果と引用を支える。
`PerplexityBot`	Perplexity	Perplexity があなたのページをインデックスし引用できるようになる。
`Google-Extended`	Google	Gemini/Vertex の学習へのオプトイン。AI Overviews や検索には影響しない。
`ClaudeBot`	Anthropic	Claude のためのクロール。

# robots.txt — example: allow AI citation crawlers, opt out of training-only
User-agent: GPTBot
Allow: /

User-agent: OAI-SearchBot
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Google-Extended
Disallow: /

⚠️ 注意：Google-Extended をブロックしても、Google 検索や AI Overviews から外れることはない——それらは標準の Googlebot で動いている。現状、Googlebot 全体をブロックする（それをすればインデックスから外れてしまう）以外に、AI Overviews だけを個別にオプトアウトする手段はない。トレードオフは承知の上で選ぼう。当サイトのrobots & sitemap ツールが、これらのルールの組み立てと検証を手助けする。

AIトラフィックを計測する

見えないものは管理できない。そしてAIの面は意図的に不透明だ。今日、実際に計測できるものを示す。

Google Search Console——AI Overviews の足跡を見張る。 Google はきれいな「AI Overviews」フィルターを提供して いない が、シグナルは間接的に現れる。

インプレッション増、CTR減。 あなたのページが AI Overview 内で引用されると、インプレッションは積み上がるが、ユーザーはクリックせずに答えを得ることが多い。情報系クエリでのインプレッション上昇／CTR低下のパターンは、典型的なGEOの指紋だ。
質問系クエリでの順位の不安定さ。 AI Overviews は「1位」が何を意味するのかさえ組み替える。情報系クエリと取引系クエリを別々に追跡し、ノイズが取引系の勝ちを覆い隠さないようにしよう。

リファラルトラフィック——分析の中から回答エンジンを見つける。 ユーザーがAIの回答から実際にクリックして流入すると、それはリファラルとして現れる。これらのホスト名を見張ろう。

chatgpt.com        # clicks from ChatGPT citations
perplexity.ai      # clicks from Perplexity answers
gemini.google.com  # clicks from Gemini
copilot.microsoft.com

GA4 では、Session source がこれらのホストに一致するよう絞り込んだ探索を作るか、生イベントをクエリしよう。

-- GA4 BigQuery export: sessions referred by AI answer engines
SELECT
  traffic_source.source AS source,
  COUNT(DISTINCT user_pseudo_id) AS users,
  COUNT(*) AS events
FROM `your_project.analytics_XXXXXX.events_*`
WHERE REGEXP_CONTAINS(
        traffic_source.source,
        r'chatgpt\.com|perplexity\.ai|gemini\.google\.com|copilot\.microsoft\.com')
GROUP BY source
ORDER BY users DESC;

エンジンを直接スポットチェックする。 地味だが効果的：定期的にターゲットの質問を ChatGPT、Perplexity、Google で尋ね、自分が引用されているか、どの競合が引用されているか、モデルがどんな言い回しを使ったかを記録する。クエリ → 引用された？ → 引用された競合 → メモ のトラッキングシートを保とう。この定性的な監査は、どんなダッシュボードも捉えないものを捉える。計測の配管を整える方法についてはアナリティクスを参照。

💡 提示：最適化を始める前にリファラルを計測しておこう。そうすればベースラインが手に入る。AIリファラルの量は、ほとんどのサイトでまだ小さい——一桁パーセント台だ——が、それは高インテントで、成長している。今のうちに計測しておけば、変曲点が来たときにそれと気づける。

GEO と従来のSEO

GEOをSEOを陳腐化させる後継者として扱いたくなる。だが、そうではない。GEOは置き換えではなく、付加されるレイヤーだ——そしてその下にあるレイヤーは、あなたがすでに実践しているのと同じSEOだ。

回答エンジンのパイプラインの各段階が何に依存しているかを考えてみよう。

コーパスに入る にはインデックス可能性が必要——robots、サイトマップ、canonical タグ、クロールバジェット。純粋なテクニカルSEOだ。
取得を生き延びる にはトピックの関連性と権威性が必要——従来のランキングを獲得するのと同じシグナルだ。
合成され引用される には信頼と裏付けが必要——それは E-E-A-T、リンク、そして信頼できるエンティティであり、良いSEOが常に築いてきたものだ。

言い換えれば、回答エンジンはクロールできないページを引用できず、権威を欠くページを取得しようとせず、実績のないページを信頼しない。弱いSEOは、構造上、弱いGEOを生む。 操作の順序は変わらない。

まずテクニカルな健全性。 クロール可能で、速く、サーバーレンダリングされたHTML。これがなければ、後続の何も機能しない。
次に本当に役立つコンテンツ。 オリジナルで、正確で、よく構造化された——ソースとなる権利を獲得する。
3番目に抽出の磨き。 質問見出し、アトミックな事実、表、要約——ランクイン可能なページを 引用可能な ページに変える、GEO固有のレイヤーだ。

GEOが 変える のは、成功の定義だ。勝利はもはや「1位にランクインしてクリックを獲得する」だけではない。「脚注にあなたの名前を載せて、モデルが引用する文になる」ことでもある。それはときに、より少ない クリックだが より大きな 影響を意味する——誰も訪れなくても、あなたのブランドが答えになる。それに応じて目標と計測を調整しよう。だが基礎を引き裂いてはいけない。基礎こそが、新しいレイヤーを可能にするものなのだ。

重要なポイント

✅ GEOはSEOの上に重なるレイヤーであり、置き換えではない——回答エンジンは、すでにクロール・取得・信頼できるコンテンツしか引用できないため、テクニカルな健全性と質の高いコンテンツが依然として基礎だ。
✅ 抽出のために書く：答えが先に来る文を伴う質問形の見出し、アトミックで自己完結した事実、そしてモデルが一字一句引き抜ける構造化された表／リスト。
✅ サーバーサイドでレンダリングする——ほとんどのAIクローラーは JavaScript を実行しないので、curl -A "GPTBot" で実際のコンテンツが生HTMLに含まれていることを検証しよう。Astro のような SSG/SSR フレームワークが有利だ。
✅ robots.txt を意図的に設定する——GPTBot、OAI-SearchBot、PerplexityBot、Google-Extended について。そして Google-Extended をブロックしても AI Overviews から外れないことを忘れずに。
✅ llms.txt はオプションとして扱う——公開は安上がりだが、まだ確認されたランキングや引用のシグナルではない。労力はクリーンなHTMLと明確な事実に注ごう。
✅ 新しい面を計測する：GSC でインプレッション上昇／CTR低下の指紋を見張り、GA4 で chatgpt.com や perplexity.ai のリファラルを追跡し、引用を手作業でスポットチェックしよう。