現在、Googleのクローラーは、良質なコンテンツを見つけ出し、検索ユーザーに応じた精度の高い検索結果を自動的に構成できるようになっています。そのため、昔と比べれば、ウェブサイト全体がクローリングされる率が高くなり、それぞれのコンテンツがどれだけ最適化されているか的確に判断されやすくなっています。

つまり、少しでも検索順位の上昇とは関係のないコンテンツページを放置していると、検索結果に悪影響が出るようになっています。そのため、ウェブマーケティング担当者は、Googleのクローラーの動きを制御し、コンテンツを上位表示させなければいけません。現在、検索上位を獲得するにあたり、下記のようなことをお考えではないですか?

  • 検索結果で上位表示を獲得するためのSEO対策方法が知りたい・・・。
  • robots.txtのことを、ゼロから勉強したい・・・。
  • robots.txtの書き方を理解して、ウェブサイトに実装できるようになりたい!

もし、上記ついて自分と何かひとつでも思い当たることがある場合は、本記事を最後まで興味を持って読んでいただけると思います。今回は、robots.txtとは一体どんなものなのか、定義や効果などを正しく理解することで、SEOのメカニズムについて勉強していきましょう。

【事前知識】SEOの内部対策を基礎から学習しよう!

robots.txtについて理解する前に、SEOの内部対策を基礎からしっかりと知識として押さえておく必要があります。なぜなら、内部対策の知識がなければ、なんのための作業なのか理解できないからです。

実際に、検索エンジンの内部構造に関するSEO対策を考える際、普段、どんなことを意識するでしょうか?非常に漠然とした質問かもしれませんが、基本的にSEOの内部対策には、下記の2つの対策方法があります。

  • インデックスの最適化
  • クロールの最適化

インデックスの最適化とは、検索エンジンのインデックスが促されるように、コンテンツの質の低いページをリライトする作業などを意味します。つまり、インデックスが最適化されるように、コンテンツを見直していくことを概念的に指します。

一方で、クロールの最適化とは、WordPressのログインページや会員限定のページなど、クロールされる必要のないページを制御して、無駄なクローリングを発生させないことを指します。クロールの最適化を実施すれば、検索結果で上位表示させたいページを意識的に伝えられるようになるため、SEO対策として大きな意味をもつ有効な対策とされています。

robots.txtってなに?どんなときに使用するの?

SEOの内部対策には、“インデックスの最適化”と“クロールの最適化”があると説明しました。このうち、クロールの最適化の対策方法として、robots.txtを利用します。そもそも、robots.txtとは、自社のウェブサイトの情報を取得する制御ファイルをそのように呼びます。

たとえば、ウェブサイトに掲載されているコンテンツのうち、クロールされたくないページをrobots.txtを利用して制御し、クロールをブロック(禁止)します。そして、robots.txtでクロールをブロックされたページ以外にも、関連する画像やページなどが、インデックスされることを未然に防ぎます。

robots.txtでクロールを最適化することで得られる効果

robots.txtを実装してクロールを最適化すれば、ウェブサイト内の重要ページに対して、クローリングの頻度が増加するため、比較的短時間でSEO効果を高めることができます。現在、今一つ検索流入が得られていなくても、クロールの最適化を実施すれば、流入数を大幅に上昇させることができます。

最低限のクローラーの仕組みを理解する

もし、クローラーの訪問頻度が高いウェブサイトと低いウェブサイトがあった場合、クロール頻度の高いページほど、上位表示できる可能性があります。ウェブマーケティング担当者の間では、ロングテールキーワードによる上位表示を実現するため、頻繁にコンテンツを更新される方がいますが、対策の方法として非常に有効だといえます。

個人的推測の領域ではありますが、クロール頻度が高いということは、“Googleがコンテンツの内容を頻繁に参照している”可能性が高いです。つまり、検索結果で上位表示する可能性が高いということです。Googleがクローリング回数をランキングシグナルの指標として使っていたとしてもおかしくありません。

言い換えれば、検索ユーザーのためになるコンテンツを作成し、クローリング回数を上昇させることができれば、上位表示できるようになります。

クローラーの流入経路を理解する

Googleのクローラーですが、どのようにウェブサイトを経由して流入しているかご存知でしょうか?クローラーは、主に2つの方法でウェブサイトに流入します。

  • ウェブサイト内の内部リンクや被リンクを経由して訪問する。
  • サイトマップを経由することでウェブサイトへ訪問する。

つまり、検索結果で上位表示すれば、ウェブサイトに向けて送られた外部リンクを経由して、クローラーが幾度となく訪問するため、自然とクローリング回数が上昇します。そのように考えれば、内部リンクによって、リンクパワーが送られたページが上位表示しやすい理由もご理解いただけると思います。

Googleのクローラーが内部リンクを評価できるのは同一ドメインの内部リンク先のページを参照する仕組みを持っているからです。そういった仕組みがあるからこそ、私たちは、ウェブサイトの検索順位を内部リンク対策で改善できるようになっています。

ドメインごとに、クローリング回数制限があるって、ホント?

それぞれのドメインごとに、クローリングの回数制限が存在することをご存知でしょうか?クロールバジェットというものなのですが、どの程度、深くクローラーが巡回するかは、クロールバジェットによって、すべてが決められています。

クロールバジェットとは、Googleのクローラーが1度訪問したときに巡回するページ数を意味します。つまり、クロールバジェットが2であれば、流入したページを1と考えるため、次のページまでしか、クローラーは巡回しません。

“アンカーテキストリンクさえあれば、どこまでもクローラーは、巡回する!”と思われている方もいますが、そんなことはありません。検索結果で上位表示できないウェブサイトは、多くの場合、クロールバジェットの値が低い可能性が高いため、今以上に良質なコンテンツを追加して巡回数を上げていく必要があるということです。

robots.txtは、クロールバジェットを制限する

上記のように、Googleのクローラーがクロールバジェットによって運用されていることを知れば、robots.txtがどんな役割を持つファイルとなるのか、明確に理解できたと思います。

robots.txtを実装すれば、クロールバジェットのクロール領域を制限し、特定のコンテンツページへのアクセスを未然に防ぐことができます。「ただ、クローラーの侵入を防げるだけでは、SEO的に意味がないのではないですか?」という方がいますが、そんなことはありません。

robots.txtによるクローリング回数を制限することで、クロールバジェットで指定されたクローラーの巡回回数を節約することができます。本来なら巡回される予定のあるページに、巡回しなかったため、その分のクローリングは、別のコンテンツページで実施されます。その結果、ウェブサイト全体のSEO効果が高まり、検索エンジンで上位表示しやすくなるということです。

【実践編】robots.txtをウェブサイトに実装してみよう!

ここまでは、robots.txtを実装するまでの前知識であったため、ウェブマーケティング担当者でも、クローラーの仕組みが理解できたという方も多いでしょう。しかし、ここからは、robots.txtをウェブサイトに実装していくため、慎重に作業を進めてください。

ここからは、コードを扱っていくため、必ずシステムエンジニアやHTMLコーディングができる方が作業を行うようにしてください。

万が一、robots.txtの設定を誤ってしまうと、検索結果にまったく表示されなくなってしまうため、誰がどんなページに対して、どんな指示を与えたのか、あとで見返せるようにしてください。必ず、ファイルやコードのバックアップは、きっちりと取得しておきましょう。

robots.txtを指定するページを選定する

それでは、早速、robots.txtをコンテンツページに実装してみましょう!しかしながら、どんなページにでも実装すれば良いというわけではないため、指定すべきページを選定していきましょう。

ちなみに、GoogleのAdSense広告は、robots.txtを利用することで、クローリングされないように整備されています。その結果、掲載広告が検索順位に良い・悪い影響を与えてしまうことがありません。

考え方を変えれば、robots.txtを適応するページは、下記のようなコンテンツページであることが分かります。

  • 検索結果から流入するユーザーにとって、なんの意味も持たないウェブページ
  • 自社が選んで掲載している広告リンク先のウェブページ

検索結果から流入するユーザーにとって価値のないウェブページといわれても、あまりにも漠然としているため、具体的にどのようなページか説明していきたいと思います。

ユーザーにとって、なんの意味も持たないウェブページとは?

価値のないページという言葉が分かりづらければ、あなたは、コンテンツを生成する際、自動生成ツールなどを利用してコンテンツを制作していないでしょうか?「そんな危険なこと、するわけがない。」という方でも、英語のウェブページをGoogleの翻訳機能を利用して、そのままコンテンツとして掲載していないでしょうか?

他にも、最新のRSSフィードなどを取得し、自動的にコンテンツを生成するツールを利用して、定期更新しているようなコンテンツコーナーは、ないでしょうか?他にも、複数のコンテンツを簡単にリライトして組み合わせたようなコンテンツは、すべて価値のないウェブページに該当します。

こういった自動生成ツールによって完成したような価値のないコンテンツページは、良質なコンテンツとはいえないため、すぐにブロックしなければいけません。ちなみに、自動生成ページは、ブロック対象ページに指定すべきですが、重複ページについては、インデックスの最適化を行うべきです。対処の仕方が異なりますので、注意してください。

広告先のページを一応確認しておこう!

これから説明することは、本来ならば、ASPを運営している会社が独自の判断で実施すべきことであり、私たちウェブマーケティング担当者が気にすることではありません。ほとんどの場合、必要のない作業ではあるものの、マイナーなASPを利用している方は、ぜひ大切な知識として覚えておいてください。

基本的に、Googleは、広告の存在を良質なコンテンツとは考えてはいません。ましてや、広告元の運営方法が原因となって、クローラーのランキングシグナルを変動させることを好ましいことだとは思っていません。

そのため、本来ならランキングシグナルに影響が出ないように、robots.txtを適用した301リダイレクトページを中間にはさみこんだものを使用しなければいけません。こういった構造のASPを利用しなければ、広告ページに与えられたペナルティを自社のウェブサイトが受けてしまいます。そういった対策がしっかりとできていない広告運営業者が少なからず存在するため、確認を怠らないようにしましょう。

robots.txtの記述方法の流れを徹底解説

おそらく、ここまでくればクローラーを制御すれば、SEO効果を高められることが理解できたと思います。いつもなら、クリックひとつで対策できることも多いですが、robots.txtの作成は、そうはいきません。

それでも慣れてしまえば簡単なので、ひとつずつ意味を理解しながら作業を進めていきましょう。

【準備物】特殊なツールは、必要なの?

robots.txtをウェブサイトに実装するにあたり、特殊な専用のソフトなどは、一切必要ありません。パソコンの中に標準的に入っている“メモ帳”を利用すれば、今日から実装することができます。

簡単な流れとしては、メモ帳の中に、「Googleのクローラーさん、このコンテンツページにはアクセスしないでくださいね!」というプログラムを記述して実装するだけです。難しいプログラムを記述する必要はなく、これから説明する通りに実装してください。

すでに、拡張子を見れば、わかると思うのですが、robots.txtは、メモ帳などで保存したテキストファイルのことです。

robots.txtのファイル名は、統一する

robots.txtのファイルを作成する際は、絶対にファイルの名称を間違えてはいけません。必ず、“robots.txt”になっているか、拡張子まですべてチェックしましょう。

万が一、ファイル名を異なったものにしてしまうと、Googleのクローラーは、指示通りに認識してくれません。逆に、意味のないファイルを実装していることで、SEOに悪影響を与えることもあるため注意してください。

robots.txtは、どこに実装すればいいの?

先に、メモ帳で作成したrobots.txtをどこに実装するのか説明しておきます。まずは、アップロード予定のドメイン情報が掲載されたFTPを開いてください。レンタルサーバーを使用して、ウェブサイトを開設した経験があるのなら、きっと難なくできるのではないでしょうか。

robots.txtは、下記の参考例に従ってルートドメインにアップロードします。

  • https://example.com/robots.txt

上記以外の場所に設置したとしても、robots.txtは、効果を発揮しません。下記のような設置方法は、完全に誤っているため注意してください。ウェブマーケティング担当者でも、こういった間違いが多く、実装したつもりになっている方がたくさんいます。

  • http://example.com/seoblog/robots.txt

どこかに適用すれば、上手くいというわけではありませんので、正しい場所に適切に設置するようにしてください。

robots.txtを記述してみる

robots.txtは、自分でプログラムを記述して形成する必要はありません。下記のようなプログラムをメモ帳にそのままコピー&ペーストで記述すれば、手軽に適用することができます。※もちろん、ドメイン名の部分は、自社サイトのものに変更して適用してください。

User-agent: *
Disallow: /wp-admin/
Sitemap: http://www.example.com/sitemap.xml

しかしながら、さすがに意味の分からないプログラムを法人サイトに適用するわけにいきませんので、どんな意味が込められているのか概要を簡単に説明していきます。

User-agent:
User-agentと書いて、ユーザーエージェントと呼びます。このプログラムがあれば、対象の検索エンジンに対して、制御命令を出すことができます。今回の場合、“*”となっていますが、この記述方法にしておくと、全クローラーに対して、同一命令を出すことができます。よほどの理由がないかぎり、この部分は、“*”のままにしておいてください。

Disallow:
このプログラムを記述すれば、クローラーのアクセスファイルを指定することができます。ここの書き方次第で、アクセスファイルの指定を変更できるため、どのファイルに命令を下すのか明確にしてから記述しなければいけません。

もし、ウェブサイトを公開する前段階であれば、“/”スラッシュをはめ込むことで、ウェブサイトのすべての巡回をブロックすることができます。特定のディレクトリに対して、対象場所をブロックする予定があるのなら、/wp-admin/のように対象場所の名前を記述していきます。

ちなみに、「/seosite.php」のように単体ページに対して、指定することもできます。他にも、Allowというプログラムを使用することがあります。Allowを使うことで、Disallowでブロック済みのディレクトリ内の対象の子ディレクトリのURLに対してクロールに限定して許可することができます。

Sitemap:
このプログラムを記述すれば、XMLサイトマップの存在を検索エンジンンのクローラーに対して認知させることができます。

もし、自社のウェブサイトをサーチコンソールなどで管理している場合、すでにXMLサイトマップを登録しているのであれば、この記述はなくても良い可能性が高いです。

robots.txtの実装に誤りがないか、robots.txt テスターでチェック

robots.txtを実装したら、Search Consoleの“robots.txt テスター”を使用して、ブロック方法に誤りがないか確認しましょう。

robots.txt テスター
公式URL:https://support.google.com/webmasters/answer/6062598

この確認作業を怠ってしまうと、設定が誤ったまま実装された状態が長時間続くことがあるため、確認作業は必須です。

たとえば、特定の画像をGoogleの画像検索で表示させたくない場合に、クローラーが巡回しないかチェックすることができます。

robots.txt実装時の注意点について

もしかしたら、こんな単純なプログラムコードを記述して実装するだけなら、作業的に楽だったという方もいるかもしれません。そんな方にも、robots.txtの実装による注意点を知っていただきたいと思います。

この注意点を知っておかないと、人によっては正しく実装できていないのではと、ずっと思い悩むことになります。

robots.txtの反映には、時間がかかる

robots.txtは、実装したからといって、すぐに反映されるわけではありません。なぜなら、Googleには、実装前のキャッシュが残っているからです。このキャッシュを消してしまわない限りは、robots.txtの実装が反映されることはありません。

キャッシュが消えるには、通常1日程度かかると考えておいた方が良いでしょう。クローリングに明確な基準がないため、何日で反映されるといった具体的なことは言えませんが、遅ければ数日程度はかかると考えておきましょう。

robots.txtが無視されることもある

「プログラムコードなんだから、指示通りに動いて当たり前。」と思っているのなら、robots.txtの強制力について理解しておきましょう。一般的にGoogleのような大手の検索エンジンのクローラーであれば、プログラムの指示通りに稼働してくれます。

しかしながら、クローラーによっては、プログラムコードの指示を無視して、クローリングしてしまうこともありますので、絶対的ではないということを理解しておきましょう。本当に、コンテンツページのクローリングを防ぎたいのなら、ベーシック認証を利用するとクローラーの侵入をブロックすることができます。

robots.txtの実装でありがちな設定の誤り

たとえば、すでに検索エンジンにインデックスされて、検索結果に表示されたページがあるとします。このとき、検索結果に表示させないようにするためには、メタ情報にnoindexを設定する必要があります。

ここで問題が発生します。noindexの設定後、robots.txtを利用してクローリングをブロックしてしまうと、逆に検索結果に掲載され続けた状態になってしまいます。それぞれの作業の意味を理解して実施すれば、防げるミスなので、何をやろうとしているのか確認しながら進めて行きましょう。

ウェブサイト全体をブロックしてしまう

robots.txtのファイルを作成し、FTPソフトでファイルのアップロード場所を誤ってしまうと、検索結果にいつまでたっても表示されないという問題が発生してしまいます。「ウェブサイトが検索結果に表示されません・・・。」といわれて確認してみると、ウェブサイト全体をブロックする設定になっていることがあります。

こういったミスは、robots.txt テスターを利用して、実装にミスがないか確認していれば防げるものなので、しっかりと最後のチェックだけは怠らないようにしてください。

robots.txtは、重複コンテンツに対して実装しない

GoogleのJohn Mueller氏は、重複コンテンツに対してrobots.txtを実装することを推奨していません。なぜならGoogleには、重複したコンテンツのリンクパワーを1つにまとめる仕組みが存在するからです。

もし重複したコンテンツをrobots.txtでブロックしてしまった場合、対象ドメインのリンクパワーを処分してしまうことになります。その結果、本来、得られたはずのSEO効果が減少してしまい、検索結果で上位表示しづらくなってしまう可能性があります。

こういった場合は、canonical属性や301リダイレクトを利用することで、リンクパワーを減少させることなく、正しい対処を行いましょう。

基本的に、JavaScriptはブロックしてはいけない

特に、何か意図的にコントロールしたいことがある以外は、JavaScriptはブロックするべきではありません。すべてのJavaScriptに対して、クロールのブロック行為を行うと、SEO対策として、検索結果に悪影響をもたらすことになります。

なぜなら、Googleのクローラーは、JavaScriptの情報を取得することで、どんなコンテンツが記述されているのか、プログラムの処理方法やリンクパワーに関することを判定しているからです。

つまり、JavaScriptのクローリングをブロックするということは、Googleのクローラーに対して適切な情報を伝えないことになってしまい、適切な評価が得られなくなってしまいます。

robots.txtの記述のルールを理解せずに作業をする

上記で、robots.txtの書き方の説明をしましたが、慣れてくると、個人的にさまざまな設定をしたくなってくるでしょう。その際、下記のような記述ルールだけは忘れないでください。

  • 大文字と小文字の区別がしっかりと行われている。
  • 他の設定の組み合わせ方法によっては、悪影響になる。
  • robots.txtを実装したからといって、すぐに反映されるわけではない。
  • 手書きして、スペルミスなどをしない。

robots.txtの内部に記述される文言は、すべて大文字と小文字が区別されて読み込まれます。何か指定する際は、参考コードを手書きするのではなく、すべてコピー&ペーストで記述してください。万が一、手書きによる誤りがあっても、robots.txtテスターを使用することでスペルチェックができます。

ショッピングサイトの運営者も対策しなければいけない

ウェブサイトを通じてコンテンツマーケティングを展開している企業は、robots.txtの実装は必須です。しかし、ショッピングサイトの運営者は、対策の必要性があるのでしょうか?もちろん、ショッピングサイトの運営者もrobots.txtを実装しなければいけません。

たとえば、商品決済時、決済ボタンをクリックするとユーザーに応じた個別のURLが生成されます。なんの対策もとらなければ、独自で生成されるページがクローリングされてしまいます。

これでは、巡回効率が落ちてしまいクロールバジェットに悪影響を与えてしまうため、すぐに対策をとらなければいけません。robots.txtを使用することで、レンタルサーバーへの負荷を軽減することができます。

FTPの操作がわからないのにrobots.txtを実装しない

レンタルサーバーやFTPの基本的な操作方法が分からない方は、robots.txtを実装してはいけません。実装方法を誤ってしまった場合、自分がどこにアップロードしたのか分からなくなってしまい、検索結果でコンテンツが表示されなくなってしまいます。

それなら、最初からrobots.txtを実装しない方が、問題が大きくなることを防ぐことができます。実際、robots.txtを実装したからといって、高まるSEO効果は、ごくわずかな小さなものですので、ウェブマーケティング初心者の方は、システムエンジニアなどに作業を依頼しましょう。

robots.txtの正しい使い方と記述方法のまとめ

検索結果で上位表示するために、robots.txtの正しい使い方や記述方法を説明していきましたが、いかがでしたでしょうか。robots.txtを利用すれば、Googleのクローラーの動きを制御することができます。

ウェブサイトの開設経験があれば、メモ帳にプログラムをコピー&ペーストして、実装するだけで対応できるため、それほど作業が大変ということもないでしょう。しかし、こういった作業こそ、ちょっとしたミスを起こしがちなので、robots.txt テスターを利用して実装ミスをしていないか確認しましぃう。

良質なコンテンツを記述し、内部・外部リンク対策をしっかりと実施したうえで、robots.txtを実装すれば、検索上位にいける可能性は一段と高くなるでしょう。