ウェブページをインデックスから隠すための究極のガイド

39415

•

10 分で読めます

•

著者

Zlata Verzhbitskaia

Zlata は経験豊富なデジタルマーケティング担当者であり、コンテンツクリエーターです。 SEO PowerSuite Ltd のブログの記事で、彼女は SEO...

日付

Sep 02, 2024

サイトページのインデックス作成は、検索エンジン最適化プロセスの開始点です。エンジンボットがコンテンツにアクセスできるようにすると、ページが訪問者を受け入れる準備ができており、技術的な問題がなく、SERP に表示されるようになるため、包括的なインデックス作成は一見すると大きなメリットのように思えます。

ただし、ランキングを確保するには、特定の種類のページを SERP から遠ざけた方がよいでしょう。つまり、それらのページをインデックスから隠す必要があります。この記事では、検索エンジンから隠すコンテンツの種類とその方法を説明します。

コンテンツ

検索から非表示にするページ
ページを検索から非表示にする方法
1. robots.txt ファイルでクロールを制限する
2. robotsメタタグとX-Robotsタグでインデックスを制限する
  1. ロボット noindex メタタグ
  2. X-Robotsタグ
特別なケース

検索から非表示にするページ

では、さっそく本題に入りましょう。SERP に表示されないように、検索エンジンから非表示にしたほうがよいページのリストを以下に示します。

個人情報を含むページ

ページに個人情報が含まれている場合、直接の検索トラフィックからコンテンツを保護することは必須です。これらのページには、会社の機密情報、アルファ製品に関する情報、ユーザープロファイル情報、プライベートな通信、支払いデータなどが含まれます。プライベートなコンテンツはデータ所有者以外の誰にも表示されないようにする必要があるため、Google (または任意の検索エンジン) はこれらのページを幅広いユーザーに公開すべきではありません。

ログインページ

ログインフォームがホームページではなく別のページに配置されている場合、このページを SERP に表示する必要はほとんどありません。このようなページはユーザーにとって追加の価値がなく、薄いコンテンツと見なされる可能性があります。

ありがとうページ

これらは、購入、登録など、Web サイトでのアクションが成功した後にユーザーが目にするページです。これらのページもコンテンツが薄く、検索者にとって追加の価値がほとんどないかまったくない可能性があります。

印刷用または読者ページ用バージョン

このタイプのページのコンテンツは、Web サイトのメインページのコンテンツと重複しているため、クロールおよびインデックス作成時にこれらのページは完全に重複したコンテンツとして扱われます。

類似製品ページ

これは、サイズや色のみが異なる製品を多数扱う大規模な電子商取引 Web サイトによくある問題です。Google はこれらの違いを判別できず、重複コンテンツとして扱う可能性があります。

内部検索結果

ユーザーが SERP からあなたのウェブサイトに来るとき、彼らはあなたのリンクをクリックして、自分のクエリに対する答えを見つけることを期待しています。たくさんのリンクがある別の内部 SERP ではありません。そのため、内部 SERP がインデックスに登録されても、ページ滞在時間は短くなり、直帰率は高くなる可能性があります。

単独著者のブログの著者プロフィールページ

ブログの投稿がすべて 1 人の著者によって書かれたものである場合、著者のプロフィールページはブログのホームページの完全な複製になります。

購読フォームページ

ログインページと同様に、サブスクリプションフォームには通常、サブスクリプションに必要なデータを入力するためのフォームしかありません。そのため、ページは a) 空で、b) ユーザーに価値を提供しません。そのため、検索エンジンがユーザーを SERP に誘導しないように制限する必要があります。

開発中のページ

経験則: 開発中のページは、訪問者に完全に公開できる状態になるまで、検索エンジンのクローラーから遠ざけておく必要があります。

ミラーページ

ミラーページは、別のサーバー/場所にあるページの同一コピーです。クロールおよびインデックス化されると、技術的に重複しているとみなされます。

特別オファーと広告ランディングページ

特別オファーや広告ページは、ユーザーが特別なアクションを完了した後、または特定の期間（特別オファー、イベントなど）にのみユーザーに表示されるようにするものです。イベント終了後は、検索エンジンを含め、誰にもこれらのページが表示される必要はありません。

ページを検索から非表示にする方法

ここで問題となるのは、上記のページをすべて厄介なスパイダーから隠し、Web サイトの残りの部分を本来あるべき状態で表示し続けるにはどうすればよいかということです。

検索エンジンの指示を設定する際には、2 つのオプションがあります。クロールを制限するか、ページのインデックス作成を制限することができます。

robots.txt ファイルでクロールを制限する

おそらく、検索エンジンのクローラーによるページへのアクセスを制限する最も簡単で直接的な方法は、robots.txt ファイルを作成することです。robots.txt ファイルを使用すると、不要なコンテンツをすべて積極的に検索結果から除外できます。このファイルを使用すると、1 つのページ、ディレクトリ全体、または 1 つの画像やファイルへのアクセスを制限できます。

仕組み

robots.txt ファイルの作成

手順は非常に簡単です。次のフィールドを含む.txt ファイルを作成するだけです。

User-agent: – この行では、問題のクローラーを識別します。
許可しない: – 指定されたクローラーにサイトの特定の部分にアクセスしないように指示する 2 行以上。

一部のクローラー (Google など) は、 Allow: という追加フィールドもサポートしていることに注意してください。名前が示すように、 Allow:を使用すると、クロールできるファイル/フォルダーを明示的にリストできます。

ここでは、robots.txt ファイルの基本的な例をいくつか説明します。

User-agent行の*は、すべての検索エンジンボットが、 /で示されるサイトのページをクロールしないように指示されていることを意味します。おそらく、これは避けたいことだと思いますが、これで意味は理解できたと思います。

上記の例では、選択したディレクトリ内の画像を Google の画像ボットがクロールすることを制限します。

このようなファイルを手動で作成する方法の詳細については、Google デベロッパーガイドをご覧ください。

しかし、robots.txt の作成プロセスは完全に自動化できます。このようなファイルを作成できるツールは多岐にわたります。たとえば、 WebSite Auditor を使用すると、Web サイトの robots.txt ファイルを簡単にコンパイルできます。

ツールを起動して Web サイトのプロジェクトを作成するときに、 「サイト構造」 > 「ページ」に移動し、レンチアイコンをクリックして、 「Robots.txt」を選択します。

WebSite Auditor をダウンロード

次に、 「ルールの追加」をクリックして指示を指定します。検索ボットと、クロールを制限するディレクトリまたはページを選択します。

WebSite Auditor をダウンロード

すべての設定が完了したら、 「次へ」をクリックして、ツールによって robots.txt ファイルが生成され、Web サイトにアップロードできるようにします。

クロールがブロックされているリソースを確認し、クロールされるべきものを禁止していないことを確認するには、 [サイト構造] > [サイト監査]に移動し、 [インデックス作成が制限されているリソース]セクションを確認します。

WebSite Auditor をダウンロード

注: robots.txt は検索エンジンによる特定のページのクロールを制限しますが、他のページが説明テキストでこれらのページを指している場合は、これらのページの URL がインデックスに登録される可能性があります。制限された URL は、コンテンツがクロールおよびインデックスに登録されないため、説明なしで検索結果に表示される可能性があります。

また、robots.txt プロトコルはあくまでも助言的なものであることに注意してください。これは、サイトページをロックするのではなく、「プライベート - 立ち入り禁止」のようなものです。robots.txt は、「法を遵守する」ボット (Google、Yahoo!、Bing ボットなど) がコンテンツにアクセスするのを防ぐことができます。ただし、悪意のあるボットはこれを無視して、とにかくコンテンツにアクセスします。そのため、公正使用を装って、プライベートデータがスクレイピングされ、コンパイルされ、再利用されるリスクがあります。コンテンツを 100% 安全に保ちたい場合は、より安全な対策 (サイトへの登録の追加、パスワードでコンテンツを非表示にするなど) を導入する必要があります。

よくある間違い

robots.txt ファイルを作成するときによくある間違いを以下に示します。この部分を注意深くお読みください。

1)ファイル名に大文字を使用する。ファイル名は robots.txt です。Robots.txt でも ROBOTS.txt でもありません。

2) robots.txtファイルをメインディレクトリに配置しない

3)以下のように禁止命令を残して、ウェブサイト全体をブロックする（希望しない限り）

4)ユーザーエージェントの指定が間違っている

5) 1行に複数のカタログを記載することは禁止されています。各ページまたはディレクトリには別の行が必要です。

6)ユーザーエージェント行を空のままにする

7)ディレクトリ内のすべてのファイルをリストします。ディレクトリ全体を隠している場合は、すべてのファイルをリストする必要はありません。

8)禁止命令の行に全く触れていない

9) robots.txtファイルの下部にサイトマップを記載していない

10)ファイルにnoindex命令を追加する

robotsメタタグとX-Robotsタグでインデックスを制限する

robots noindex メタタグまたは X-Robots タグを使用すると、検索エンジンボットがページをクロールしてアクセスできるようになりますが、ページがインデックスに登録されなくなり、検索結果に表示されなくなります。

それでは、それぞれのオプションを詳しく見ていきましょう。

ロボット noindex メタタグ

robots noindex メタタグは、ページの HTML ソース (<head> セクション) に配置されます。これらのタグを作成するプロセスには、ほんの少しの技術的知識しか必要ありません。初心者の SEO でも簡単に実行できます。

仕組み

Google ボットがページを取得すると、noindex メタタグが見つかり、このページはウェブインデックスに含まれません。ページは引き続きクロールされ、指定された URL に存在しますが、他のページからリンクされる頻度に関係なく、検索結果には表示されません。

ロボットメタタグの例

このメタタグをページの HTML ソースに追加すると、検索エンジンボットにこのページとそのページからのすべてのリンクをインデックスするように指示します。

「follow」を「nofollow」に変更すると、検索エンジンボットの動作に影響を与えます。上記のタグ構成は、検索エンジンにページをインデックスするように指示しますが、ページに配置されたリンクをたどらないようにします。

このメタタグは、検索エンジンボットに、そのタグが配置されているページを無視し、そのページに配置されたすべてのリンクをたどるように指示します。

このタグをページに配置すると、そのページもそのページに含まれるリンクもフォローされず、インデックスも作成されないことを意味します。

注:上記の nofollow 属性と follow 属性は、rel=nofollow とは何の関係もありません。これらは 2 つの異なるものです。rel=nofollow は、リンクジュースの通過を防ぐためにリンクに適用されます。上記の nofollow 属性はページ全体に適用され、クローラーがリンクをたどるのを防ぎます。

X-Robotsタグ

robots noindex メタタグの他に、 noindexまたはnone値を持つ X-Robots-Tag を使用して HTTP ヘッダー応答を設定することで、ページを非表示にすることができます。

X-Robots-Tag を使用すると、ページや HTML 要素に加えて、ロボットメタタグを使用できない PDF ファイル、ビデオ、画像、その他の HTML 以外のファイルを個別に noindex 化できます。

仕組み

このメカニズムは、noindex タグとほぼ同じです。検索ボットがページにアクセスすると、HTTP 応答は noindex 指示を含む X-Robots-Tag ヘッダーを返します。ページまたはファイルは引き続きクロールされますが、検索結果には表示されません。

X-Robots-タグの例

これは、ページをインデックスしないように指示する HTTP 応答の最も一般的な例です。

HTTP/1.1 200 OK

（…）

X-Robots-タグ: noindex

（…）

特定のボットからページを非表示にする必要がある場合は、検索ボットの種類を指定できます。以下の例は、Google 以外の検索エンジンからページを非表示にし、すべてのボットがそのページ上のリンクをたどることを制限する方法を示しています。

X-Robots-タグ: googlebot: nofollow

X-Robots-タグ: otherbot: noindex、nofollow

ロボットの種類を指定しない場合は、すべての種類のクローラーに対して手順が有効になります。

ウェブサイト全体で特定の種類のファイルのインデックス作成を制限するには、サイトのウェブサーバーソフトウェアの構成ファイルに X-Robots-Tag 応答命令を追加します。

Apache ベースのサーバー上のすべての PDF ファイルを制限する方法は次のとおりです。

<ファイル ~ "\.pdf$">

ヘッダーに X-Robots-Tag を「noindex, nofollow」に設定

</ファイル>

NGINX の場合も同様の手順になります:

場所 ~* \.pdf$ {

add_header X-Robots-Tag "noindex, nofollow";

}

1 つの要素のインデックス作成を制限するには、Apache のパターンは次のようになります。

# htaccess ファイルは、一致したファイルのディレクトリに配置する必要があります。

<ファイル "unicorn.pdf">

ヘッダーに X-Robots-Tag を「noindex, nofollow」に設定

</ファイル>

これは、NGINX の 1 つの要素のインデックス作成を制限する方法です。

場所 = /secrets/unicorn.pdf {

add_header X-Robots-Tag "noindex, nofollow";

}

Robots noindex タグと X-Robots-Tag

robots noindex タグはページのインデックスを制限するためのより簡単な解決策のように思えますが、ページに X-Robots-Tag を使用する方がよい場合もあります。

サブドメインまたはカテゴリ全体をインデックスしないようにします。X-Robots-Tag を使用すると、これを一括で実行できるため、各ページを 1 つずつタグ付けする必要がなくなります。
HTML 以外のファイルをインデックスしない。この場合、X-Robots-Tag は最善ではありませんが、唯一の選択肢となります。

ただし、X-Robots-Tag の指示に確実に従うのは Google だけであることを覚えておいてください。他の検索エンジンについては、タグを正しく解釈する保証はありません。たとえば、Seznam は x-robots-tags をまったくサポートしていません。したがって、Web サイトをさまざまな検索エンジンに表示することを計画している場合は、HTML スニペットでrobots noindex タグを使用する必要があります。

よくある間違い

noindex タグを使用する際にユーザーが犯す最も一般的な間違いは次のとおりです。

1) robots.txt ファイルに noindex されたページまたは要素を追加します。robots.txtはクロールを制限するため、検索ボットはページにアクセスできず、 noindex ディレクティブも表示されません。つまり、コンテンツがなくてもページがインデックスされ、検索結果に表示される可能性があります。

noindex タグが付いたページが robots.txt ファイルに含まれているかどうかを確認するには、 WebSite Auditorの [サイト構造] > [ページ]セクションにある[Robots 指示]列を確認します。

WebSite Auditor をダウンロード

注:プロジェクトを組み立てるときに、エキスパートオプションを有効にして、「robots.txt の指示に従う」オプションのチェックを外し、ツールが指示を認識してもそれに従わないようにすることを忘れないでください。

2) タグディレクティブで大文字を使用する。Google によると、すべてのディレクティブは大文字と小文字を区別するので注意してください。

特別なケース

主要なコンテンツのインデックス作成の問題についてはすべてほぼ明らかになったので、次に、特に言及する価値のあるいくつかの非標準のケースに移りましょう。

1)インデックスに登録したくないページがサイトマップに含まれていないことを確認します。サイトマップは、実際には検索エンジンに Web サイトをクロールするときに最初にどこに行くべきかを伝える方法です。検索ボットに表示させたくないページにアクセスするように要求する理由はありません。

2)それでも、サイトマップにすでに存在するページのインデックスを解除する必要がある場合は、検索ロボットによって再クロールされインデックスが解除されるまで、サイトマップからページを削除しないでください。そうしないと、インデックス解除に予想よりも時間がかかる可能性があります。

3) プライベートデータを含むページをパスワードで保護します。パスワード保護は、robots.txt の指示に従わないボットからでも機密コンテンツを隠す最も確実な方法です。検索エンジンはパスワードを知らないため、ページにアクセスできず、機密コンテンツも表示されず、ページが SERP に表示されることもありません。

4)検索ボットがページ自体をインデックスしないようにし、ページにあるすべてのリンクをたどり、それらのURLのコンテンツをインデックスするには、次のディレクティブを設定します。

これは、多くの有用なリンクが含まれているものの、それ自体に価値がない内部検索結果ページでは一般的な方法です。

5) 特定のロボットに対してインデックス作成の制限を指定できます。たとえば、ニュースボットや画像ボットなどからページをロックできます。ボットの名前は、robots.txt ファイル、robots メタタグ、X-Robots-Tag など、あらゆるタイプの指示に対して指定できます。

たとえば、robots.txt を使用して、ChatGPT ボットからページを非表示にすることができます。ChatGPT プラグインと GPT-4 (OpenAI が Web から情報を取得できるようになった) の発表以来、Web サイトの所有者はコンテンツの使用について懸念しています。多くのサイトで、引用、盗用、著作権の問題が深刻化しました。

現在、 SEO の世界は分裂しています。GPTBot がサイトにアクセスできないようにブロックすべきだと主張する人もいれば、その逆を主張する人もおり、さらに、何かが明らかになるまで待つ必要があると主張する人もいます。いずれにせよ、選択肢はあります。

GPTBot をブロックする必要があると確信している場合は、次の手順に従ってください。

サイト全体を閉じたい場合。
ユーザーエージェント: GPTBot
許可しない: /
サイトの特定の部分だけを閉じたい場合。
ユーザーエージェント: GPTBot
許可: /directory-1/
許可しない: /directory-2/

6) ユーザーの一部がページ A からページ B にリダイレクトされる場合、A/B テストで noindex タグを使用しないでください。noindexが 301 (永続的) リダイレクトと組み合わされている場合、検索エンジンは次のシグナルを受け取ります。

ページ A はページ B に永久に移動されたため、存在しなくなりました。
ページ B には noindex タグがあるため、インデックスに登録されません。

その結果、ページ A と B の両方がインデックスから消えます。

A/B テストを正しく設定するには、301 ではなく 302 リダイレクト (一時的) を使用します。これにより、検索エンジンは古いページをインデックスに保持し、テストの終了時にそのページを戻します。ページの複数のバージョン (A/B/C/D など) をテストしている場合は、rel=canonical タグを使用して、SERP に表示されるページの正規バージョンをマークします。

7) 一時的なランディングページを非表示にするには、noindex タグを使用します。特別オファー、広告ページ、割引、または漏洩してはならないあらゆる種類のコンテンツを含むページを非表示にする場合、robots.txt ファイルでこれらのコンテンツを禁止するのは最適なアイデアではありません。好奇心旺盛なユーザーは、robots.txt ファイル内でこれらのページを引き続き表示できるためです。この場合は、誤って「秘密の」URL を公開しないように、 noindexを使用することをお勧めします。

まとめると

これで、ウェブサイトの特定のページを見つけて、検索エンジンのボットの注意から隠す方法の基本がわかりました。そして、ご覧のとおり、プロセスは実際には簡単です。1 つのページに複数の種類の指示を混在させないようにし、検索に表示される必要があるページを隠さないように注意してください。

何か見逃していることはありませんか? コメント欄で質問を共有してください。

Article stats:

Linking websites	N/A
Backlinks	N/A
InLink Rank	N/A

からのデータ: バックリンクチェッカーツール.