Google Search Console、URLパラメータを設定する方法(不要なページをクロール禁止にする方法)

この記事は約9分で読めます。

URLパラメーターとは?

URLパラメーターとは、URLの後ろについている「?」の部分のことです。

  • ttps://u-ff.com/search-result/?q=adsense
  • ttps://u-ff.com/search-result/?q=ブログ
  • ttps://u-ff.com/crawl-budget/?replytocom=162

上記のURLの赤い文字の部分をURLパラメーターと呼びます。

サイト内検索のURLパラメーター

サイト内検索、検索バー

サイト内検索、検索バー

たとえば、サイト内検索で「adsense」と入力したとします。

すると、このサイトの場合は

  • ttps://u-ff.com/search-result/?q=adsense

というページが開きます。

サイト内検索、検索結果ページ(adsense)

サイト内検索、検索結果ページ(adsense)

検索結果には、このブログのアドセンス関係の記事が表示されます。

また、サイト内検索で「ブログ」と入力したとします。
すると、

  • ttps://u-ff.com/search-result/?q=ブログ

というページが開きます。

サイト内検索、検索結果ページ(ブログ)

サイト内検索、検索結果ページ(ブログ)

このように、「?q=」の後ろに続くキーワードで、何についての検索結果を表示するかを変化させています。

「?q=」の後ろに続くキーワードにはどんな単語がくるか予測ができません。
キーワードには無限のパターンが存在するため、URLのパターンも無限になります。

これらをすべてGoogleがクロールしていたら際限がありません。

そこで、「?q=」というURLパラメーターがついたURLについては、
「クロールは不要です」
とGoogleに伝える必要があります。

「○○なページをクロール禁止にする」という設定は、

  • Google Search Consoleの「URLパラメータ」という機能で設定をする方法
  • ブログのサーバーにrobots.txtというファイルを設置する方法

などがあります。

今日は、

  • Google Search Consoleの「URLパラメータ」という機能で設定をする方法

の方を紹介します。

Google Search Console、URLパラメータを設定する方法

Google Search Consoleへ未登録の人は、先にGoogle Search Consoleの登録をしておきましょう。

Google Search Consoleへの登録方法
ブログのアクセスを伸ばすには、Googleにインデックスされるのが大事 ブログを始めたばかりの頃は、Twitterだったり、ブログ村・ブログランキングなどのランキングサイトであったり、自分で記事の宣伝をするとちらほらと読者がやってくるような...

Google Search Consoleへ登録済みの人は、以下のリンクを開きましょう。

Google Search Console
Use Search Console to monitor Google Search results data for your properties.
Google Search Console、「プロパティを選択してください」からサイトを選ぶ

Google Search Console、「プロパティを選択してください」からサイトを選ぶ

「確認済みのプロパティを選択」という画面になるので、自分のサイトを選択します。
すると、下記のような「URLパラメータ」という画面が開きます。

Google Search Console、URLパラメータ

Google Search Console、URLパラメータ

上記の画面で、「パラメータを追加」というボタンをクリックします。

パラメータを追加

Google Search Console、パラメータを追加

Google Search Console、パラメータを追加

「パラメータを追加」という画面が開くので、各項目にデータを入力していきます。

パラメータ(大文字と小文字を区別)

  • ttps://u-ff.com/search-result/?q=adsense
  • ttps://u-ff.com/search-result/?q=ブログ

上記のようなURLを、クロールさせたくないなら、
パラメータ(大文字と小文字を区別)」という欄に「q」と入力。

  • ttps://u-ff.com/crawl-budget/?replytocom=162

上記のようなURLを、クロールさせたくないなら、
パラメータ(大文字と小文字を区別)」という欄に「replaytocom」と入力。

このパラメータで、ユーザーに表示されるページ コンテンツが変化しますか?

このパラメータで、ユーザーに表示されるページ コンテンツが変化しますか?」の欄には、以下の2つの選択肢があります。

  • いいえ: ページのコンテンツには影響しません(例: トラッキング用)
  • はい: ページ コンテンツを変更、並べ替え、または絞り込みます

はい: ページ コンテンツを変更、並べ替え、または絞り込みます」の方を選びましょう。

?q=adsense」のときは、ページ内検索に「アドセンス」関連の記事が並びました。
?q=ブログ」のときは、ページ内検索に「ブログ」という単語が含まれる記事が並びました。
つまり、URLパラメーターのキーワードによって、表示される内容が変わりました。

キーワードによって表示内容が変わる=「コンテンツを変更」なので、
はい: ページ コンテンツを変更、並べ替え、または絞り込みます」に該当します。

このパラメータがページのコンテンツに与える影響を選択してください。

このパラメータがページのコンテンツに与える影響を選択してください。」の項目には以下の6つの選択肢があります。

  • 並べ替え
  • 絞り込み
  • 特定
  • 翻訳
  • ページ指定
  • その他

特定」を選びましょう。

「?q=」の後ろに続く単語によって、サイト内検索の検索結果に表示すべきキーワードを指定しているので「特定」にあたります。

並べ替え」は、グルメサイトなどで「?sort=asc」なら点数の高い順、「?sort=des」なら点数が低い順にお店の情報を並べ替える、そういうパラメータについて「クロール禁止」の設定をするときに選びます。

絞り込み」は、グルメサイトなどで「?star=3」なら星3つ以上のお店だけを表示するみたいなときに使います。

翻訳」は、「?lang=ja」だったら日本語版のページを表示、「?lang=en」だったら英語版のページを表示、みたいな仕組みのサイトで使います。

このパラメータを含む URL のうち、Googlebot でクロールする URL を選択してください。

このパラメータを含む URL のうち、Googlebot でクロールする URL を選択してください。」の項目は、

  • クロールしない(Googlebot からコンテンツを隠すことができます。パラメータの他の設定よりも優先されます)

を選びましょう。

URLパラメータ、設定完了後の画面

Google Search Console、URLパラメータ追加後

Google Search Console、URLパラメータ追加後

設定が終わると

「q、~~~、特定、クロールしない」という行が一覧に追加されます。

サイトの設定によっては、サイト内検索の機能がそもそもなかったり、サイト内検索があってもURLパラメーターが「q」ではなかったりするかもしれません。
その場合は、適宜自分の環境に読み替えて設定してください。

replytocomにURLパラメーターを設定

このサイトはWordPressを使っています。

WordPressでは、記事にコメントがつくと、

  • ttps://u-ff.com/crawl-budget/?replytocom=162

のようなURLが生成されます。
?replytocom=162」の部分を使って、コメントの返信先を制御しています。

しかし、記事の内容としては以下の2つのURLは全く同じです。

  • ttps://u-ff.com/crawl-budget/
  • ttps://u-ff.com/crawl-budget/?replytocom=162

そこで、「replytocom」についてはクロールしないように、
Google Search Consoleの「URLパラメータ」で設定します。

設定の仕方は、
パラメータ(大文字と小文字を区別)」の項目に
「q」ではなく
「replytocom」と入力するくらいで、
それ以外の項目は、前述の「q」のときと同じです。

設定項目をおさらいすると、以下のようになります。

  • パラメータ(大文字と小文字を区別)
    • 「replytocom」
  • このパラメータで、ユーザーに表示されるページ コンテンツが変化しますか?
    • 「はい: ページ コンテンツを変更、並べ替え、または絞り込みます」
  • このパラメータがページのコンテンツに与える影響を選択してください。
    • 「特定」
  • このパラメータを含む URL のうち、Googlebot でクロールする URL を選択してください。
    • 「クロールしない(Googlebot からコンテンツを隠すことができます。パラメータの他の設定よりも優先されます)」

このように設定することにより、

  • ttps://u-ff.com/crawl-budget/

というURLはGoogleにクロールされるけど、

  • ttps://u-ff.com/crawl-budget/?replytocom=162

というURLはGoogleからクロールされなくなります。

まとめ

URLの後ろの方にある「?」の部分をURLパラメーターと呼びます。

サイト内検索や、ページ指定など、URLパラメーターのせいで、URLに無限のバリエーションが発生してしまう可能性があります。

そのため、Googleの検索結果に表示する必要のない「パラメーター付きURL」に対しては、クロールを禁止する設定にしておきましょう。
Google Search Consoleの「URLパラメータ」という機能から設定ができます。

ちなみに、robots.txtというものを使っても似たような設定ができます。
robots.txtは、Google Search Console側ではなく、ブログ側で設定します。

わたしは、robots.txtを主に使っているので、Google Search Consoleの「URLパラメータ」の方はあまり使っていません。

robots.txtの設定方法については、こちらの記事をご覧ください。

Google Search Console、robots.txtでクロールを禁止する方法
replytocomをクロール禁止にしたい Google Search Consoleで、 インデックス > カバレッジ > 除外 を確認すると、以下のようなURLが多数インデックスから除外されていました。 ttps://u-ff.com/...

コメント

タイトルとURLをコピーしました