Google Search Console、除外されたページとは?
「除外されたページ」とは、Googlebotにクロール(巡回)されたけど、インデックスされなかったページのことをいいます。
つまりはGoogleが
「このページは不要」
「このページはGoogleの検索結果に表示する価値がない」
と判断したということです。
除外されたページは、Googleの検索結果に表示されません。
Google Search Console、除外されたページを確認する方法
Google Search Consoleから、自分のサイトのどのページが除外されたのかを確認することができます。
Google Search Consoleへ未登録の人は、まずは登録を行いましょう。
以下の記事に登録方法が説明してあります。
インデックス > カバレッジ > 除外
Google Search Consoleの管理画面で、左端にある項目の中から
インデックス > カバレッジ
を選びます。
最初は「エラー」の所にチェックが入っていると思いますが、
「除外」の方にチェックを入れ、「エラー」のチェックは外しましょう。
今日の本題ではないですが、もしも「エラー」が「0」以外の数字になっていたら最優先で対処した方がいいです。
「除外」は、必須ではないが気にした方がいい、努力目標のようなものだと思ってください
グラフの下には以下のような項目が並んでいます。
- noindex タグによって除外されました
- クロール済み – インデックス未登録
それぞれの項目をクリックすると、除外された具体的なURLを確認できます。
noindex タグによって除外されました
インデックス > カバレッジ > 除外
の画面で
「noindex タグによって除外されました」
をクリックすると、上記のような画面になります。
これは、ページにnoindexが設定してある場合に発生します。
noindexというのは、ページのHTMLソースコードに以下のような記述がしてあるということです。
<meta name='robots' content='noindex'/>
ページが除外されるまでの流れ
以下のようなステップで除外が行われています。
- Googleがページをクロールする
- クロールした結果、ページの中にnoindexの設定を発見する
- Googleの検索結果には表示しない(インデックスしない)ことが決定される
(「noindex タグによって除外されました」に分類)
ページの中にnoindexの設定がしてあるということは、
「このページはGoogleの検索結果に表示する必要はありません」
と、ブログ側で自ら宣言しています。
「noindex タグによって除外されました」のページには、グラフの下にURLの一覧が表示されています。
これらのURLをいくつか開き、どのようなページか除外されているのかを各自で確認しておきましょう。
必要なページがnoindexになっている
ページを実際に開いて確認してみたら、普通の記事ページだったとしましょう。
「noindex タグによって除外されました」に分類されているということは、
「インデックスが必要なページ」なのに、noindexの設定を適用してしまっています。
その場合は、Google Search Console側の問題ではなく、サイト側で何かしらの設定をミスしている可能性が高いです。
ブログ側に、noindexのオン/オフを切り替えるような仕組みがあるはずです。
Googleの検索結果に表示させたいページには、以下のようなメタタグが出力されないように設定を変更しましょう。
<meta name='robots' content='noindex'/>
このメタタグが出力されるページは、Googleにインデックスしてもらえません。
(検索結果に表示されません)
不要なページがnoindexになっている
- ttps://u-ff.com/korona-kannikensakitto-part1/?replytocom=64
上記のURLを開くと、普通の記事ページが開きます。
一見するとGoogleにインデックスされるべきページのように見えるのですが、インデックスは不要なページです。
実は
- ttps://u-ff.com/korona-kannikensakitto-part1/
というURLとまったく内容が同じです。
「?replytocom=64」なしの方にはnoindexは設定されていません。
「?replytocom=64」ありの方にだけnoindexが設定されています。
つまり、
- ttps://u-ff.com/korona-kannikensakitto-part1/
だけがGoogleの検索結果に表示される(インデックスされる)ように、WordPressが意図的に管理をしています。
そのため、
インデックス > カバレッジ > 除外
「noindex タグによって除外されました」
の画面に、
- ttps://u-ff.com/korona-kannikensakitto-part1/?replytocom=64
というURLが表示されているのは、正常な動作です。
ただし、
- Googleがページをクロールする
- クロールした結果、ページの中にnoindexの設定を発見する
というステップが必要なので、クロール自体は発生しています。
クロールバジェットを節約するためには、クロール自体を禁止するような工夫が必要になります。
クロールバジェットの話はこちら。
クロール済み – インデックス未登録
インデックス > カバレッジ > 除外
の画面で
「クロール済み – インデックス未登録」
をクリックすると、上記のような画面になります。
これは、Googleがそのページをクロールした結果、価値のないページだと判断した場合に発生します。
ページが除外されるまでの流れ
以下のようなステップで除外が行われています。
- Googleがページをクロールする
- クロールした結果、ページの内容が薄いと判断
- Googleの検索結果には表示しない(インデックスしない)ことが決定される
(「クロール済み – インデックス未登録」に分類)
「クロール済み – インデックス未登録」とは?
「クロール済み – インデックス未登録」に分類されたページは、Googleに「不要なページ」だと判断されたURLです。
「noindex タグによって除外されました」よりも、
「クロール済み – インデックス未登録」の方がやや深刻です。
「noindex タグによって除外されました」に分類されたものは、ブログ側で自主的に
「このページはGoogleの検索結果に表示する必要はありません」と宣言したものでした。
基本的には問題はないと考えてOKです。
しかし、「クロール済み – インデックス未登録」の方は、ブログ側で自主的にインデックスを辞退したわけではありません。
Google側から戦力外通告を言い渡されてしまったページです。
わたしのサイトの場合は、記事のページのURLのうしろに
- /feed/
- /feed/atom/
をつけたものが大量に「クロール済み – インデックス未登録」に分類されていました。
コメントフィードのXML
「クロール済み – インデックス未登録」に分類されていた
- ttps://u-ff.com/wordpress-sidebar-too-long/feed/
というURLを開いてみました。
すると、中身はHTMLのページではなく、XMLページでした。
タイトルが
「WordPress、サイドバーが下に伸びて余白ができてしまったときの対処方法 へのコメント」
となっています。
これは、
「WordPress、サイドバーが下に伸びて余白ができてしまったときの対処方法」
という記事のコメントフィードと呼ばれるものです。
フィード、コメントフィードとは?
フィードは、RSSとも呼ばれます。
ブログには、「購読する」「読者になる」のような仕組みがよくあります。
お気に入りのサイトを「読者登録」をしておくと、
「○○ブログが更新されました」
「新着記事があります」
のようなお知らせを受け取ることができます。
これは、RSS(フィード)のおかげで動いています。
ブログ側で記事を更新すると、自動的にRSSも更新されます。
RSSが更新されると、読者の所に「更新しました」という通知が届きます。
そして、「コメントフィード」というのはこれのコメント版です。
誰かのブログにコメントを書き込んだ場合、しばらくすると、
「あなたのコメントに返信がつきました」
のようなお知らせがくることがあります。
コメントがつくとコメントフィードのRSSが更新されて、それがコメントした人にも通知される。
だいたいこんな感じの仕組みです。
(通知がこなかったり、RSSとは別の仕組みで通知を送っていたりすることもありますが、それはブログ側の設定によります)
「クロール済み – インデックス未登録」、コメントフィード
- ttps://u-ff.com/wordpress-sidebar-too-long/feed/
上記のURLが「クロール済み – インデックス未登録」に登録されています。
このURLをブラウザで開くと、以下のような画面になります。
上記のページは、Googleの検索結果には表示する必要のないものです。
Googleが
「Google検索結果に表示する必要のないもの」
と判断したので、
インデックス > カバレッジ > 除外
「クロール済み – インデックス未登録」
に分類されている状態です。
ブログ管理者の自分から見ても、コメントフィードは
「Google検索結果に表示する必要のないもの」
です。
つまり、インデックスする必要のないものが、なるべくしてインデックス除外されています。
Googlebotさんて賢い。
コメントフィードのように、インデックス不要なことが初めから分かっているのならば、
<meta name='robots' content='noindex'/>
を設定して、ブログ側で明確にnoindexを宣言した方がいいです。
しかし、XMLページにはmetaタグを設定できません。
metaタグが使えない場合は、X-Robots-TagというのをHTTPヘッダーに設定してやると、noindexにできます。
しかし、技術的にはだいぶ上級者向きです。
「クロール済み – インデックス未登録」は、努力目標みたいなもので、改善が必須ではない場合が多いです。
コメントフィード(/feed/や/feed/atom/)に関しては、とりあえず放置でいいと思います。
コメントフィード系以外で
「クロール済み – インデックス未登録」
になっているものがあれば、なぜインデックス未登録になっているのか確認した方がいいでしょう。
たとえば、記事の文字数が少なすぎてGoogleから
「検索結果に表示するのにふさわしくないページ」
だと判断されていたりするかもしれません。
このサイトの場合は
https://u-ff.com/follower-suu-hyouji/
というURLが「クロール済み – インデックス未登録」になってしまっています。
おそらくですが、
- 記事のタイトルだけ書いた状態で間違って投稿ボタンを押してしまった
- このタイミングでGoogleのクローラーがやってきた
- 本文が空なので「無意味なページ」として「クロール済み – インデックス未登録」に分類された
こんな感じでしょうか?
心当たりがあるような、ないような…
ちなみに今は
https://u-ff.com/follower-suu-hyouji/
の記事もインデックスに登録されています。
「ブログの信頼性アップ、画面の右上にフォロワー数を表示しよう」
で検索すると、Googleの検索結果にちゃんと表示されます。
Google Search Consoleの管理画面上では、4月6日時点で、
「クロール済み – インデックス未登録」のURL一覧に
https://u-ff.com/follower-suu-hyouji/
が表示されたままです。
でも、インデックスはされている状態です。
Google Search Consoleの表示に反映されるまでにはタイムラグがあるようです。
まとめ
Googleのインデックスに登録してもらえなかったページの一覧を確認できます。
Google Search Consoleから、
インデックス > カバレッジ > 除外
の画面を開き、
- noindex タグによって除外されました
- クロール済み – インデックス未登録
を確認しましょう。
基本的には、除外されるべくして除外されたページが多いです。
その場合は、特に対策はしなくてもOK。
「Googleの検索結果に表示して欲しいページ」なのに、「除外」に分類されている場合は、原因を究明して対策をしたほうがいいでしょう。
コメント