URL の削除について、パート I: URL とディレクトリ

2010 年 3 月 30 日(火曜日)

現在、インターネットには大量のコンテンツがあります。ときには、公開すべきでなかったと後で悔やむようなコンテンツをオンラインで公開してしまうことがあります(ブログ投稿が炎上した場合や、機密データを誤って開示した場合など)。ほとんどの場合、このようなコンテンツは、削除するかアクセスを制限すれば、そのうち自然に検索結果から消滅します。しかし、Google がインデックスに登録した望ましくないコンテンツを緊急に削除する必要があり、自然に消滅するのを待てない場合は、特定の条件(下記で詳述)を満たしていれば、Google の URL 削除ツールを使用して検索結果から速やかにコンテンツを削除できます。

Google は、さまざまな種類のコンテンツを適切に削除する方法と、避けるべきよくある誤りについて説明した一連のブログ投稿を提供しています。この第 1 回投稿では、いくつかの基本的なシナリオについて説明します。具体的には、単一の URL を削除する方法、ディレクトリまたはサイト全体を削除する方法、削除したコンテンツを再登録する方法をご紹介します。あわせて、オンラインで利用可能な情報の管理について説明した以前の投稿をお読みになることを強くおすすめします。

単一の URL を削除する

一般的に、削除リクエストが成功するためには、問題の URL の所有者(自分自身または他の人)が、該当のコンテンツを削除しても問題ないことを示している必要があります。個別の URL の場合は、次の 3 つの方法のいずれかでそれを示すことができます。

削除リクエストを送信する前に、URL が正しくブロックされているかどうかを確認できます。

  • robots.txt: Fetch as Googlebot か、ウェブマスター ツールの robots.txt のテスト機能を使用して、URL が正しくブロックされているかどうかを確認できます。
  • noindex meta タグ: Fetch as Googlebot を使用して、meta タグが <head> タグと </head> タグの間のどこかにあることを確認できます。ウェブマスター ツールで検証できないページをチェックしたい場合は、ブラウザで URL を開き、[表示] > [ページのソースを表示] に移動して、<head> タグと </head> タグの間に meta タグがあることを確認します。
  • ステータス コード 404 および 410: Fetch as Googlebot か、ライブ HTTP ヘッダーweb-sniffer.net などのツールを使用して、URL が実際に正しいコードを返すかどうかを検証できます。「削除された」ページは「404」または「見つかりません」というメッセージを表示する場合がありますが、実際はページヘッダーにステータス コード 200 を返します。したがって、適切なヘッダー チェックツールを使用して入念にチェックすることをおすすめします。

望ましくないコンテンツをページから削除しても、上記の方法のいずれかでページがブロックされていなければ、Google の検索結果からその URL を完全に削除することはできません。これは、自身がそのコンテンツをホストしているサイトの所有者でないときによくあります。この状況に対処する方法については、次回の投稿である「URL の削除について」シリーズのパート II で説明します。

URL が上記の条件のいずれかを満たしている場合は、削除ツールに移動し、削除したい URL を入力して [ウェブマスターがすでにページをブロックしています] オプションを選択することにより、その URL を削除できます。なお、コンテンツが表示されている Google 検索の URL ではなく、コンテンツがホストされていた URL を入力する必要があります。たとえば、https://www.google.com/search?q=embarrassing+stuff ではなく、https://www.example.com/embarrassing-stuff.html と入力します。

適切な URL を入力していることを確認する方法について詳しくは、ヘルプセンター記事をご覧ください。問題のある正確な URL を Google に伝えなければ、Google は対象のコンテンツを削除できないことにご注意ください。

ディレクトリまたはサイト全体を削除する

ディレクトリまたはサイト全体の削除が成功するためには、サイトの robots.txt ファイルで、そのディレクトリまたはサイトが不許可になっている必要があります。たとえば、https://www.example.com/secret/ ディレクトリを削除するには、robots.txt ファイルに次の行を含める必要があります。

User-agent: *
Disallow: /secret/

ディレクトリのルートがステータス コード 404 を返すだけでは不十分です。ディレクトリが 404 を返しても、その下にあるファイルが引き続き配信される可能性があるからです。robots.txt を使用してディレクトリ(またはサイト全体)をブロックすると、そのディレクトリ(またはサイト)の下の URL もすべてブロックされます。Fetch as Googlebot か、ウェブマスター ツールの robots.txt のテスト機能を使用すると、ディレクトリが正しくブロックされているかどうかをテストできます。

ウェブマスター ツールでサイトまたはディレクトリ全体の削除をリクエストできるのは、サイトの確認済み所有者だけです。ディレクトリまたはサイトの削除をリクエストするには、該当のサイトをクリックして、[サイト設定] > [クローラ アクセス] > [URL を削除] に移動します。削除したい URL としてサイトのルートを入力すると、サイト全体を削除したいかを確認するメッセージが表示されます。サブディレクトリを入力する場合は、プルダウン メニューから [ディレクトリを削除] オプションを選択します。

コンテンツを再登録する

自身が所有するサイトに対する削除リクエスト(他の人が送信したリクエストも含む)は、いつでもキャンセルできます。キャンセルするには、ウェブマスター ツールでサイトの確認済み所有者であることが必要です。所有権を確認したら、[サイト設定] > [クローラ アクセス] > [URL を削除] > [削除済み URL](または > [他のウェブマスターからのリクエスト])に移動し、キャンセルしたいリクエストの横にある [キャンセル] をクリックします。

ご不明な点がある場合は、Google の検索結果からコンテンツを削除する方法について説明しているこのシリーズの他の投稿をご覧ください。お急ぎの場合は、ヘルプ フォーラムをご覧ください。URL の削除や個別のトラブルシューティング ケースに関する記事が多数掲載されています。他の人の体験を読んでもまだ不明な点がある場合は、お問い合わせください。ほとんどの場合、問題のサイトまたは URL についてよく知らなければ、特定の削除について適切なアドバイスを得ることは困難です。質問を投稿する際は、問題があると思われる URL がインデックスに登録されないようにするため、URL 短縮サービスを使用して URL を表記することをおすすめします。一部の短縮サービスでは、問題が解決した後でショートカットを無効にすることもできます。

オンラインで利用可能な情報の管理もお読みになることをおすすめします。