2020 年の Google の検索スパム対策

2021 年 4 月 29 日（木曜日）

Googlebot とスパイダーの友人が 2020 年のウェブスパムレポートを読んでいる

Google 検索は、オープンウェブで有益な情報を見つけるのに便利なツールですが、残念なことに、すべてのウェブページが善意で作成されているわけではありません。ユーザーを騙す意図が明確に見て取れるページは少なくありません。そして、これらに日々立ち向かうのも私たちの仕事です。ユーザーの安全を確保し、有害なコンテンツや悪意のある行動から検索エクスペリエンスを保護するために、Google 検索は、2020 年も数多くのイノベーションに取り組んできました。

賢いスパム対策

Google は、検索機能を導入した直後からスパム対策に取り組んできましたが、最近の人工知能（AI）の進歩は、このアプローチに革命を起こす大きなチャンスになろうとしています。

脆弱なウェブサイトの数は依然と多く、2020 年もハッキングスパムは相変わらず蔓延していましたが、スパム検出能力を 50% 以上強化したことで、検索結果からハッキングスパムのほとんどを排除できました。

ハッキングスパムは、Google だけでは解決できない問題です。すべてのスパムを検出、防御できたとしても、脆弱性などの抜け道がすべて塞がれるまで、ハッカーは攻撃をやめないでしょう。ウェブサイトの所有者は、適切なセキュリティ対策を講じることでサイトを保護できます。ハッキングされた後にサイトを復旧するよりも、サイトがハッキングされないようにする方が簡単です。Google は、ウェブサイトのハッキングでよく利用される手段と、Search Console を使用してサイトがハッキングされたかどうかを確認する方法について理解するために役立つリソースを用意しています。これらの内容をご覧いただき、安全なウェブ環境を構築しましょう。

昨年は世界的なパンデミックをはじめとする大きな出来事が起こりました。このような重要なトピックに関して数十億もの検索が行われ、検索の保護を強化するために Google では多くの作業を行いました。お近くの COVID 検査所を探しているときに、中身のない誘導用スパムからフィッシングサイトにリダイレクトされてしまうのではという不安があってはなりません。Google ではスパムコンテンツを排除するだけでなく、他の複数の検索チームと協力して、質の高い最新情報を必要なときに必要な場所で提供できるようにしました。

スパム接触防止

Google の検索結果が表示される前に、バックグラウンドではさまざまな処理が行われています。Google は日々、数十億ものウェブページの検出、クロール、インデックス登録を行っています。こうしたページには多数のスパムが存在し、Google では毎日 400 億のスパム行為のあるページを検出しています。ここでは、有益な情報を探しているユーザーの妨げにならないように Google が取り組んでいるスパム対策をご紹介します。

あらゆるステップで講じられているスパム対策 — この図はスパムに対する防御のコンセプトを示しています。

まず、ページやその他のコンテンツをクロールするときにスパムを検出するシステムが実装されています。クロールとは、Google の自動システムがコンテンツにアクセスし、検索結果の表示に使用するインデックスにそのコンテンツを含めるかどうかを検討することです。スパムとして検出されたコンテンツはインデックスに登録されません。

これらのシステムは、サイトマップや Search Console で検出されたコンテンツについても同様に振る舞います。たとえば、Search Console にはインデックス登録をリクエストする機能があり、インデックスに早く登録したほうがよいと思うページがある場合は、この機能を使って Google に知らせることができます。ところが、スパマーが脆弱なサイトをハッキングしてサイトの所有者になりすまし、Search Console で本人確認を行い、このツールを利用してスパマー自身が作成したスパムページのクロールとインデックス登録を Google にリクエストしているケースが確認されました。そこで AI を活用して不審な本人確認を突き止めて、スパム URL がインデックスに登録されるのを未然に防げるようにしました。

また Google には、インデックスに登録されているコンテンツを分析するシステムがあります。このシステムは、ユーザーの検索条件に一致したコンテンツがスパムかどうかを入念にチェックします。スパムである場合、そのコンテンツは検索結果の上位に表示されません。またその情報を活用して、同じようなスパムがインデックスに含まれないようにシステムを改善します。

このように AI を活用した自動システムのおかげで、検索時にスパムが検索結果の上位に表示されることはめったになくなりました。こうした自動システムによって、Google 検索を利用するユーザーの 99% 以上がスパムに遭遇しなくなったと推定しています。残り 1％については手動による対策を実施し、そこから学んだことを教訓に自動システムをさらに改善しています。

スパム以外の脅威からの保護

Google では、2020 年にスパム以外の不正行為からユーザーを保護するための取り組みも強化しました。こうした不正行為の多くは、深刻な経済的、人的損害を引き起こす可能性があります。

2020 年の大きな進展は、保護活動の範囲を広げ、オンライン詐欺や不正行為からもより多くのユーザーを保護したことでした。オンライン詐欺にはさまざまな形があり、悪影響を及ぼす手段も従来のウェブスパムより増えています。たとえば詐欺行為の多くは、人気のあるサービスや商品のカスタマーサポートの電話番号を偽装し、ユーザーに電話をかけさせて銀行振込やギフトカードで支払いを行うよう仕向けます。このタイプの詐欺は一般に「カスタマーサポート詐欺」や「テクニカルサポート詐欺」と呼ばれ、何十万ものユーザーから報告されており、詐欺に遭った場合は何百ドルもの損害を被る可能性があります。

2018 年以降、Google のシステムでは、詐欺の疑いのあるサイトを検出することで、年間何億もの検索を保護することに成功しています。ウェブ上では、キーワードの乱用、ブランドロゴの偽装、ユーザーを誘導する電話番号の記載などにより、低品質の詐欺的なウェブサイトが数多く作成されています。Google のアルゴリズムソリューションにより、こうした詐欺や不正のサイトが検索結果に表示される可能性が低くなりました。検索結果の品質と安全性の確保を目的として、昨年はこのような各種の保護対策がリリースされました。Google の使命は、信頼性の高い検索結果を提供するために課題に立ち向かうことです。また、ユーザーは詐欺に関する最新情報入手することで、ご自身を確実に守ることができます。

AI の進歩が大きく寄与したもう 1 つの側面は、サイトのコンテンツを理解することでした。たとえば、商品レビュー、情報サイト、ショッピングサイトのランキング方法を改善した事例があります。Google 検索は購入前に商品を調査して見つけるのに最適な方法です。そこで、次回の購入時にはもっと役に立つ情報を確実に提供できるように、詳しいデータや有益な情報を掲載しているコンテンツが上位に表示されるようにしたのです。

Google はスパム対策で大幅な進捗を遂げましたが、スパマーはなおも、検出を免れるために新しい技術の開発に意欲的に取り組んでいます。Google では、新しいタイプの不正行為からユーザーを保護するために、常に改善に努めています。外部からの報告が役立つこともあります。最近検索を利用したときに、検索結果が誤解につながるものであったり、詐欺、スパムであると感じたことはあるでしょうか。これらの不正行為を防ぐための取り組みをさらに強化する必要があると思いますか。その場合は、スパムレポートを使用して、クエリやその他の関連情報とともにフィードバックをお送りください。

Posted by Cody Kwok, Principal Engineer