2020년 Google에서 Google 검색 스팸을 퇴치하는 방법

2021년 4월 29일 목요일

Googlebot과 친구 스파이더가 2020년 웹스팸 보고서를 읽는 모습

Google 검색은 오픈 웹에서 유용한 정보를 쉽게 찾을 수 있는 강력한 도구입니다. 안타깝게도 모든 웹페이지가 선량한 의도로 만들어지지는 않습니다. 사이트 중 상당수가 명백히 사람들을 속이기 위한 목적으로 만들어졌으며, Google은 악성 사이트를 퇴치하고자 매일 노력하고 있습니다. 방해가 되는 콘텐츠와 악의적인 행동으로부터 사용자 안전을 지키고 검색 환경을 보호하기 위해 Google 검색에서는 2020년 동안 다양한 혁신에 투자했습니다.

더 지능적으로 스팸 퇴치

Google은 Google 검색 초기 때부터 스팸을 퇴치해 왔지만 최근의 인공지능(AI) 진보로 그 어느 때보다 접근 방식을 혁신할 수 있게 되었습니다.

Google은 스팸에 관한 깊은 지식과 AI를 결합한 결과, 작년에 자체적으로 스팸 퇴치 AI를 빌드할 수 있었고 이 AI는 알려진 스팸 동향은 물론 새로운 스팸 동향까지 믿을 수 없을 정도로 효과적으로 잡아내고 있습니다. 예를 들어 두어 해 전과 비교하면 자동 생성 콘텐츠와 스크랩한 콘텐츠가 포함된 사이트가 80% 이상 감소했습니다.

Google에서 감지 기능을 50% 넘게 개선했고 검색결과에서 해킹에 의한 스팸을 대부분 삭제했습니다. 하지만 2020년에도 여전히 해킹에 의한 스팸이 횡행했으며 아주 많은 웹사이트가 취약한 상태에 놓여 있었습니다.

이는 Google에서 혼자 해결할 수 있는 문제가 아닙니다. Google에서 모든 스팸을 감지하고 막을 수 있더라도 해커는 완전히 끝날 때까지 멈추지 않고 허점을 악용하려 할 것입니다. 웹사이트 소유자는 해킹된 사이트를 복구하는 것보다는 해킹당하지 않도록 조치하기가 더 쉽다는 효과적인 보안 위생을 실천하여 사이트를 보호할 수 있습니다. Google에서는 웹사이트가 해킹되는 가장 일반적인 방법을 이해하는 데 도움이 되고 Search Console을 사용사이트의 해킹 여부를 확인하는 방법을 안내하는 리소스를 제공합니다. 리소스를 자세히 살펴보고 안전한 웹 환경을 함께 지켜나가길 바랍니다.

작년에 전 세계적 대유행을 비롯한 주요 사건이 발생하면서 Google은 보호 범위를 그와 관련된 중요 주제를 검색한 수십억 건 사례로 확대하기 위해 상당히 노력했습니다. 근처의 코로나19 선별진료소를 찾을 때 의미 없는 스팸으로 연결되어 피싱 사이트로 리디렉션되지 않을까 걱정할 필요가 없습니다. Google은 스팸 콘텐츠를 없애는 것 외에도 우수한 최신 정보를 가장 필요한 시점과 위치에서 얻을 수 있도록 다른 여러 Google 검색팀과 협력했습니다.

스팸 차단

Google에 검색결과를 제공하기 전에 많은 작업이 보이지 않는 곳에서 이루어집니다. Google에서는 매일 웹페이지 수십억 개를 살펴보고, 크롤링하고, 색인을 생성합니다. 그중 상당수가 스팸으로, 매일 스팸 페이지 400억 개가 발견되고 있습니다. 다음은 사용자가 스팸의 방해 없이 유익하고 유용한 정보를 검색할 수 있도록 하기 위해 Google에서 취하는 방법입니다.

모든 단계에서 스팸을 차단하는 방법
Google에서 스팸을 차단하는 방법을 개념화한 다이어그램

첫째, Google은 페이지나 다른 콘텐츠를 크롤링할 때 스팸을 감지할 수 있는 시스템을 갖추고 있습니다. 크롤링에서는 Google의 자동화 시스템이 콘텐츠를 찾고 검색결과 제공에 사용되는 색인에 그 콘텐츠를 포함할지 고려합니다. 스팸으로 감지된 콘텐츠는 색인에 추가되지 않습니다.

이러한 시스템은 사이트맵과 Search Console을 통해 발견된 콘텐츠에도 적용됩니다. 예를 들어 Search Console에는 색인 생성 요청 기능이 있어 크리에이터가 신속히 추가되어야 새 페이지에 관해 Google에 알릴 수 있습니다. 한 가지 관측된 사례는 스팸 발송자가 취약한 사이트를 해킹해 사이트 소유자로 가장한 채 Search Console에서 신분을 인증하고, 직접 생성한 스팸 페이지를 Google에 크롤링 및 색인하도록 Search Console에서 요청하는 것이었습니다. Google은 AI를 사용하여 의심스러운 인증을 잡아내고 그러한 방식으로 스팸 URL이 Google 색인에 포함되지 않도록 할 수 있습니다.

그다음으로, Google 색인에 포함된 콘텐츠를 분석하는 시스템이 있습니다. 사용자가 검색을 실행하면 일치하는 콘텐츠가 스팸이 아닌지 재확인하는 작업이 진행됩니다. 스팸인 콘텐츠는 상위 검색결과에 표시되지 않습니다. 또한 이 정보를 활용해 스팸이 색인에 포함되는 일이 없도록 시스템을 개선하고 있습니다.

AI가 지원하는 Google 자동화 시스템을 사용한 결과, 사용자가 검색 시 보는 상위 결과에 사실상 스팸이 거의 나타나지 않습니다. 또한 이러한 자동화 시스템 덕분에 Google 검색에서 방문하는 페이지의 99% 이상에서 스팸이 완전히 발견되지 않는 것으로 추정됩니다. 남은 작은 비율을 메우기 위해 Google 팀은 직접 조치를 취하고 그로부터 알게 된 점을 바탕으로 자동화 시스템을 더 개선해 나가고 있습니다.

스팸 이외 항목에서 사용자 보호

스팸 이외 항목에서도 사용자를 보호하는 Googlebot과 친구

2020년에 Google은 스팸 외에도 다른 유형의 악용으로부터 사용자를 보호하기 위해 노력을 확대했습니다. 상당한 재정적 및 개인적 손해를 야기할 수 있는 유형이 많았습니다.

2020년에 Google은 노출 범위를 개선하고 온라인 사기와 불법 행위로부터 더 많은 사용자를 보호하는 데 상당한 진전을 이루었습니다. 온라인 사기는 형태가 다양하며 기존의 웹스팸보다 더 다양하게 부정적인 영향을 줄 수 있습니다. 예를 들어 많은 사기꾼이 인기 있는 서비스 및 제품과 관련한 고객 지원 전화번호를 제공하는 척합니다. 이는 단지 전화를 건 사용자가 은행 송금 또는 기프트 카드를 통해 결제하도록 속이기 위해서일 뿐입니다. 흔히 '고객 지원 사기' 또는 '기술 지원 사기'라고 알려진 이러한 유형의 사기는 신고자가 수십만 명에 이르며 수백 달러의 돈을 잃게 할 수 있습니다.

검색결과에서 표시된 고객 지원 사기 예

2018년도 이후 Google 시스템에서는 사기 가능성이 큰 사이트를 감지하여 한 해에 수억 건의 검색어를 보호할 수 있었습니다. 웹에서 사기꾼은 유인 키워드 반복, 모방한 브랜드 로고 및 사용자가 정화하도록 유인하려는 전화번호를 사용하는 저품질의 웹사이트를 많이 만들려고 했습니다. Google 알고리즘 솔루션에서는 사기와 불법 행위가 검색결과에 표시될 가능성이 거의 없습니다. 이는 검색결과 품질과 안전을 보장하기 위해 작년에 Google에서 실행한 여러 보호 조치 유형 중 하나일 뿐입니다. Google의 사명은 어려움을 제때 처리하여 가장 믿을 수 있는 결과를 사용자에게 제공하는 것입니다. 그와 동시에 사용자가 사기에 관해 알아보고 관련 정보를 놓치지 않도록 해 안전을 더 잘 지킬 수 있도록 하는 것입니다.

사이트 콘텐츠를 이해하는 영역에서도 AI 진보가 큰 도움이 되었습니다. 예를 들어 Google에서 제품 리뷰, 정보, 쇼핑 사이트의 순위를 매기는 방식을 개선하는 데 도움이 되었습니다. Google 검색은 구매 전 제품을 조사하고 찾는 데 유용합니다. Google은 사용자에게 다음번 구매 시 가장 유용한 정보를 제공하고자 보다 세밀한 조사와 유용한 정보를 담은 콘텐츠에 보상을 제공하고 있습니다.

Google이 스팸 퇴치에 상당한 진전을 이루었음에도 스팸 발송자는 Google의 감지를 피할 수 있는 새로운 기술을 적극적으로 개발하려고 합니다. Google은 보호 기술을 개선하고 새로운 악용 유형으로부터 사용자를 보호하고자 늘 노력하고 있습니다. 외부 보고서도 도움이 될 수 있습니다. 최근에 Google 검색에서 속임수, 사기 또는 스팸을 경험했으며 이러한 일을 방지하기 위해 Google에서 더 나은 조치를 취할 수 있다고 생각한 적이 있나요? 그렇다면 스팸 신고를 통해 궁금한 점과 유용할 수 있는 기타 정보를 포함하여 의견을 공유해 주세요.

스팸 퇴치를 위해 사용자와 함께 노력하는 Googlebot