検索エンジンスパム
検索エンジンスパム(けんさくエンジンスパム、英:spamdexing)とは、Google検索やYahoo! 検索等の検索エンジンで自身のウェブサイトが検索結果の上位に表示させるように、何らかの仕掛けをすること、および施されたウェブページをいう。こと検索エンジンから所定サイトへ、不適切に誘導されたケースにおいてこのように表現される。なお、ランチョンミートのスパム(SPAM)とは大文字小文字の綴りの相違。
概要
編集ウェブサイトに仕掛けをする事で、検索サイトでのウェブ検索経由で、特定のウェブサイトやウェブページへ多くのアクセスが見込める一方で、検索結果に無関係な条件まで表示されるようにすることはネチケット(一種のマナーないし道徳や公序良俗)に反する行為とされる。
検索エンジン側でも利用者が望む情報へのリンクを提供するために、関係無い内容のウェブページは除外する仕組みを開発して導入を進めている。この場合、検索エンジン提供側の信用にもかかわり、こと検索サイトが利用者に信用され利用者数を伸ばすことで収益を上げる関係上、その仕組みを破る検索エンジンスパムは営業妨害となるためである。しかしそういった検索エンジンスパムを除外する機能を回避することを試みる者もおり、いたちごっこが続いている。詳細は対策を参照。
出会い系サイトや通信販売・アフィリエイト関係などの業者のほか、個人のウェブサイトでも閲覧数を増やそうとして導入する者がいるが、こと目的外のサイトへ誘導されたウェブサイト閲覧者からは不当な誘導だとみなされる一方で、検索サイト側からは、こういった仕組みを多用しすぎているとみなしたサイトに対して、検索エンジンスパムとしてグーグル八分など強制的に検索結果から除外することもある。
例
編集以下の例は、あくまでも可能性があるということを書いているものであり、実際の検索結果を反映させたものではない。
文章によるもの
編集検索の際に用いられるキーワードには特定の方向性があり、ある人気商品の商品名やタレント・アイドル・芸能人の名前などは関連ニュースが報じられる度に検索頻度が上がる傾向が見られる。また日常生活で必要とされる各種情報に絡む言葉も検索の際に多く用いられる。
インターネットでは関心のある事象を、それこそ公式サイトや専門情報サイトから、根も葉もない噂レベルまでもが、検索サイトの機能を通じて見ることが可能であるが、これら検索キーワードを多く含む文章は、それだけ様々な人から閲覧される可能性が出てくる。特にトップページ(→ホームページ)やindex.htmlにそれらキーワードが出てくる場合などには、検索エンジン側で「その情報を専門に扱っているサイト」として集計ポイントを多く与えるなどの傾向が在り、このポイント数の多いサイトほど検索上位に表示する所も見られる。
検索エンジンスパム行為では、このような「よく検索されるであろうキーワード」を文章中にちりばめたり、意味も無く陳列させる事で、検索上位に食いこもうとする。極端な例では、著名人や有名人の名前を列記しただけのページをトップページに持ってきて、開いた途端に別のページへと自動的に誘導したりする(後述:1ページサイト)。そこまで行かなくとも、トップページに長々と文章が書き綴られているサイトでは、様々なキーワードが幾度も出てくる事になり、検索サイトがわのクローラには「該当キーワードの多く含まれる関係する情報が多そうなページ」に集計されやすくなる(通常の文章中に、特定のキーワードが繰り返し出てくることは、かえって普通でもあるため、スパム行為になるかどうかの境界はあいまいである)。
なお商業サイトによっては、これら行為を検索エンジンマーケティング(Search Engine Marketing:SEM)と称しており、またこれら行為は特に違法でも無いために大々的に行われる傾向がある事すら否めない。しかし一般のインターネット利用者の側から見れば、特に何かを買うつもりも無いのに商用サイトへと誘導されれば、それなりに不快感を与えかねない。このため中にはこの手法を利用している事を悟られないように隠蔽したりするケースも見られる。
なおこの問題は検索サイト側のシステムを逆手に取った行為では在るものの、違法ではない上に積極的かつ無差別にメッセージを送信する迷惑メール行為程にはインターネット利用者の不快感を煽らない・もしくはその存在を知られていないため、同行為をインターネット・コミュニティ上で忌避される行為とは知らずに、もしくは「問題無い手法だ」と言い張って行う向きも見られ、一般の利用者と、同行為を行う側の軋轢を生んでいる。
ソースコードによる方法
編集文章によるものとは別に、一見何も無いページに見えるが、HTMLなどのソースコードに細工を施す事で、検索エンジンへの働き掛けを行うケースもある。
上記トイレットトレーニングを例とすると、背景と全く同じ色で検索キーワードを「隠しテキスト」として記述する(そのまま見えないが、文字を反転させたりソースコードを見れば分かる)方法や、非常に小さな画像に説明文を埋め込む・検索エンジンが目安とするmetaタグ内にキーワードを埋め込む方法などがある。
以下にその例の一部を挙げる。本来なら検索キーワードに入れるワードを含まず、関係ないものを意図的に検索させており、悪質である。
metaタグによるもの
編集metaタグは検索エンジンが参照し、その内容を評価するのに利用する。
<html> <head> <title>まるちーずのぺーじ</title> <meta name="robots" content="(ここは検索エンジンで表示するので意図的に省いてある)"> <meta name="keywords" content="子,育,保育,トイレ,トレ,おねむ ,1歳,2歳,3歳,4歳,子育て,(などの文字列)"> </head> |本文 </html>
また上に挙げた文章によるものにも関連するが、検索エンジンに働き掛けやすい文章を、人には読ませないように隠す(検索エンジンスパムによる不快感を与えないようにする)行為も見られる。
隠しテキストによるもの
編集文字と背景を同じ色にする。
<html> <head> <title> はむのぺーじ</title> </head> <body bgcolor="white"> <font color="white"> 子,育,保育,トイレ,トレ,おねむ ,1歳,2歳,3歳,4歳,(など大量の文字列)" </font>(ここまでが検索エンジン用キーワード) <font color="blue"> |本文 </html>
文字を極端に小さくする。
<html> <head> <title>はむのぺーじ</title> </head> <body bgcolor="white"> <div style="font-size:1px"> 子,育,保育,トイレ,トレ,おねむ ,1歳,2歳,3歳,4歳,(など大量の文字列) </div>(ここまでが検索エンジン用キーワード) <font size="3"> |本文 </html>
この他にも、画像の説明中に検索キーワードを意識した文章を隠す方法もある。
<html> <head> <title>はむのぺーじ</title> </head> <body bgcolor="white"> <img src="xxxxxx.jpg" height=1 width=1 border="0" alt=" ハムスター,はむ,ペット,子,育,保育,トイレ,トレ ,1歳,2歳,3歳,4歳,(など大量の文字列)"> <font color="blue"> |本文 </html>
他にもスタイルシートを使用した方法などがある。
リンクページの大量生産
編集ある特定のキーワードを含むページからリンクされているサイトは、検索サイトの集計ポイント上で「参考になる情報があるために、様々なページからリンクされているサイト」と認識されやすい。これを逆手にとって、無料のホームページスペースを大量に取得して、自サイトへとリンクを貼る者がいる。
これは本格的なスパマー(迷惑メール送信者:spammer)に見られた手口(SEOスパム)であるが、これらでは自動化された無料ホームページスペースのアカウント取得スクリプトを用いて複数ホームページを作成、これらに片っ端から同じページを1枚だけアップロードして、自サイトへと集中的にリンクを貼らせる。このような方法では、かつて防止策が無かった頃には、数百から数千と言った単位でこの1ページサイトが乱立していたという。
現在、このような1ページサイトはスパマーの迷惑行為防止の点で「自動化できないように、ホームページスペース取得手順に画像に書かれた文字や記号を読ませて承認する」という方法を導入する一方、無差別に作られたと考えられるようなサイトを探し出して、または利用者からの報告を受けてはアカウントごと削除する活動が続けられている。また、検索エンジン側でもこのようなサイトをドメインごと検索で引っかからないようにするといった対策も行われている。
コンテンツファーム・コンテンツミル
編集SEO(検索エンジン最適化)目的で価値の低いコンテンツを安価に量産しているWebサイトをコンテンツミル(英語: Content Mill)、このような低品質なコンテンツをコンテンツファーム(英語: content farm)という。アメリカのDemand Mediaは、独自のアルゴリズムでユーザーの「需要」を解析し、それに合う記事や動画をフリーランサーに大量に作らせ、検索エンジンでの露出を最大化し、ウェブ広告で収入を得るというビジネスを行った。これらのコンテンツの質は低かったが、「記事自体に検索されやすいキーフレーズを用いていたり、検索エンジンに評価されやすい仕組みを備えている」ため、Googleの検索上位を占め、Googleはユーザーから、検索の質や関連性が低下していると指摘されるようになった。Googleは低品質な記事への対策として、パンダアップデート(Google Panda)を実施した[1]。
日本ではDeNAのヘルスケア情報キュレーションサイト(まとめサイト)「WELQ」(ウェルク)において、不正確な内容や著作権侵害のおそれのある医療記事が大量に存在するという問題に端を発し、DeNAの他のキュレーションサイトでも、無断転用・リライトの懸念もある大量のコンテンツを外注することで、低品質で内容に問題のあるコンテンツが検索上位を占めているという問題が明らかになった。これはDeNAだけでなく、リクルートホールディングス、サイバーエージェントなども同様の問題があり、自社のまとめサイトの一部の記事の公開を停止した[2]。SEMリサーチの渡辺隆広は、Googleの検索はDeNAがキュレーションサイトで行ったような、クラウドソーシングを活用して記事を乱造するというスパム的手法にひどく弱く、クラウドソーシングがスパムを支える構造になっていると指摘している[3]。
記事はクラウドソーシングで外注されており、2016年12月に、クラウドソーシング事業を行うランサーズ、クラウドワークスは、企業がライターに依頼する際に、記事の無断転用やリライトを禁止する指針を公表した[4]。
一連のキュレーションサイトの騒動では、このような問題の多いメディアに広告を出していた企業や広告代理店も問題視されている[5]。
対策
編集検索エンジン運営者
編集このようなページはグーグル八分とされ、特定のウェブサイトが検索用のインデックスから完全に削除されてしまい、GoogleやYahoo!などにおいて一切検索結果から出なくなる。しかし、文章による方法ではどれが検索エンジンスパムなのかの区別が付きにくく、付いたとしてもGoogleやYahoo!などにおいても全てを把握するのは困難であり完全な対策は出来ていない。
しかし中には違法性のある商品・サービスを提供するサイトなどがこの手法を導入することで検索サイトに働き掛けるケースもあることから、先に挙げたグーグル八分のみならず、他の検索サイトでも定期的に問題のあるサイトのキャッシュ(検索サイト側が持つ検索情報)を検索して削除する活動が行われている。
過去にはGoogleで「(東京都)○×区の歴史」と検索すると23区の何処の区名で検索してもポルノサイトが上位に来る事態が発生し、2004年5月12日に警視庁より連絡を受けたGoogleがこれを強制的に排除している[6]。
また、MSNでは2004年11月8日に爆弾の製造方法や自殺系サイトのキャッシュを携帯電話向けのサービスから除外するなど、従来では検索品質(情報の精度)以外には責任を持たなかったロボット検索エンジンでも、その検索結果の内容に責任を持ってあたる傾向が生まれている。
検索エンジン利用者
編集検索に際して検索キーワードを工夫する(除外キーワードの利用など)。例えばGoogleやYahoo!などの主要検索サイトでは“-”記号(ハイフン)に続けてキーワードを入力すると、そのキーワードを含むページを除外して検索してくれる。年齢や住所などアラビア数字を含むキーワードの場合はキーワードが分解(例:「20歳」→「20」と「歳」に分解)してしまうので、半角“""”記号の中にキーワードを入れることによってフレーズとして分解を阻止させることも出来る。
他の検索サイトでも、「検索オプション」などから複数のキーワード入力欄に、それぞれ「含まれる」・「含まれない」・「双方が含まれる」等の細かい指定を行う事が可能となっており、そのような仕組みを利用することが奨められる。
Google Chrome拡張機能
編集以上のように利用者にとって取れる具体的な対策は、検索時に、利用者が不適切と考える発信元サイトについて「-(マイナス)」、「-site:」等の検索演算子を利用すると言った事がせいぜい可能なことであり、後は利用者の判断力に任されているのが現状であった。
Googleは2011年、コンテンツファーム対策の一環として、Google Chrome上での検索結果から、個別のユーザーが不適切と考える検索結果をドメイン単位で排除できる拡張機能「Personal Blocklist(by Google)」をリリースしたことがある[7][8][9]。ただし2021年現在では公開が終了しており、使用することはできなくなっている。
この機能はPC上のGoogle Chromeだけで動作する。スマートフォン版は2017年現在もリリースされていない。
脚注
編集出典
編集- ^ 渡辺隆広 (2011年1月31日). “Googleが指摘する"コンテンツファーム"とは? Demand Mediaのコンテンツミル問題 (中編)”. SEMリサーチ. 2016年12月10日閲覧。
- ^ 福田直之 藤崎麻里 (2016年12月6日). “まとめサイト閉鎖、大手に飛び火 背景に収益優先の構図”. 朝日新聞. 2016年12月10日閲覧。
- ^ 渡辺隆広 (2016年12月1日). “DeNA WELQ と検索技術の課題”. SEMリサーチ. 2016年12月10日閲覧。
- ^ 藤崎麻里 (2016年12月8日). “DeNA問題でクラウドソーシング大手が新指針”. 朝日新聞. 2016年12月10日閲覧。
- ^ よっぴー (2016年12月9日). “炎上中のDeNAにサイバーエージェント、その根底に流れるモラル無きDNAとは”. Yahoo!ニュース 個人. 2016年12月10日閲覧。
- ^ “Googleがエロサイトによる地名を使ったインデックス汚染に対処”. スラド. (2004年5月14日)
- ^ “Google検索結果の悪質なサイトを非表示&通報し検索品質アップに貢献できるGoogle公式Chrome拡張機能「Personal Blocklist」”. Gigazine. (2016年11月29日)
- ^ “New: Block Sites From Google Results Using Chrome’s “Personal Blocklist”” (英語). Search Engine Land. (2011年2月14日)
- ^ “New Chrome extension: block sites from Google’s web search results” (英語). (2011年2月14日)