Blog
2007/06/03のBlog
[ 00:35 ]
[ ネットの話題 ]
「AdWords広告への不正クリック 」
16σを叩き出したAdWords広告のクリック率、調査の結果、不正クリックではなかった。
「Ads by Google」というクレジットの無い広告、てっきりAdSenseを利用した不正な広告だと思ったが、Googleの正規の広告であるという返事が、Googleからあった。
AdSense for Domainという広告形態とのこと。ドメインのレジストラや大規模なドメイン名ホルダーに対して許可している広告らしい。
「Sponsored Links」という表示はあるがGoogleの広告であるという表示はどこにもない。さらに、通常のAdSense広告では、クリックしたときに googlesyndicate.comからリファラが送られてくるが、このAdSense for Domainでは、このようなリファラは送られてこない。そのためどの広告会社の広告をクリックしてやってきたのかわからなかった。こういう広告形態があるとは知らなかった。そのため、てっきり不正広告だと思っていた。
さらに調べてみると、オーバーチュア広告でも同様の方式の広告を出していた。こちらは「ドメインマッチ」広告というようだ。これもレジストラやドメイン名ホルダーに広告を表示している。
AdSense for Domainでは、通常のAdSenseと同様にインプレッションをカウントしているとのこと。クリック率の16σという値は、インプレッションをカウントしていないための異常値ではないかと疑っていたが、これもそうではなかった。
としたら、16σというのは一体何が起きたのか。広告が表示されたと思われるドメインは、cn(中国)でクリックのアクセス元はすべて日本からだった。異常なクリック率になった要因はあいかわらず解明できないが、不正クリックじゃ無いということは一応納得した。調査などでGoogleの対応はよかった。(もっとも、オーバーチュアの方が返事は早かったが)。
16σを叩き出したAdWords広告のクリック率、調査の結果、不正クリックではなかった。
「Ads by Google」というクレジットの無い広告、てっきりAdSenseを利用した不正な広告だと思ったが、Googleの正規の広告であるという返事が、Googleからあった。
AdSense for Domainという広告形態とのこと。ドメインのレジストラや大規模なドメイン名ホルダーに対して許可している広告らしい。
「Sponsored Links」という表示はあるがGoogleの広告であるという表示はどこにもない。さらに、通常のAdSense広告では、クリックしたときに googlesyndicate.comからリファラが送られてくるが、このAdSense for Domainでは、このようなリファラは送られてこない。そのためどの広告会社の広告をクリックしてやってきたのかわからなかった。こういう広告形態があるとは知らなかった。そのため、てっきり不正広告だと思っていた。
さらに調べてみると、オーバーチュア広告でも同様の方式の広告を出していた。こちらは「ドメインマッチ」広告というようだ。これもレジストラやドメイン名ホルダーに広告を表示している。
AdSense for Domainでは、通常のAdSenseと同様にインプレッションをカウントしているとのこと。クリック率の16σという値は、インプレッションをカウントしていないための異常値ではないかと疑っていたが、これもそうではなかった。
としたら、16σというのは一体何が起きたのか。広告が表示されたと思われるドメインは、cn(中国)でクリックのアクセス元はすべて日本からだった。異常なクリック率になった要因はあいかわらず解明できないが、不正クリックじゃ無いということは一応納得した。調査などでGoogleの対応はよかった。(もっとも、オーバーチュアの方が返事は早かったが)。
2007/05/31のBlog
[ 23:16 ]
[ 禁煙日記 ]
2007/05/29のBlog
[ 19:59 ]
[ 花と昆虫 ]
2007/05/28のBlog
[ 15:44 ]
[ 花と昆虫 ]
2007/05/27のBlog
[ 23:14 ]
[ 日々の暮らし ]
2007/05/20のBlog
[ 15:05 ]
[ 花と昆虫 ]
2007/05/18のBlog
[ 19:21 ]
[ ネットの話題 ]
「有力なスパム手法にのしあがってきたパラサイトホスティング」という記事がある。
元記事は、Parasite Hosting Now Dominating Spam Results。
パラサイトとは「寄生虫」とか「寄生するもの」などの意味で、この場合、どこかのサイト(ホスト)に寄生して検索エンジンスパムを行うことをいう。
つまり、どこか有名なサイトにこっそりもぐりこんで商品の宣伝ページを作り、検索エンジンをだまして検索結果の上位表示をさせるというものだ。これは、寄生先のドメインが有名な古参のドメインだと検索結果に上位表示され易いという検索エンジンの特性を利用している。
記事によると、寄生先として大学のサイトが狙われているらしい。例えば、Googleでbuy viagraを検索すると検索結果の第1ページの10件中8件が edu のサイトだという。
実際に検索してみると、edu サイトは現在では10件中5件になっており、UCLAなどの有名サイトが含まれているものの、すでに削除されているページもある。
---------------------------------
そこで、どのように「寄生」しているのか調べてみた。おそらく複数の業者がやっているようで、手法はそれぞれ少しずつ異なるが、ほぼ次のような手口だ。
1:どっかの有名サイトを乗っ取る。
2:乗っ取ったサイトにスパムページを仕込む。スパムページには、ユーザ用と検索エンジン用の2つのコードが書いてある。
3:既存のページにわからないよう隠しリンクを仕込む。検索エンジンのクローラはこの隠しリンクを辿ってスパムページにやってくる。あるいは、掲示板などにスパムページへの多量のリンクを張る、という例もある。クローラ誘導とリンクポピュラリティ向上が目的のようだ。
4:クローラは、スパムページにわんさと埋め込まれたキーワードを回収し、そのキーワードで検索結果にこのページをインデックスする。ホスティングサイトは老舗ドメインのため、上位にインデックスされる可能性が高い。
5:検索結果をクリックしてスパムページ(A)にアクセスしてきたユーザに対しては、別のサイト(B)にリダイレクトするようなスクリプトが書いてある。スクリプトは、この仕掛けが発見され難いようにちょっとした細工がしてある。クローラはスクリプトを解釈しないのでリダイレクトされない。
6:ユーザは、スクリプトによって別のサイトBにリダイレクトされる。このBサイトは、リダイレクト専門のサイトのようである。
7:さらに、BからCサイトにリダイレクトされる。
8:Cサイトが目的のサイト(例えば、ドラッグなどの販売ページ)である。検索結果をクリックしたユーザは、途中のA,Bのサイトは見ることなく、直接Cに行ったように見える。
元記事は、Parasite Hosting Now Dominating Spam Results。
パラサイトとは「寄生虫」とか「寄生するもの」などの意味で、この場合、どこかのサイト(ホスト)に寄生して検索エンジンスパムを行うことをいう。
つまり、どこか有名なサイトにこっそりもぐりこんで商品の宣伝ページを作り、検索エンジンをだまして検索結果の上位表示をさせるというものだ。これは、寄生先のドメインが有名な古参のドメインだと検索結果に上位表示され易いという検索エンジンの特性を利用している。
記事によると、寄生先として大学のサイトが狙われているらしい。例えば、Googleでbuy viagraを検索すると検索結果の第1ページの10件中8件が edu のサイトだという。
実際に検索してみると、edu サイトは現在では10件中5件になっており、UCLAなどの有名サイトが含まれているものの、すでに削除されているページもある。
---------------------------------
そこで、どのように「寄生」しているのか調べてみた。おそらく複数の業者がやっているようで、手法はそれぞれ少しずつ異なるが、ほぼ次のような手口だ。
1:どっかの有名サイトを乗っ取る。
2:乗っ取ったサイトにスパムページを仕込む。スパムページには、ユーザ用と検索エンジン用の2つのコードが書いてある。
3:既存のページにわからないよう隠しリンクを仕込む。検索エンジンのクローラはこの隠しリンクを辿ってスパムページにやってくる。あるいは、掲示板などにスパムページへの多量のリンクを張る、という例もある。クローラ誘導とリンクポピュラリティ向上が目的のようだ。
4:クローラは、スパムページにわんさと埋め込まれたキーワードを回収し、そのキーワードで検索結果にこのページをインデックスする。ホスティングサイトは老舗ドメインのため、上位にインデックスされる可能性が高い。
5:検索結果をクリックしてスパムページ(A)にアクセスしてきたユーザに対しては、別のサイト(B)にリダイレクトするようなスクリプトが書いてある。スクリプトは、この仕掛けが発見され難いようにちょっとした細工がしてある。クローラはスクリプトを解釈しないのでリダイレクトされない。
6:ユーザは、スクリプトによって別のサイトBにリダイレクトされる。このBサイトは、リダイレクト専門のサイトのようである。
7:さらに、BからCサイトにリダイレクトされる。
8:Cサイトが目的のサイト(例えば、ドラッグなどの販売ページ)である。検索結果をクリックしたユーザは、途中のA,Bのサイトは見ることなく、直接Cに行ったように見える。
例えば、アラブアメリカ大学(aauj.edu)のサイトを見てみよう。ここでは、スパマーは仕込みを失敗している。
スパマーは隠しリンクを非表示にすべく
style="display:none;"
を指定しているのだが、隠しリンクを挿入すべき場所を間違えたのと、このページの元々のHTMLコードの不具合のため、隠すつもりのリンクが頭で丸見えになってしまっている(写真)。ここに、このサイト内に仕込んだ73個ものスパムページへのリンクがある。(実はこのページには、多数のポルノページへの隠しリンクもある。これは隠れていて見えない)。
---追記---
その後スパマーはこの丸見えを修正しリンクを隠した。その際、新たに別のリンクページもたくさん作っている。このサイトは完全にスパマーのコントロール下にあるようだ。
---追記ここまで---
----------------
このようなパラサイトホスティングを調べてみると、あちこちにいっぱいあるようだ。
一昔前まではサイトが乗っ取られると、「我乗っ取れり!」とばかりに自慢の画面に書き換えたりしていたものだが、最近では乗っ取っても名乗らずスパムサイトなどとして黙って使っているようだ。このような目的で乗っ取られているのは大学などの有名サイトだけではない。普通のサイトや(日本の)ブログなどでも乗っ取られたものがあることが観測できる。
スパマーは隠しリンクを非表示にすべく
style="display:none;"
を指定しているのだが、隠しリンクを挿入すべき場所を間違えたのと、このページの元々のHTMLコードの不具合のため、隠すつもりのリンクが頭で丸見えになってしまっている(写真)。ここに、このサイト内に仕込んだ73個ものスパムページへのリンクがある。(実はこのページには、多数のポルノページへの隠しリンクもある。これは隠れていて見えない)。
---追記---
その後スパマーはこの丸見えを修正しリンクを隠した。その際、新たに別のリンクページもたくさん作っている。このサイトは完全にスパマーのコントロール下にあるようだ。
---追記ここまで---
----------------
このようなパラサイトホスティングを調べてみると、あちこちにいっぱいあるようだ。
一昔前まではサイトが乗っ取られると、「我乗っ取れり!」とばかりに自慢の画面に書き換えたりしていたものだが、最近では乗っ取っても名乗らずスパムサイトなどとして黙って使っているようだ。このような目的で乗っ取られているのは大学などの有名サイトだけではない。普通のサイトや(日本の)ブログなどでも乗っ取られたものがあることが観測できる。
2007/05/17のBlog
[ 21:22 ]
[ 花と昆虫 ]
2007/05/16のBlog
[ 19:40 ]
[ 花と昆虫 ]
2007/05/15のBlog
[ 23:33 ]
[ ネットの話題 ]
管理しているネットショップでGoogleのAdWords広告を出稿している。この広告への不正クリックが最近あった。
AdWordsの広告には、検索結果に表示される広告と、ブログなどに貼り付けたAdSenseのコンテンツネットワーク広告の2つがある。今回異常を検出したのは、コンテンツネットワークでのクリック。
図は、このコンテンツネットワークでのクリック率の5月のグラフで、横軸が日付、縦軸は、正規化したクリック率だ。広告が表示される回数(インプレッション)やそれがクリックされる回数は、当然、毎日違うのだが、長期間運用していると、クリック率(=クリック回数/インプレッション)がある値を中心にほぼ正規分布するようになる。そのため、平均値と標準偏差でクリック率の異常を管理できる。だいたい2~3σのあたりを管理限界にしている。
図は、日々のクリック率を平均値=0、標準偏差=1に正規化したグラフだが、12日目のところで異常値(16σ)が出ている。
アクセスログを調べてみると、あるサイト(数サイト)から異常なアクセスがあった。そのサイトを調べてみた。どれも同じ種類の特殊な仕掛けがされたサイトで、不正クリック専用に作ったサイトのようだ。広告は明らかにAdSenseから取って来た広告なのだが、どこにも「Ads by Google」のクレジットは無い。ソースを見てみたが、AdSenseのスクリプトコードは貼り付けてなかった。つまり、Googleからは見えない広告になっている。普通にAdSenseの広告を張るとGoogleから見えてしまい規約違反になるからだろう。
アクセスログを調べると、クリックはある時間帯に集中しているが、クリック元のIPはそれぞれ異なる。そのためGoogleでは、これを不正クリックと判別できないかもしれない。
その他、何やら複雑な仕掛けになっているようだ。解析中。
(図のグラフは、Google Docs & Spreadsheetsで作ったもの。なかなか良く出来ている)
---追記(6/2)---
調査の結果、不正クリックではなかった
AdWordsの広告には、検索結果に表示される広告と、ブログなどに貼り付けたAdSenseのコンテンツネットワーク広告の2つがある。今回異常を検出したのは、コンテンツネットワークでのクリック。
図は、このコンテンツネットワークでのクリック率の5月のグラフで、横軸が日付、縦軸は、正規化したクリック率だ。広告が表示される回数(インプレッション)やそれがクリックされる回数は、当然、毎日違うのだが、長期間運用していると、クリック率(=クリック回数/インプレッション)がある値を中心にほぼ正規分布するようになる。そのため、平均値と標準偏差でクリック率の異常を管理できる。だいたい2~3σのあたりを管理限界にしている。
図は、日々のクリック率を平均値=0、標準偏差=1に正規化したグラフだが、12日目のところで異常値(16σ)が出ている。
アクセスログを調べてみると、あるサイト(数サイト)から異常なアクセスがあった。そのサイトを調べてみた。どれも同じ種類の特殊な仕掛けがされたサイトで、不正クリック専用に作ったサイトのようだ。広告は明らかにAdSenseから取って来た広告なのだが、どこにも「Ads by Google」のクレジットは無い。ソースを見てみたが、AdSenseのスクリプトコードは貼り付けてなかった。つまり、Googleからは見えない広告になっている。普通にAdSenseの広告を張るとGoogleから見えてしまい規約違反になるからだろう。
アクセスログを調べると、クリックはある時間帯に集中しているが、クリック元のIPはそれぞれ異なる。そのためGoogleでは、これを不正クリックと判別できないかもしれない。
その他、何やら複雑な仕掛けになっているようだ。解析中。
(図のグラフは、Google Docs & Spreadsheetsで作ったもの。なかなか良く出来ている)
---追記(6/2)---
調査の結果、不正クリックではなかった