ニックネーム:   パスワード:
| MyDoblogトップ | Doblogポータル | Doblogガイド | ユーザ登録 | 使い方 | よくある質問 | ツールバー | サポート |
ひまじゃのう
Blog
[ 総Blog数:692件 ] [ このMyDoblogをブックマークする ] [ RSS0.91   RSS1.0   RSS2.0 ] [ ATOM ]
2007/06/03のBlog
[ 00:35 ] [ ネットの話題 ]
AdWords広告への不正クリック
16σを叩き出したAdWords広告のクリック率、調査の結果、不正クリックではなかった。
「Ads by Google」というクレジットの無い広告、てっきりAdSenseを利用した不正な広告だと思ったが、Googleの正規の広告であるという返事が、Googleからあった。

AdSense for Domainという広告形態とのこと。ドメインのレジストラや大規模なドメイン名ホルダーに対して許可している広告らしい。

「Sponsored Links」という表示はあるがGoogleの広告であるという表示はどこにもない。さらに、通常のAdSense広告では、クリックしたときに googlesyndicate.comからリファラが送られてくるが、このAdSense for Domainでは、このようなリファラは送られてこない。そのためどの広告会社の広告をクリックしてやってきたのかわからなかった。こういう広告形態があるとは知らなかった。そのため、てっきり不正広告だと思っていた。

さらに調べてみると、オーバーチュア広告でも同様の方式の広告を出していた。こちらは「ドメインマッチ」広告というようだ。これもレジストラやドメイン名ホルダーに広告を表示している。

AdSense for Domainでは、通常のAdSenseと同様にインプレッションをカウントしているとのこと。クリック率の16σという値は、インプレッションをカウントしていないための異常値ではないかと疑っていたが、これもそうではなかった。

としたら、16σというのは一体何が起きたのか。広告が表示されたと思われるドメインは、cn(中国)でクリックのアクセス元はすべて日本からだった。異常なクリック率になった要因はあいかわらず解明できないが、不正クリックじゃ無いということは一応納得した。調査などでGoogleの対応はよかった。(もっとも、オーバーチュアの方が返事は早かったが)。

2007/05/31のBlog
[ 23:16 ] [ 禁煙日記 ]
歳をとると時の経つのが早い。
去年の今日、世界禁煙デーを記念してゆったりと紫煙をくゆらせ、0時を過ぎてピタッと止めた。

それから365日、1年が経過した。
2007/05/29のBlog
[ 19:59 ] [ 花と昆虫 ]
かなり近くまで来るが、撮影は難しい。
それでも何とか形が見えてくるようになった。
2007/05/28のBlog
[ 15:44 ] [ 花と昆虫 ]
チョウ目
タテハチョウ科
ホシミスジ Neptis pryeri

病院からの帰り、近くの公園にて。携帯のカメラでハナアブのホバリングを撮影していると蝶々が来たのでパチリ。少しぼけているがホシミスジ。近くにユキヤナギの群生があったのでそこの生まれかと。
2007/05/27のBlog
[ 23:14 ] [ 日々の暮らし ]
わが家の梅ノ木に実った梅、5粒。
7年ものの古酒に仕込んでミニ梅酒にした。
いつ飲めるようになるか、、、たのしみ。
梅の実を収穫した原木(笑)。
2007/05/20のBlog
[ 15:05 ] [ 花と昆虫 ]
ハエ目 ハナアブ科 ホソヒラタアブ(Episyrphus balteatus)

やっと念願のハナアブのホバーリングが撮れた(全長8~10mmくらい)。
ホバーリング中は静止しているとはいえ、動き回るものを撮るのは難しい。数多くの失敗作の山からの一枚。
2007/05/18のBlog
[ 19:21 ] [ ネットの話題 ]
「有力なスパム手法にのしあがってきたパラサイトホスティング」という記事がある。
元記事は、Parasite Hosting Now Dominating Spam Results

パラサイトとは「寄生虫」とか「寄生するもの」などの意味で、この場合、どこかのサイト(ホスト)に寄生して検索エンジンスパムを行うことをいう。

つまり、どこか有名なサイトにこっそりもぐりこんで商品の宣伝ページを作り、検索エンジンをだまして検索結果の上位表示をさせるというものだ。これは、寄生先のドメインが有名な古参のドメインだと検索結果に上位表示され易いという検索エンジンの特性を利用している。

記事によると、寄生先として大学のサイトが狙われているらしい。例えば、Googleでbuy viagraを検索すると検索結果の第1ページの10件中8件が edu のサイトだという。

実際に検索してみると、edu サイトは現在では10件中5件になっており、UCLAなどの有名サイトが含まれているものの、すでに削除されているページもある。
---------------------------------
そこで、どのように「寄生」しているのか調べてみた。おそらく複数の業者がやっているようで、手法はそれぞれ少しずつ異なるが、ほぼ次のような手口だ。

1:どっかの有名サイトを乗っ取る。

2:乗っ取ったサイトにスパムページを仕込む。スパムページには、ユーザ用と検索エンジン用の2つのコードが書いてある。

3:既存のページにわからないよう隠しリンクを仕込む。検索エンジンのクローラはこの隠しリンクを辿ってスパムページにやってくる。あるいは、掲示板などにスパムページへの多量のリンクを張る、という例もある。クローラ誘導とリンクポピュラリティ向上が目的のようだ。

4:クローラは、スパムページにわんさと埋め込まれたキーワードを回収し、そのキーワードで検索結果にこのページをインデックスする。ホスティングサイトは老舗ドメインのため、上位にインデックスされる可能性が高い。

5:検索結果をクリックしてスパムページ(A)にアクセスしてきたユーザに対しては、別のサイト(B)にリダイレクトするようなスクリプトが書いてある。スクリプトは、この仕掛けが発見され難いようにちょっとした細工がしてある。クローラはスクリプトを解釈しないのでリダイレクトされない。

6:ユーザは、スクリプトによって別のサイトBにリダイレクトされる。このBサイトは、リダイレクト専門のサイトのようである。

7:さらに、BからCサイトにリダイレクトされる。

8:Cサイトが目的のサイト(例えば、ドラッグなどの販売ページ)である。検索結果をクリックしたユーザは、途中のA,Bのサイトは見ることなく、直接Cに行ったように見える。
例えば、アラブアメリカ大学(aauj.edu)のサイトを見てみよう。ここでは、スパマーは仕込みを失敗している。
スパマーは隠しリンクを非表示にすべく
style="display:none;"
を指定しているのだが、隠しリンクを挿入すべき場所を間違えたのと、このページの元々のHTMLコードの不具合のため、隠すつもりのリンクが頭で丸見えになってしまっている(写真)。ここに、このサイト内に仕込んだ73個ものスパムページへのリンクがある。(実はこのページには、多数のポルノページへの隠しリンクもある。これは隠れていて見えない)。
---追記---
その後スパマーはこの丸見えを修正しリンクを隠した。その際、新たに別のリンクページもたくさん作っている。このサイトは完全にスパマーのコントロール下にあるようだ。
---追記ここまで---
----------------
このようなパラサイトホスティングを調べてみると、あちこちにいっぱいあるようだ。
一昔前まではサイトが乗っ取られると、「我乗っ取れり!」とばかりに自慢の画面に書き換えたりしていたものだが、最近では乗っ取っても名乗らずスパムサイトなどとして黙って使っているようだ。このような目的で乗っ取られているのは大学などの有名サイトだけではない。普通のサイトや(日本の)ブログなどでも乗っ取られたものがあることが観測できる。
2007/05/17のBlog
[ 21:22 ] [ 花と昆虫 ]
少しコウモリらしい形になってきた(距離約2~30m)。
2007/05/16のBlog
[ 19:40 ] [ 花と昆虫 ]
日没後の空をジグザグ飛行する何やら怪しげな物体。
シャッターチャンスが合わず、失敗ばかりしていたが、何日も粘ってようやく撮影に成功。

小さくてわからないが、これは、アブラコウモリ
猛スピードでジグザグ飛行しながら、飛んでる虫を捕食中。

もっと近くにおびきよせて、せめて姿かたちがわかるくらいに撮りたいなぁ(無理!)。
2007/05/15のBlog
[ 23:33 ] [ ネットの話題 ]
管理しているネットショップでGoogleのAdWords広告を出稿している。この広告への不正クリックが最近あった。

AdWordsの広告には、検索結果に表示される広告と、ブログなどに貼り付けたAdSenseのコンテンツネットワーク広告の2つがある。今回異常を検出したのは、コンテンツネットワークでのクリック。

図は、このコンテンツネットワークでのクリック率の5月のグラフで、横軸が日付、縦軸は、正規化したクリック率だ。広告が表示される回数(インプレッション)やそれがクリックされる回数は、当然、毎日違うのだが、長期間運用していると、クリック率(=クリック回数/インプレッション)がある値を中心にほぼ正規分布するようになる。そのため、平均値と標準偏差でクリック率の異常を管理できる。だいたい2~3σのあたりを管理限界にしている。

図は、日々のクリック率を平均値=0、標準偏差=1に正規化したグラフだが、12日目のところで異常値(16σ)が出ている。

アクセスログを調べてみると、あるサイト(数サイト)から異常なアクセスがあった。そのサイトを調べてみた。どれも同じ種類の特殊な仕掛けがされたサイトで、不正クリック専用に作ったサイトのようだ。広告は明らかにAdSenseから取って来た広告なのだが、どこにも「Ads by Google」のクレジットは無い。ソースを見てみたが、AdSenseのスクリプトコードは貼り付けてなかった。つまり、Googleからは見えない広告になっている。普通にAdSenseの広告を張るとGoogleから見えてしまい規約違反になるからだろう。

アクセスログを調べると、クリックはある時間帯に集中しているが、クリック元のIPはそれぞれ異なる。そのためGoogleでは、これを不正クリックと判別できないかもしれない。
その他、何やら複雑な仕掛けになっているようだ。解析中。

(図のグラフは、Google Docs & Spreadsheetsで作ったもの。なかなか良く出来ている)

---追記(6/2)---
調査の結果、不正クリックではなかった