robots.txt

最近Logwatchの結果に503エラーがよく出ていたので調べてみると、すべてクローラー絡みのものだった。

たけけんのサイトはmod_dosdetectorというモジュールを使っていて、閾値を越えるとIPアドレスにフラグが立ってmod_Rewriteで503に飛んでいくようになっています。

1秒単位でクロールしてくるもんだから、大量に503エラーログが残っていたようだ。

だけど今まで特にそんな事もなかったので、対策としてはrobots.txtを改良するよりもどうして起こったのかを追及する方が解決策としては正しいのかもしれないが、今はとりあえずrobotx.txtを改良してみることにした。

と言っても使うものはこの3個だけみたい。

User-agent:
Disallow:
Crawl-delay:  

ガチャコーンとクロールそのものを防ぎたいならconfファイルや.htaccessでアクセスを防ぐのがセオリーみたいだ。

今回行ったのは、ワードプレスを使ってる中でクロールされたくないディレクトリをDisallowに入れて、503エラーの対策にCrawl-delayを使った。秒単位で設定をする。

ユーザーエージェントはそのままログから調べたものを入れよう。

ただCrawl-delayはGoogleBotには使えないらしいからウェブマスターツールを使って対策しよう。

つうことです。

今日で連続稼働日数が118日になった。chkconfigでhttpdがoffになっていた…(笑)

いや、笑えないか。

レンタルサーバーの検証に使っているさくらのスタンダードサーバーでuptimeしたら543日だった、すげーな。

桜葉愛キャンペーンに応募しようと思ってネタを考えてたんだけど、ホームページ運営じたいはずっとさくらのVPSを使ってるし、一時的にさくらのスタンダードプランに乗り換えた事があったけど、それだとネタにできないしなぁ。

というか、そもそもネタを考えるキャンペーンじゃないな(笑)

Related Posts


投稿者: Takeken

インターネット利用者のITリテラシーを向上したいという設定の2次元キャラです。 サーバー弄りからプログラミングまで手を付けた自称エッセイストなたけけんの物語。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です