robots.txtを使って検索エンジンに不要なページをインデックスさせない方法

robots.txtを使って検索エンジンに不要なページをインデックスさせない方法

Posted at December 19,2008 12:55 AM
Tag:[MovableType, robots.txt, Search, SEO]

robots.txtを使って検索エンジンに不要なページをインデックスさせない方法を紹介します。

1.発端

先日エントリーした「当ブログの検索フォームへの検索文字列設定方法について」で、検索用CGIへのアクセスが急増し、「検索スパム」と騒いでしまいましたが、原因は検索エンジンのbotからのものでした。

下記のトラックバックを読んで、私の勘違いであることが分かりました。

trial and error - Movable Type の "検索" ログ大量発生...

で、上記の記事に書かれているrobots.txtの設定を行ったところ、正常な検索も含め250件/日ほどにおさまりました。

この設定は、そもそも検索エンジンに不要なページをインデックスさせないことが目的であることが分かったので、次項で設定内容について紹介します。

2.検索エンジンに不要なページをインデックスさせないようにする

検索エンジンに不要なページをインデックスさせないようにするには、robots.txtに次の内容を設定します。

User-Agent: *
Disallow: /

「User-Agent」はクローラーを指し、「*」ですべてのクローラーを指定します。

「Disallow」は「アクセス拒否」を示します。

当ブログの場合は検索CGIへのアクセスを拒否したいので下記の設定にしました。

User-Agent: *
Disallow: /cgi-bin/koikikukan/mt-search.cgi

robots.txt はドメインに対応するパス(ドキュメントルート)に配置してください。

Disallowには、ドキュメントルートから拒否したいファイルがあるディレクトリまでのパスまたはファイルを指定します。

関連記事
zenback
人気エントリー
トラックバックURL


コメントする
greeting

*必須

*必須(非表示)


ご質問のコメントの回答については、内容あるいは多忙の場合、1週間以上かかる場合があります。また、すべてのご質問にはお答えできない可能性があります。予めご了承ください。

太字イタリックアンダーラインハイパーリンク引用
[サインインしない場合はここにCAPTCHAを表示します]

コメント投稿後にScript Errorや500エラーが表示された場合は、すぐに再送信せず、ブラウザの「戻る」ボタンで一旦エントリーのページに戻り(プレビュー画面で投稿した場合は、投稿内容をマウスコピーしてからエントリーのページに戻り)、ブラウザをリロードして投稿コメントが反映されていることを確認してください。

コメント欄に(X)HTMLタグやMTタグを記述される場合、「<」は「&lt;」、「>」は「&gt;」と入力してください。例えば「<$MTBlogURL$>」は「&lt;$MTBlogURL$&gt;」となります(全て半角文字)