TopWebSEO > 2008年12月
2008年12月19日

robots.txtを使って検索エンジンに不要なページをインデックスさせない方法

December 19,2008 12:55 AM
Tag:[, , , ]
Permalink

robots.txtを使って検索エンジンに不要なページをインデックスさせない方法を紹介します。

1.発端

先日エントリーした「当ブログの検索フォームへの検索文字列設定方法について」で、検索用CGIへのアクセスが急増し、「検索スパム」と騒いでしまいましたが、原因は検索エンジンのbotからのものでした。

下記のトラックバックを読んで、私の勘違いであることが分かりました。

trial and error - Movable Type の "検索" ログ大量発生...

で、上記の記事に書かれているrobots.txtの設定を行ったところ、正常な検索も含め250件/日ほどにおさまりました。

この設定は、そもそも検索エンジンに不要なページをインデックスさせないことが目的であることが分かったので、次項で設定内容について紹介します。

2.検索エンジンに不要なページをインデックスさせないようにする

検索エンジンに不要なページをインデックスさせないようにするには、robots.txtに次の内容を設定します。

User-Agent: *
Disallow: /

「User-Agent」はクローラーを指し、「*」ですべてのクローラーを指定します。

「Disallow」は「アクセス拒否」を示します。

当ブログの場合は検索CGIへのアクセスを拒否したいので下記の設定にしました。

User-Agent: *
Disallow: /cgi-bin/koikikukan/mt-search.cgi

robots.txt はドメインに対応するパス(ドキュメントルート)に配置してください。

Disallowには、ドキュメントルートから拒否したいファイルがあるディレクトリまでのパスまたはファイルを指定します。

Comments [0] | Trackbacks [0]
Now loading...
ギターに入った猫
掲載広告募集
Styles
Font Size
Default
For defective color vision
Gray Scale
RGB Color
Search this site

このブログをメールで購読する by:FeedBurner

AMN
Categories
Monthly Archives
2020年
2019年
2018年
2017年
2016年
2015年
2014年
2013年
2012年
2011年
2010年
2009年
2008年
2007年
2006年
2005年
2004年
2003年
BlogPeople
Syndicate this site
FeedBurner(RSS1.0/RSS2.0/Atom)
Counter
これまでのアクセス
Powered by
Movable Type 6.0.3