Tag: robots.txt



23 4月 09

通常のrobots.txtは、ロボットの巡回を禁止(Disallow)するために利用するファイルです。
拒否するために使用するファイルを逆に迎え入れる内容へと設定もできるのです。
それは、すべてのファイルにアクセスしてよいという許可の指示(Allow)を、あえて設定することによってアクセスの許可を出します。

普通に考えれば巡回してくれるから必要ないと考えがちですが、サイトには必須なファイルですし、何も明示していないサイトとサイトを見てくださいと許可を出しているサイトでは、ロボットの記憶に刻まれれば巡回の回数も増える可能性があります。

いろいろな考えがありますが、ロボットに対して目測とそれに対しての実績で対策するしかないと今は感じています。

■robots.txtのファイル名でファイルを作成。
以下の内容を入れてファイルをアップする。

User-Agent: *
Allow: /







22 4月 09

robots.txtの必要性の根拠はないんだが、ロボットはまずrobots.txtのこのテキストファイルを探して毎回巡回している。
だから根拠はないけど、robots.txtは必要なんです。

もう一度言います!
robots.txtは必要なのです。

記述方法は、下記を参照↓↓

 

..Continue reading..







29 3月 09

【robots.txt ファイルを作成する最も簡単な方法】
ウェブマスター ツールの robots.txt 生成ツールを使用すること。
作成後、robots.txt 解析ツールを使用して、期待どおりに作動しているかどうかを確認できます。

robots.txt ファイルを作成した後、ドメインのルートに置いて「robots.txt」という名前で保存します。ファイルを確認する際、ロボットはこの場所を確認します。他の場所に保存されている場合は認識されません。

非常に単純な形式の robots.txt ファイルでは、次の 2 つのルールを使用します。

User-agent: 以降のルールを適用するロボット
Disallow: ブロックする URL
この 2 行はファイルの各エントリとみなされます。含めるエントリの数に制限はありません。1 つのエントリに複数の Disallow 行と複数の user-agent を含めることができます。

 

「 User-agent 」 以降のルールを適用するロボット
user-agentというのは、特定の検索エンジンロボットのことを指しています。そして、ウェブマスターツールにては、一般的なロボットがリスト化されていて、特定のロボットを適用するようエントリを設定したり、全てのロボットに適用させるようにアスタリスク(*)を設定できます。

(記述例?)
User-agent: *

(記述例?)
User-agent: Googlebot

 

「 Disallow 」 ブロックする URL
Disallow 行にはブロックするページをリストします。特定の URL またはパターンを入力できます。エントリはスラッシュ (/) で始める必要があります。

■ サイト全体をブロックするには、スラッシュを使用します。
Disallow: /

■ ディレクトリとそのコンテンツをすべてブロックするには、ディレクトリ名の後にスラッシュを入力します。
Disallow: /junk-directory/

■ ページをブロックするには、ページをリストします。
Disallow: /private_file.html

■ Google イメージ検索から特定のイメージを削除するには、次の記述を追加します。
User-agent: Googlebot-Image
Disallow: /images/dogs.jpg

■ Google イメージ検索からすべてのイメージを削除する場合、次のように記述します。
User-agent: Googlebot-Image
Disallow: /

■ 特定の種類のファイル (例: .gif ファイル) をブロックするには、次のように記述します。
User-agent: Googlebot
Disallow: /*.gif$

■ サイトのページに AdSense 広告を表示する一方で、クロールをブロックするには、Mediapartners-Google 以外のすべてのロボットを許可しないようにします。これによって、ページは検索結果に表示されなくなりますが、表示広告の決定に使用される Mediapartners-Google ロボットによるページ分析を許可できます。Mediapartners-Google ロボットは、他の Google ユーザー エージェントとページを共有しません。

例:
User-agent: *
Disallow: /folder1/

User-agent: Mediapartners-Google
Allow: /folder1/

Google ウェブマスターツール
robots.txt ファイルを使用してサイトへのアクセスを管理する用してサイトへのアクセスを管理する


robots.txt ファイルの生成

robots.txt のチェック