検索ロボットとのコミュニケーションが重要です!?robots.txtについて

2014.5.9|SEO

このエントリーをはてなブックマークに追加
Check

robot画像

 

■サイトテーマと関連性のないページは検索ロボットに認識されない方がいい!?

長くサイトを運営してると以前は使ってたページだけど今は使わないページもあるかもしれません。
今のサイトとあまり関係のないページが残ってる場合もあります。
サイトテーマと関係のないページが存在してると「検索エンジン(検索ロボット)」がサイトのテーマを正しく認識できない可能性があります。正しく認識できないとSEOに不利になる場合があります。

 

minirobot

■検索ロボットって何!?

ウェブ上の文書や画像などを周期的に取得して、自動的にデータベース化するプログラムです。
検索ロボットは別名「クローラ(Crawler)」とも呼ばれています。
その他にも「ボット(Bot)」、「スパイダー」、などとも呼ばれています。

※主な検索ロボットは以下です。

グーグルボット(Google)→ Googlebot
MSNBot(Bing)→ msnbot
minirobot

■収集してほしくない時、どうするの!?

検索ロボットは常に情報を収集してます。
収集してほしくないページがある場合、以下二つの方法が御座います。

★【その1】robots.txtを使用★

・ステップ1:ファイル作成します。
「robots.txt」を作成します。
・ステップ2:以下コードを記載します。

User-agent: *
Disallow: /

・ステップ3:「robots.txt」というファイルを作成してドメインのルートに置きます。
理由としてロボットはドメインのルートにあるファイルのみを確認するからです。

※記載方法

「*」の場合、全ての検索ロボットに対してに適用になります。
指定したい検索ロボットがある場合「*」に検索ロボット名を指定して記載します。

※各検索エンジンの検索ロボット名は以下になります。

Google → Googlebot
bing → msnbot

※例:グーグルの場合

User-agent: Googlebot

Disallow: / ←ブロックしたいディレクトリ(URL)を記載します。

ドメインのルートってどこ!?

※例:「http://www.gmo-sol.jp/」の場合は「http://www.gmo-sol.jp/robots.txt」になります。

以下のようなサブディレクトリへの設置はNGです。

※例:http://www.gmo-sol.jp/content/business/robots.txt←×

★【その2】メタタグに設定★

上記設定が難しい場合、簡単な方法があります。
以下コードを対策ページのタグ内にメタタグで設定する方法です。

<meta name=”robots” content=”noindex,nofollow”>

まとめrobot

■まとめ

検索ロボットに認識してほしくないページはそのままにしておかないで、
ロボットに「インデックスしないで下さい。」と上記の方法で伝えましょう。
サイトテーマに関連性のないページは上記方法で対応して
検索ロボットにサイトテーマを正しく認識させましょう。

コメント一覧

コメントはありません。

この記事にコメント

*

トラックバックURL