無料WEBツールdigtoooooools

by 大阪のホームページ制作会社digrart

AIクローラー拒否 robots.txt 生成ツール|ChatGPT・Claude・Gemini対応

ChatGPT・Claude・Gemini・Perplexityなど30以上のAIクローラーを一括ブロックするrobots.txtをワンクリックで生成します。チェックを入れるだけで構文エラーのないコードをリアルタイム出力。Googlebot(検索エンジン)への影響なしでAIの無断学習のみを拒否できます。

🚀 クイックプリセット

※「AI学習を全ブロック」でもGooglebot(通常の検索)はブロックされません。

⚠️ Googlebotをブロックすると、Googleの検索結果からサイトが消えてしまう可能性があります。通常の検索インデックスには Googlebot を使用してください。
Google-Extended のブロックは、Google検索の表示順位に影響しません。Gemini等のAI学習を拒否しつつ、通常の検索には引き続き表示されます。

🤖 ブロックするAIクローラーを選択 0

チェックを入れたボットが robots.txt に Disallow: / で追加されます。

🗺️ サイトマップURL(省略可)

入力すると robots.txt に Sitemap: 行が追加されます。

📄 生成された robots.txt



        

📝 設置方法

コードをコピーし、robots.txt という名前のテキストファイルを作成して貼り付けます。
保存したファイルをWebサイトのルートディレクトリ(一番上の階層)にアップロードしてください。
例:https://example.com/robots.txt でアクセスできる状態が正解です。
WordPressの場合は、Yoast SEO などのプラグインの「robots.txt エディター」から編集するか、FTPでルートに直接設置してください。

コンテンツの無断学習利用という問題
AIサービスを展開する各社のクローラーは、Webを巡回してテキスト・画像・コードなどのデータを自動収集し、生成AI(LLM)の学習データとして利用しています。ブログ記事・商品説明・デザインアイデア・ノウハウなど、あなたが時間をかけて作ったコンテンツが、無断でAIの「学習素材」として使われていることになります。
法的な潮流 — 日本・EU・米国の動向
2024年以降、日本の文化庁も「著作権者の明示的な意思表示でAI学習を拒否できる」という見解を示しています。EUのAI法(AI Act)では学習データの透明性開示が義務化され、米国では複数の出版社がAI企業に対して著作権侵害訴訟を起こしています。robots.txt による拒否表明は、法的な意思表示の一手段として機能します。
すでに多くの大手サイトがブロック済み
The New York Times・Amazon・Wikipediaを含む多くの大手サイトが、AIクローラーの一部または全部をrobots.txtでブロックしています。あなたのサイトのコンテンツを守るために、今すぐ設定することを推奨します。
Googlebot と Google-Extended は別物
Googleは用途に応じてクローラーの User-Agent を使い分けています。通常の検索インデックス(SEO)に使うのは Googlebot です。一方、Google-Extended は Gemini・Vertex AI などGoogleの生成AIサービスの学習専用のクローラーです。
Google-Extended だけブロックすれば安全
robots.txtUser-agent: Google-Extended / Disallow: / と記述することで、Google検索の表示順位や「AIオーバービュー(Search Generative Experience)」への表示には影響なく、Gemini等によるコンテンツの学習利用のみを拒否できます。本ツールのプリセット「AI学習を全ブロック」はこの仕様を踏まえた設計になっています。
⚠️ Googlebotは絶対にブロックしないこと
User-agent: Googlebot / Disallow: / と書いてしまうと、Google検索のクロールが停止し、検索結果からサイトが消える重大事故になります。本ツールでは Googlebot は選択項目に含まれていません。
OpenAI(ChatGPT / SearchGPT)
公式サイトでrobots.txtの遵守を明言。GPTBot(学習用)・ChatGPT-User(ブラウジング機能)・OAI-SearchBot(SearchGPT検索インデックス)の3種類のUser-Agentを使い分けています。
Anthropic(Claude)
ClaudeBot がメインのクローラー。Claude-Web はClaudeのWeb機能(ユーザーがURLを読み込む際)に使用。robots.txtを尊重するとされています。
Meta(Facebook / Meta AI)
Meta-ExternalAgent(AI学習用)・Meta-ExternalFetcher(ユーザー起点のフェッチ)・facebookexternalhit(SNSプレビュー)の3種類が存在します。
ByteDance(TikTok親会社)
Bytespider はLLM「Doubao」の学習データ収集に使用。一部で積極的なクロールが報告されており注意が必要です。
Perplexity AI
PerplexityBot はリアルタイム検索AI。過去にrobots.txtを無視するケースが報告されましたが、現在は対応済みとされています。
Common Crawl(CCBot)
ChatGPT・Claudeなど多くのAIモデルの学習データの源である「Common Crawl」のクローラー。ブロックしておくと多くのAI学習を間接的に制限できます。
HTTPヘッダーで拒否する(X-Robots-Tag)
サーバーサイドのHTTPレスポンスヘッダーに X-Robots-Tag: noai, noimageai を追加することで、ページをクロールされた際にAI学習を拒否する意思を伝えられます。.htaccess(Apache)や nginx.conf で設定可能です。
HTMLメタタグで拒否する
各ページの <head> 内に <meta name="robots" content="noai, noimageai"> を記述する方法です。WordPressではプラグインや functions.php で一括追加できます。
Cloudflare / WAF でのIPブロック
robots.txt を無視する悪質なクローラーには、IPアドレスレンジで直接ブロックする方法が効果的です。CloudflareのFirewall Rulesで User-Agent に基づいたブロックルールを設定できます。
WordPress プラグインでの管理
「Yoast SEO」「Rank Math」などの主要SEOプラグインには robots.txt エディターが内蔵されており、FTPなしでGUI操作が可能です。
Q: 既存の robots.txt がある場合、どうすれば?
A: 既存ファイルがある場合は、生成されたコードをファイルの先頭側に追記してください(User-agent: * のデフォルトブロックより前に配置すること)。本ツールはAIブロック部分のみを生成しているため、既存の設定は上書きされません。
Q: robots.txt を無視するAIボットはいる?
A: 原則としてrobots.txtを尊重しないボットは仕様違反ですが、一部のBytespider・旧バージョンのPerplexityBot等で無視事例が報告されています。完全な防御にはCloudflareのIPブロックやWAFの併用を推奨します。
Q: WordPress の robots.txt はどこにある?
A: WordPressはデフォルトで物理的なrobots.txtファイルがなく、仮想的に生成しています。実際のファイルを設置するにはFTPでルートに robots.txt を置くか、Yoast SEO等のプラグインのエディターを使用してください。
Q: Google のAIオーバービュー(SGE)に表示されなくなる?
A: Google-Extended をブロックしてもAIオーバービューへの表示がなくなるとは限りません。AIオーバービューはGooglebotのインデックスを活用するため、Googlebotはブロックしないようにしてください。
Q: ブロックはいつ反映される?
A: robots.txt を設置したあと、各クローラーが次回巡回する際に有効になります。一般的には数日〜2週間程度で反映されます。即時ブロックが必要な場合はCloudflare等のサーバーサイド対応を検討してください。
Q: 画像やPDFもAI学習から守れる?
A: Disallow: / で全ページをブロックするため、サイト内の画像・PDFへのリンクもクロールされにくくなります。ただし、すでに公開済みで他サイトにリンクされているコンテンツは別途対策が必要です。
SEO対策
WEB開発ツール
ネットワーク
セキュリティ
画像処理・テキスト解析
ビジネス
SNS・エンタメ
生活