
Известные краулинг-боты нейросетей (ИИ)
С 2023 года крупнейшие ИИ-компании начали активно сканировать интернет для обучения своих моделей и предоставления актуальных ответов пользователям. Каждый из этих ботов имеет свой User-Agent, который можно обнаружить в логах сервера и контролировать через файл robots.txt.
Ниже — полный справочник известных ИИ-краулеров по состоянию на 2025 год.
1. GPTBot (OpenAI)
| Компания | OpenAI |
| User-Agent | GPTBot/1.0 |
| Назначение | Сбор данных для обучения моделей GPT и будущих продуктов OpenAI |
| IP-диапазоны | Публикуются на openai.com/gptbot-ranges.txt |
GPTBot — основной краулер OpenAI для обучения. Если вы хотите, чтобы ваш контент попадал в обучающую выборку GPT, не блокируйте его. Если не хотите — добавьте в robots.txt:
User-agent: GPTBot
Disallow: /2. ChatGPT-User (OpenAI)
| Компания | OpenAI |
| User-Agent | ChatGPT-User |
| Назначение | Получение актуального контента по запросам пользователей ChatGPT в реальном времени (browsing mode) |
Этот бот отличается от GPTBot: он не собирает данные для обучения, а загружает страницы по прямому запросу пользователя ChatGPT. Блокировка этого бота означает, что ChatGPT не сможет цитировать ваш контент в ответах.
3. ClaudeBot (Anthropic)
| Компания | Anthropic |
| User-Agent | ClaudeBot/1.0 |
| Назначение | Сбор данных для обучения модели Claude |
User-agent: ClaudeBot
Disallow: /4. anthropic-ai (Anthropic)
| Компания | Anthropic |
| User-Agent | anthropic-ai |
| Назначение | Дополнительный краулер Anthropic для получения контента |
5. Google-Extended (Google)
| Компания | Google (DeepMind) |
| User-Agent | Google-Extended |
| Назначение | Сбор данных для обучения Bard / Gemini и других ИИ-продуктов Google |
Google-Extended — отдельный бот от Googlebot. Блокировка Google-Extended не влияет на индексацию в Google Search. Это позволяет гибко управлять: разрешить поисковую индексацию, но запретить использование контента для обучения ИИ.
User-agent: Google-Extended
Disallow: /6. Bytespider (ByteDance / TikTok)
| Компания | ByteDance (TikTok) |
| User-Agent | Bytespider |
| Назначение | Сбор данных для обучения языковых моделей ByteDance |
Bytespider — один из самых агрессивных краулеров. Многие сайты блокируют его из-за высокой нагрузки на сервер.
7. CCBot (Common Crawl)
| Компания | Common Crawl Foundation (некоммерческая) |
| User-Agent | CCBot/2.0 |
| Назначение | Открытый датасет для обучения ИИ. Используется сотнями исследовательских организаций |
Данные Common Crawl лежат в основе обучающих выборок большинства крупных LLM, включая GPT, LLaMA, Falcon и др. Блокировка CCBot эффективно удаляет ваш контент из будущих датасетов.
8. PerplexityBot (Perplexity AI)
| Компания | Perplexity AI |
| User-Agent | PerplexityBot |
| Назначение | Индексация контента для ИИ-поисковика Perplexity |
Perplexity — ИИ-поисковик, который генерирует ответы с цитированием источников. Разрешение доступа означает, что ваш сайт может появиться в ответах Perplexity с обратной ссылкой.
9. Amazonbot (Amazon)
| Компания | Amazon |
| User-Agent | Amazonbot |
| Назначение | Сбор данных для Alexa и ИИ-сервисов Amazon |
10. FacebookBot (Meta)
| Компания | Meta (Facebook) |
| User-Agent | FacebookBot |
| Назначение | Сбор данных для обучения LLaMA и других ИИ-моделей Meta |
11. Другие известные боты
| Бот | Компания | Назначение |
|---|---|---|
Applebot-Extended | Apple | Обучение ИИ-функций Apple (Siri, Apple Intelligence) |
cohere-ai | Cohere | Обучение моделей Cohere |
Diffbot | Diffbot | Структурированное извлечение данных для Knowledge Graph |
ImagesiftBot | Imagesift | Сбор изображений для обучения vision-моделей |
Omgilibot | Omgili / Webz.io | Краулинг форумов и UGC-контента |
YouBot | You.com | ИИ-поисковик You.com |
Как управлять доступом ИИ-ботов
Через robots.txt
Самый простой способ — указать правила в robots.txt. Каждый уважающий стандарты бот проверяет этот файл перед краулингом.
# Разрешить всех ИИ-ботов
User-agent: GPTBot
Allow: /
User-agent: ClaudeBot
Allow: /
User-agent: Google-Extended
Allow: /
# Заблокировать агрессивных ботов
User-agent: Bytespider
Disallow: /
User-agent: CCBot
Disallow: /Через llms.txt
Стандарт llms.txt позволяет не только контролировать доступ, но и предоставить ИИ структурированную информацию о вашем сайте. Это более продвинутый подход, чем простая блокировка через robots.txt.
Файл llms.txt размещается в корне сайта и содержит краткое описание продукта, ключевые ссылки и рекомендации для ИИ-агентов.
Через ai.txt
Ещё один формат — ai.txt, который определяет правила использования контента для обучения ИИ. Позволяет явно указать, разрешено ли обучение на вашем контенте.
Рекомендации
- Не блокируйте всех ИИ-ботов — это может привести к тому, что ваш контент исчезнет из ответов ChatGPT, Claude, Perplexity и других ИИ-систем. В 2025 году это уже означает потерю трафика.
- Разрешайте chatbot-режим — боты вроде ChatGPT-User показывают ваш сайт пользователям с обратной ссылкой. Это бесплатный трафик.
- Используйте llms.txt — дайте ИИ структурированную информацию о своём продукте. Это повышает качество ответов, в которых упоминается ваш сайт.
- Мониторьте логи — проверяйте, какие боты и как часто обращаются к вашему сайту. Если какой-то бот создаёт избыточную нагрузку — блокируйте его.
- Проведите аудит — используйте инструмент аудита llmsmap.ru, чтобы проверить, как ваш сайт настроен для ИИ-краулеров.
Итог
ИИ-краулеры стали неотъемлемой частью современного веба. Правильная настройка доступа для ИИ-ботов — это баланс между защитой контента и получением трафика из ИИ-систем. Стандарт llms.txt помогает сделать этот баланс осознанным.
Добавьте свой сайт в каталог llmsmap.ru, чтобы продемонстрировать готовность к ИИ-эпохе.