Справочник

Известные краулинг-боты нейросетей (ИИ)

2 июля 2025 г.·8 мин. чтения

С 2023 года крупнейшие ИИ-компании начали активно сканировать интернет для обучения своих моделей и предоставления актуальных ответов пользователям. Каждый из этих ботов имеет свой User-Agent, который можно обнаружить в логах сервера и контролировать через файл robots.txt.

Ниже — полный справочник известных ИИ-краулеров по состоянию на 2025 год.

1. GPTBot (OpenAI)

Компания	OpenAI
User-Agent	`GPTBot/1.0`
Назначение	Сбор данных для обучения моделей GPT и будущих продуктов OpenAI
IP-диапазоны	Публикуются на openai.com/gptbot-ranges.txt

GPTBot — основной краулер OpenAI для обучения. Если вы хотите, чтобы ваш контент попадал в обучающую выборку GPT, не блокируйте его. Если не хотите — добавьте в robots.txt:

User-agent: GPTBot
Disallow: /

2. ChatGPT-User (OpenAI)

Компания	OpenAI
User-Agent	`ChatGPT-User`
Назначение	Получение актуального контента по запросам пользователей ChatGPT в реальном времени (browsing mode)

Этот бот отличается от GPTBot: он не собирает данные для обучения, а загружает страницы по прямому запросу пользователя ChatGPT. Блокировка этого бота означает, что ChatGPT не сможет цитировать ваш контент в ответах.

3. ClaudeBot (Anthropic)

Компания	Anthropic
User-Agent	`ClaudeBot/1.0`
Назначение	Сбор данных для обучения модели Claude

User-agent: ClaudeBot
Disallow: /

4. anthropic-ai (Anthropic)

Компания	Anthropic
User-Agent	`anthropic-ai`
Назначение	Дополнительный краулер Anthropic для получения контента

5. Google-Extended (Google)

Компания	Google (DeepMind)
User-Agent	`Google-Extended`
Назначение	Сбор данных для обучения Bard / Gemini и других ИИ-продуктов Google

Google-Extended — отдельный бот от Googlebot. Блокировка Google-Extended не влияет на индексацию в Google Search. Это позволяет гибко управлять: разрешить поисковую индексацию, но запретить использование контента для обучения ИИ.

User-agent: Google-Extended
Disallow: /

6. Bytespider (ByteDance / TikTok)

Компания	ByteDance (TikTok)
User-Agent	`Bytespider`
Назначение	Сбор данных для обучения языковых моделей ByteDance

Bytespider — один из самых агрессивных краулеров. Многие сайты блокируют его из-за высокой нагрузки на сервер.

7. CCBot (Common Crawl)

Компания	Common Crawl Foundation (некоммерческая)
User-Agent	`CCBot/2.0`
Назначение	Открытый датасет для обучения ИИ. Используется сотнями исследовательских организаций

Данные Common Crawl лежат в основе обучающих выборок большинства крупных LLM, включая GPT, LLaMA, Falcon и др. Блокировка CCBot эффективно удаляет ваш контент из будущих датасетов.

8. PerplexityBot (Perplexity AI)

Компания	Perplexity AI
User-Agent	`PerplexityBot`
Назначение	Индексация контента для ИИ-поисковика Perplexity

Perplexity — ИИ-поисковик, который генерирует ответы с цитированием источников. Разрешение доступа означает, что ваш сайт может появиться в ответах Perplexity с обратной ссылкой.

9. Amazonbot (Amazon)

Компания	Amazon
User-Agent	`Amazonbot`
Назначение	Сбор данных для Alexa и ИИ-сервисов Amazon

10. FacebookBot (Meta)

Компания	Meta (Facebook)
User-Agent	`FacebookBot`
Назначение	Сбор данных для обучения LLaMA и других ИИ-моделей Meta

11. Другие известные боты

Бот	Компания	Назначение
`Applebot-Extended`	Apple	Обучение ИИ-функций Apple (Siri, Apple Intelligence)
`cohere-ai`	Cohere	Обучение моделей Cohere
`Diffbot`	Diffbot	Структурированное извлечение данных для Knowledge Graph
`ImagesiftBot`	Imagesift	Сбор изображений для обучения vision-моделей
`Omgilibot`	Omgili / Webz.io	Краулинг форумов и UGC-контента
`YouBot`	You.com	ИИ-поисковик You.com

Как управлять доступом ИИ-ботов

Через robots.txt

Самый простой способ — указать правила в robots.txt. Каждый уважающий стандарты бот проверяет этот файл перед краулингом.

# Разрешить всех ИИ-ботов
User-agent: GPTBot
Allow: /

User-agent: ClaudeBot
Allow: /

User-agent: Google-Extended
Allow: /

# Заблокировать агрессивных ботов
User-agent: Bytespider
Disallow: /

User-agent: CCBot
Disallow: /

Через llms.txt

Стандарт llms.txt позволяет не только контролировать доступ, но и предоставить ИИ структурированную информацию о вашем сайте. Это более продвинутый подход, чем простая блокировка через robots.txt.

Файл llms.txt размещается в корне сайта и содержит краткое описание продукта, ключевые ссылки и рекомендации для ИИ-агентов.

Через ai.txt

Ещё один формат — ai.txt, который определяет правила использования контента для обучения ИИ. Позволяет явно указать, разрешено ли обучение на вашем контенте.

Итог

ИИ-краулеры стали неотъемлемой частью современного веба. Правильная настройка доступа для ИИ-ботов — это баланс между защитой контента и получением трафика из ИИ-систем. Стандарт llms.txt помогает сделать этот баланс осознанным.

Добавьте свой сайт в каталог llmsmap.ru, чтобы продемонстрировать готовность к ИИ-эпохе.

Все статьи блога