Стандарты для ИИ-краулинга: llms.txt, llms-full.txt, ai.txt, robots.txt
Полное руководство по четырём стандартам, которые готовят сайт к индексации ИИ и нейросетям: назначение, формат, расположение и отличия между ними.
llms.txt
Краткая сводка о сайте для больших языковых моделей (LLM).
- Назначение
- Даёт ИИ-ассистентам и LLM-краулерам быстрый обзор содержимого сайта: что это за проект, ключевые разделы и ссылки. Аналог sitemap, но ориентированный на машинное чтение в формате Markdown-подобного текста.
- Формат
- Текстовый файл в человекочитаемом формате (префиксы #, ##, ссылки).
- Расположение
- Корень сайта: /llms.txt
- Аудитория
- LLM, ИИ-ассистенты, RAG-системы.
- Стандарт
- Стандарт llmstxt.org
Файл llms.txt пришёл на смену разрозненным способам подачи контента для ИИ. Он пишется в простом текстовом формате с заголовками и ссылками, что удобно для токенизации и подсчёта объёма.
Главная идея — дать модели компактную выжимку: название проекта, краткое описание и упорядоченный список важных страниц. Это снижает расход токенов и повышает точность ответов об сайте.
Подходит для сайтов любого размера: от лендинга до большой документации. Для крупных проектов дополнительно публикуется llms-full.txt.
llms-full.txt
Расширенная версия с подробным описанием всего контента сайта.
- Назначение
- Предоставляет LLM полный текстовый контент сайта для прямой обработки без необходимости обхода страниц. Используется, когда модели нужен максимум контекста.
- Формат
- Большой текстовый файл (Markdown-подобный), содержит развернутое содержимое.
- Расположение
- Корень сайта: /llms-full.txt
- Аудитория
- LLM, RAG-пайплайны, экспорт данных для обучения/контекста.
- Стандарт
- Стандарт llmstxt.org (расширение)
llms-full.txt — это «полная» версия llms.txt. Если llms.txt — это оглавление, то llms-full.txt — сама книга в текстовом виде.
Файл может достигать сотен тысяч и миллионов токенов, поэтому его размер и оценка токенов критичны при планировании контекстного окна модели.
Рекомендуется публиковать вместе с llms.txt: краткая сводка для быстрого обзора и полная версия — для глубокого анализа.
ai.txt
Файл-инструкция для ИИ-агентов: что можно и нельзя делать с контентом.
- Назначение
- Задаёт правила взаимодействия автоматических ИИ-систем и агентов с контентом сайта: разрешение на обучение, цитирование, суммаризацию, требования к атрибуции.
- Формат
- Текстовый или JSON-файл со структурированными директивами.
- Расположение
- Корень сайта: /ai.txt
- Аудитория
- AI-краулеры, агрегаторы, разработчики ИИ-сервисов.
- Стандарт
- Неформальный/community-стандарт
ai.txt решает вопрос «что разрешено делать ИИ с моим контентом». Это набор директив для искусственного интеллекта, аналогичный по духу robots.txt, но ориентированный на AI-агентов.
Типичные поля: разрешение/запрет на обучение моделей, условие указания источника, ограничения на коммерческое использование, контакты для запроса прав.
В отличие от llms.txt, который описывает содержимое, ai.txt описывает права и правила использования этого содержимого ИИ-системами.
robots.txt
Классический стандарт управления доступом поисковых роботов.
- Назначение
- Управляет доступом краулеров к разделам сайта: какие URL разрешены или запрещены к обходу, где находится sitemap. Не управляет индексацией напрямую, но направляет роботов.
- Формат
- Текстовый файл с директивами User-agent, Allow, Disallow, Sitemap.
- Расположение
- Корень сайта: /robots.txt
- Аудитория
- Поисковые роботы (Googlebot, YandexBot и др.).
- Стандарт
- RFC 9309
robots.txt — самый старый и общепринятый стандарт из четырёх. Он не предназначен специально для ИИ, но остаётся базовым механизмом управления краулингом.
Директива Disallow блокирует обход URL, Sitemap указывает расположение карты сайта, Crawl-delay задаёт задержку между запросами.
В контексте ИИ-краулинга robots.txt дополняет llms.txt: первый управляет «можно ли заходить», второй — «что внутри, когда зашли».
Сравнительная таблица
Краткое сопоставление четырёх стандартов по ключевым параметрам.
| Параметр | llms.txt | llms-full.txt | ai.txt | robots.txt |
|---|---|---|---|---|
| Назначение | Краткое описание сайта для LLM | Полный контент сайта для LLM | Правила использования контента ИИ | Доступ краулеров к URL |
| Формат | Текст (Markdown-подобный) | Большой текст | Текст / JSON | Текст (директивы) |
| Расположение | /llms.txt | /llms-full.txt | /ai.txt | /robots.txt |
| Объём | Небольшой | Большой (до млн токенов) | Средний | Маленький |
| Аудитория | LLM, ИИ-ассистенты | LLM, RAG-системы | AI-краулеры, агрегаторы | Поисковые роботы |
| Стандарт | llmstxt.org | llmstxt.org | community-стандарт | RFC 9309 |
| Управляет | Содержимым для ИИ | Объёмом контекста | Правами использования | Доступом к обходу |