llmsmap.ru

Стандарты для ИИ-краулинга: llms.txt, llms-full.txt, ai.txt, robots.txt

Полное руководство по четырём стандартам, которые готовят сайт к индексации ИИ и нейросетям: назначение, формат, расположение и отличия между ними.

llms.txt

Краткая сводка о сайте для больших языковых моделей (LLM).

Назначение
Даёт ИИ-ассистентам и LLM-краулерам быстрый обзор содержимого сайта: что это за проект, ключевые разделы и ссылки. Аналог sitemap, но ориентированный на машинное чтение в формате Markdown-подобного текста.
Формат
Текстовый файл в человекочитаемом формате (префиксы #, ##, ссылки).
Расположение
Корень сайта: /llms.txt
Аудитория
LLM, ИИ-ассистенты, RAG-системы.
Стандарт
Стандарт llmstxt.org

Файл llms.txt пришёл на смену разрозненным способам подачи контента для ИИ. Он пишется в простом текстовом формате с заголовками и ссылками, что удобно для токенизации и подсчёта объёма.

Главная идея — дать модели компактную выжимку: название проекта, краткое описание и упорядоченный список важных страниц. Это снижает расход токенов и повышает точность ответов об сайте.

Подходит для сайтов любого размера: от лендинга до большой документации. Для крупных проектов дополнительно публикуется llms-full.txt.

llms-full.txt

Расширенная версия с подробным описанием всего контента сайта.

Назначение
Предоставляет LLM полный текстовый контент сайта для прямой обработки без необходимости обхода страниц. Используется, когда модели нужен максимум контекста.
Формат
Большой текстовый файл (Markdown-подобный), содержит развернутое содержимое.
Расположение
Корень сайта: /llms-full.txt
Аудитория
LLM, RAG-пайплайны, экспорт данных для обучения/контекста.
Стандарт
Стандарт llmstxt.org (расширение)

llms-full.txt — это «полная» версия llms.txt. Если llms.txt — это оглавление, то llms-full.txt — сама книга в текстовом виде.

Файл может достигать сотен тысяч и миллионов токенов, поэтому его размер и оценка токенов критичны при планировании контекстного окна модели.

Рекомендуется публиковать вместе с llms.txt: краткая сводка для быстрого обзора и полная версия — для глубокого анализа.

ai.txt

Файл-инструкция для ИИ-агентов: что можно и нельзя делать с контентом.

Назначение
Задаёт правила взаимодействия автоматических ИИ-систем и агентов с контентом сайта: разрешение на обучение, цитирование, суммаризацию, требования к атрибуции.
Формат
Текстовый или JSON-файл со структурированными директивами.
Расположение
Корень сайта: /ai.txt
Аудитория
AI-краулеры, агрегаторы, разработчики ИИ-сервисов.
Стандарт
Неформальный/community-стандарт

ai.txt решает вопрос «что разрешено делать ИИ с моим контентом». Это набор директив для искусственного интеллекта, аналогичный по духу robots.txt, но ориентированный на AI-агентов.

Типичные поля: разрешение/запрет на обучение моделей, условие указания источника, ограничения на коммерческое использование, контакты для запроса прав.

В отличие от llms.txt, который описывает содержимое, ai.txt описывает права и правила использования этого содержимого ИИ-системами.

robots.txt

Классический стандарт управления доступом поисковых роботов.

Назначение
Управляет доступом краулеров к разделам сайта: какие URL разрешены или запрещены к обходу, где находится sitemap. Не управляет индексацией напрямую, но направляет роботов.
Формат
Текстовый файл с директивами User-agent, Allow, Disallow, Sitemap.
Расположение
Корень сайта: /robots.txt
Аудитория
Поисковые роботы (Googlebot, YandexBot и др.).
Стандарт
RFC 9309

robots.txt — самый старый и общепринятый стандарт из четырёх. Он не предназначен специально для ИИ, но остаётся базовым механизмом управления краулингом.

Директива Disallow блокирует обход URL, Sitemap указывает расположение карты сайта, Crawl-delay задаёт задержку между запросами.

В контексте ИИ-краулинга robots.txt дополняет llms.txt: первый управляет «можно ли заходить», второй — «что внутри, когда зашли».

Сравнительная таблица

Краткое сопоставление четырёх стандартов по ключевым параметрам.

Параметрllms.txtllms-full.txtai.txtrobots.txt
НазначениеКраткое описание сайта для LLMПолный контент сайта для LLMПравила использования контента ИИДоступ краулеров к URL
ФорматТекст (Markdown-подобный)Большой текстТекст / JSONТекст (директивы)
Расположение/llms.txt/llms-full.txt/ai.txt/robots.txt
ОбъёмНебольшойБольшой (до млн токенов)СреднийМаленький
АудиторияLLM, ИИ-ассистентыLLM, RAG-системыAI-краулеры, агрегаторыПоисковые роботы
Стандартllmstxt.orgllmstxt.orgcommunity-стандартRFC 9309
УправляетСодержимым для ИИОбъёмом контекстаПравами использованияДоступом к обходу