Файл robots.txt играет ключевую роль в управлении индексацией сайта поисковыми системами. Он позволяет ограничивать доступ к определённым разделам сайта, улучшать производительность и управлять бюджетом обхода. В этой статье мы подробно рассмотрим, как работает файл robots.txt, как его создавать, и какие практики применять для максимальной эффективности SEO.
Что такое robots.txt?
Robots.txt – это текстовый файл, размещённый в корневой директории сайта, который содержит инструкции для поисковых роботов (ботов). С его помощью веб-мастеры указывают, какие страницы можно индексировать, а какие – нет. Файл является частью Robots Exclusion Protocol, разработанного в 1994 году.
Пример URL файла: https://example.com/robots.txt
Зачем нужен robots.txt?
- Управление индексированием контента
- Экономия бюджета обхода (crawl budget)
- Блокировка конфиденциальных или технических разделов
- Противодействие нежелательным ботам, в том числе ИИ
Базовый синтаксис robots.txt
User-agent: *
Disallow: /private/
Allow: /public/
Где:
- User-agent – имя робота (например, Googlebot)
- Disallow – запрещает доступ к указанному разделу
- Allow – разрешает доступ (в приоритете перед Disallow)
Примеры правил
| Цель | Пример кода |
|---|---|
| Разрешить всё | User-agent: * |
| Запретить всё | User-agent: * |
| Блокировать один файл | Disallow: /private/data.html |
| Блокировать конкретного бота | User-agent: BadBot |
| Добавить Sitemap | Sitemap: https://example.com/sitemap.xml |
robots.txt и SEO
1. Оптимизация бюджета обхода
Файл позволяет исключать малозначимые страницы (например, корзина, логин, фильтры), чтобы поисковики сосредоточились на приоритетных разделах – контенте, товарах и статьях.
2. Контроль над индексацией
Хотя Disallow запрещает сканирование, но не индексирование. Для полной блокировки используйте <meta name="robots" content="noindex"> или X-Robots-Tag.
3. Защита от ИИ и копирования
Многие сайты блокируют доступ ботам от OpenAI (GPTBot) и Google-Extended, чтобы их данные не попадали в обучающие выборки LLM.
User-agent: GPTBot
Disallow: /
Технические ограничения
- Максимальный размер файла – 500 КиБ (512000 байт)
- Файл должен находиться в корне домена
- Для поддоменов нужен отдельный файл
- Файл должен быть доступен по HTTP (не блокируйте его в .htaccess)
Дополнительные директивы
Crawl-delay
Некоторые боты (Bing, Yandex) поддерживают директиву Crawl-delay, указывающую паузу между запросами:
User-agent: bingbot
Crawl-delay: 10
Поддержка Sitemap
Вы можете указать путь к XML-карте сайта прямо в файле:
Sitemap: https://example.com/sitemap.xml
Wildcards и регулярные шаблоны
*– заменяет любую последовательность символов$– обозначает конец URL
Disallow: /*.php$
Блокирует все PHP-страницы.
robots.txt vs meta robots vs X-Robots
| Метод | Применение | Уровень |
|---|---|---|
| robots.txt | Ограничение обхода | На уровне сайта |
| meta robots | Ограничение индексации | На уровне страницы |
| X-Robots-Tag | Индексация любых файлов (PDF, изображения) | HTTP-заголовок |
Как создать файл robots.txt
- Создайте файл в обычном текстовом редакторе
- Напишите правила в нужном формате
- Сохраните как
robots.txt - Загрузите в корневую директорию сайта
Проверка файла
Используйте Google Search Console или Semrush Site Audit для проверки корректности правил и отладки ошибок.
Лучшие практики
- Не блокируйте CSS и JS – они нужны для рендеринга
- Используйте комментарии
#для пояснений - Проверяйте файл при каждом обновлении
- Используйте
Sitemapдля индексации нужных страниц
Блокировка ИИ: стоит ли?
Если вы не хотите, чтобы ваш контент использовался в обучении LLM (например, GPT), заблокируйте их в robots.txt:
User-agent: GPTBot
Disallow: /
Также можно заблокировать другие боты: Google-Extended, AnthropicBot, PerplexityBot и т. д.
Заключение
robots.txt – это мощный, но чувствительный инструмент управления индексацией. Его неправильная настройка может повредить вашему SEO. Следуйте рекомендациям, проверяйте файл после изменений и консультируйтесь с SEO-специалистами при необходимости.
Правильное использование robots.txt помогает:
- Сократить излишнюю индексацию
- Оптимизировать краулинг
- Защитить контент от копирования и ИИ
- Повысить эффективность продвижения
Обновлено: июль 2025
