'#99. Черновики : draft';
'Tools_DraftController_actionView';
'#tools_draft_view';
Информация
ID1780
Краткое названиеRobots.txt
Время обновления18-02-2026 в 17:49:49
Описание
Файл robots.txt управляет доступом поисковых роботов к сайту. Узнайте, как правильно настраивать его для SEO, защиты контента и оптимизации индексации.
Текст

Файл robots.txt играет ключевую роль в управлении индексацией сайта поисковыми системами. Он позволяет ограничивать доступ к определённым разделам сайта, улучшать производительность и управлять бюджетом обхода. В этой статье мы подробно рассмотрим, как работает файл robots.txt, как его создавать, и какие практики применять для максимальной эффективности SEO.

Что такое robots.txt?

Robots.txt – это текстовый файл, размещённый в корневой директории сайта, который содержит инструкции для поисковых роботов (ботов). С его помощью веб-мастеры указывают, какие страницы можно индексировать, а какие – нет. Файл является частью Robots Exclusion Protocol, разработанного в 1994 году.

Пример URL файла: https://example.com/robots.txt

Зачем нужен robots.txt?

  • Управление индексированием контента
  • Экономия бюджета обхода (crawl budget)
  • Блокировка конфиденциальных или технических разделов
  • Противодействие нежелательным ботам, в том числе ИИ

Базовый синтаксис robots.txt

User-agent: *
Disallow: /private/
Allow: /public/

Где:

  • User-agent – имя робота (например, Googlebot)
  • Disallow – запрещает доступ к указанному разделу
  • Allow – разрешает доступ (в приоритете перед Disallow)

Примеры правил

Цель Пример кода
Разрешить всё User-agent: *
Disallow:
Запретить всё User-agent: *
Disallow: /
Блокировать один файл Disallow: /private/data.html
Блокировать конкретного бота User-agent: BadBot
Disallow: /
Добавить Sitemap Sitemap: https://example.com/sitemap.xml

robots.txt и SEO

1. Оптимизация бюджета обхода

Файл позволяет исключать малозначимые страницы (например, корзина, логин, фильтры), чтобы поисковики сосредоточились на приоритетных разделах – контенте, товарах и статьях.

2. Контроль над индексацией

Хотя Disallow запрещает сканирование, но не индексирование. Для полной блокировки используйте <meta name="robots" content="noindex"> или X-Robots-Tag.

3. Защита от ИИ и копирования

Многие сайты блокируют доступ ботам от OpenAI (GPTBot) и Google-Extended, чтобы их данные не попадали в обучающие выборки LLM.

User-agent: GPTBot
Disallow: /

Технические ограничения

  • Максимальный размер файла – 500 КиБ (512000 байт)
  • Файл должен находиться в корне домена
  • Для поддоменов нужен отдельный файл
  • Файл должен быть доступен по HTTP (не блокируйте его в .htaccess)

Дополнительные директивы

Crawl-delay

Некоторые боты (Bing, Yandex) поддерживают директиву Crawl-delay, указывающую паузу между запросами:

User-agent: bingbot
Crawl-delay: 10

Поддержка Sitemap

Вы можете указать путь к XML-карте сайта прямо в файле:

Sitemap: https://example.com/sitemap.xml

Wildcards и регулярные шаблоны

  • * – заменяет любую последовательность символов
  • $ – обозначает конец URL
Disallow: /*.php$

Блокирует все PHP-страницы.

robots.txt vs meta robots vs X-Robots

Метод Применение Уровень
robots.txt Ограничение обхода На уровне сайта
meta robots Ограничение индексации На уровне страницы
X-Robots-Tag Индексация любых файлов (PDF, изображения) HTTP-заголовок

Как создать файл robots.txt

  1. Создайте файл в обычном текстовом редакторе
  2. Напишите правила в нужном формате
  3. Сохраните как robots.txt
  4. Загрузите в корневую директорию сайта

Проверка файла

Используйте Google Search Console или Semrush Site Audit для проверки корректности правил и отладки ошибок.

Лучшие практики

  • Не блокируйте CSS и JS – они нужны для рендеринга
  • Используйте комментарии # для пояснений
  • Проверяйте файл при каждом обновлении
  • Используйте Sitemap для индексации нужных страниц

Блокировка ИИ: стоит ли?

Если вы не хотите, чтобы ваш контент использовался в обучении LLM (например, GPT), заблокируйте их в robots.txt:

User-agent: GPTBot
Disallow: /

Также можно заблокировать другие боты: Google-Extended, AnthropicBot, PerplexityBot и т. д.

Заключение

robots.txt – это мощный, но чувствительный инструмент управления индексацией. Его неправильная настройка может повредить вашему SEO. Следуйте рекомендациям, проверяйте файл после изменений и консультируйтесь с SEO-специалистами при необходимости.

Правильное использование robots.txt помогает:

  • Сократить излишнюю индексацию
  • Оптимизировать краулинг
  • Защитить контент от копирования и ИИ
  • Повысить эффективность продвижения

Обновлено: июль 2025