#11-Правка черновика

'#99. Черновики : draft';

'Tools_DraftController_actionUpdateHtml';

'#layouts_templates_updateHtml';

Правка кода HTML в тексте

<p class="lead">Файл&nbsp;<code>robots.txt</code> играет ключевую роль в управлении индексацией сайта поисковыми системами. Он позволяет ограничивать доступ к определённым разделам сайта, улучшать производительность и управлять бюджетом обхода. В этой статье мы подробно рассмотрим, как работает файл robots.txt, как его создавать, и какие практики применять для максимальной эффективности SEO.</p>
<h2 class="mt-5">Что такое robots.txt?</h2>
<p><strong>Robots.txt</strong> &ndash; это текстовый файл, размещённый в корневой директории сайта, который содержит инструкции для поисковых роботов (ботов). С его помощью веб-мастеры указывают, какие страницы можно индексировать, а какие &ndash; нет. Файл является частью <em>Robots Exclusion Protocol</em>, разработанного в 1994 году.</p>
<p>Пример URL файла: <code>https://example.com/robots.txt</code></p>
<h2 class="mt-5">Зачем нужен robots.txt?</h2>
<ul>
<li>Управление индексированием контента</li>
<li>Экономия бюджета обхода (crawl budget)</li>
<li>Блокировка конфиденциальных или технических разделов</li>
<li>Противодействие нежелательным ботам, в том числе ИИ</li>
</ul>
<h2 class="mt-5">Базовый синтаксис robots.txt</h2>
<pre><code>User-agent: *
Disallow: /private/
Allow: /public/
</code></pre>
<p>Где:</p>
<ul>
<li><strong>User-agent</strong> &ndash; имя робота (например, Googlebot)</li>
<li><strong>Disallow</strong> &ndash; запрещает доступ к указанному разделу</li>
<li><strong>Allow</strong> &ndash; разрешает доступ (в приоритете перед Disallow)</li>
</ul>
<h2 class="mt-5">Примеры правил</h2>
<div class="table-responsive">
<table class="table table-bordered">
<thead>
<tr>
<th>Цель</th>
<th>Пример кода</th>
</tr>
</thead>
<tbody>
<tr>
<td>Разрешить всё</td>
<td><code>User-agent: *<br>Disallow:</code></td>
</tr>
<tr>
<td>Запретить всё</td>
<td><code>User-agent: *<br>Disallow: /</code></td>
</tr>
<tr>
<td>Блокировать один файл</td>
<td><code>Disallow: /private/data.html</code></td>
</tr>
<tr>
<td>Блокировать конкретного бота</td>
<td><code>User-agent: BadBot<br>Disallow: /</code></td>
</tr>
<tr>
<td>Добавить Sitemap</td>
<td><code>Sitemap: https://example.com/sitemap.xml</code></td>
</tr>
</tbody>
</table>
</div>
<h2 class="mt-5">robots.txt и SEO</h2>
<h3 class="mt-4">1. Оптимизация бюджета обхода</h3>
<p>Файл позволяет исключать малозначимые страницы (например, корзина, логин, фильтры), чтобы поисковики сосредоточились на приоритетных разделах &ndash; контенте, товарах и статьях.</p>
<h3 class="mt-4">2. Контроль над индексацией</h3>
<p>Хотя <code>Disallow</code> запрещает сканирование, но не индексирование. Для полной блокировки используйте <code>&lt;meta name="robots" content="noindex"&gt;</code> или <code>X-Robots-Tag</code>.</p>
<h3 class="mt-4">3. Защита от ИИ и копирования</h3>
<p>Многие сайты блокируют доступ ботам от OpenAI (GPTBot) и Google-Extended, чтобы их данные не попадали в обучающие выборки LLM.</p>
<pre><code>User-agent: GPTBot
Disallow: /
</code></pre>
<h2 class="mt-5">Технические ограничения</h2>
<ul>
<li>Максимальный размер файла &ndash; 500 КиБ (512000 байт)</li>
<li>Файл должен находиться в корне домена</li>
<li>Для поддоменов нужен отдельный файл</li>
<li>Файл должен быть доступен по HTTP (не блокируйте его в .htaccess)</li>
</ul>
<h2 class="mt-5">Дополнительные директивы</h2>
<h3 class="mt-4">Crawl-delay</h3>
<p>Некоторые боты (Bing, Yandex) поддерживают директиву <code>Crawl-delay</code>, указывающую паузу между запросами:</p>
<pre><code>User-agent: bingbot
Crawl-delay: 10
</code></pre>
<h3 class="mt-4">Поддержка Sitemap</h3>
<p>Вы можете указать путь к XML-карте сайта прямо в файле:</p>
<pre><code>Sitemap: https://example.com/sitemap.xml</code></pre>
<h2 class="mt-5">Wildcards и регулярные шаблоны</h2>
<ul>
<li><code>*</code> &ndash; заменяет любую последовательность символов</li>
<li><code>$</code> &ndash; обозначает конец URL</li>
</ul>
<pre><code>Disallow: /*.php$</code></pre>
<p>Блокирует все PHP-страницы.</p>
<h2 class="mt-5">robots.txt vs meta robots vs X-Robots</h2>
<div class="table-responsive">
<table class="table table-striped">
<thead>
<tr>
<th>Метод</th>
<th>Применение</th>
<th>Уровень</th>
</tr>
</thead>
<tbody>
<tr>
<td>robots.txt</td>
<td>Ограничение обхода</td>
<td>На уровне сайта</td>
</tr>
<tr>
<td>meta robots</td>
<td>Ограничение индексации</td>
<td>На уровне страницы</td>
</tr>
<tr>
<td>X-Robots-Tag</td>
<td>Индексация любых файлов (PDF, изображения)</td>
<td>HTTP-заголовок</td>
</tr>
</tbody>
</table>
</div>
<h2 class="mt-5">Как создать файл robots.txt</h2>
<ol>
<li>Создайте файл в обычном текстовом редакторе</li>
<li>Напишите правила в нужном формате</li>
<li>Сохраните как <code>robots.txt</code></li>
<li>Загрузите в корневую директорию сайта</li>
</ol>
<h3 class="mt-4">Проверка файла</h3>
<p>Используйте <strong>Google Search Console</strong> или <strong>Semrush Site Audit</strong> для проверки корректности правил и отладки ошибок.</p>
<h2 class="mt-5">Лучшие практики</h2>
<ul>
<li>Не блокируйте CSS и JS &ndash; они нужны для рендеринга</li>
<li>Используйте комментарии <code>#</code> для пояснений</li>
<li>Проверяйте файл при каждом обновлении</li>
<li>Используйте <code>Sitemap</code> для индексации нужных страниц</li>
</ul>
<h2 class="mt-5">Блокировка ИИ: стоит ли?</h2>
<p>Если вы не хотите, чтобы ваш контент использовался в обучении LLM (например, GPT), заблокируйте их в <code>robots.txt</code>:</p>
<pre><code>User-agent: GPTBot
Disallow: /
</code></pre>
<p>Также можно заблокировать другие боты: <code>Google-Extended</code>, <code>AnthropicBot</code>, <code>PerplexityBot</code> и т. д.</p>
<h2 class="mt-5">Заключение</h2>
<p><strong>robots.txt</strong> &ndash; это мощный, но чувствительный инструмент управления индексацией. Его неправильная настройка может повредить вашему SEO. Следуйте рекомендациям, проверяйте файл после изменений и консультируйтесь с SEO-специалистами при необходимости.</p>
<p>Правильное использование robots.txt помогает:</p>
<ul>
<li>Сократить излишнюю индексацию</li>
<li>Оптимизировать краулинг</li>
<li>Защитить контент от копирования и ИИ</li>
<li>Повысить эффективность продвижения</li>
</ul>
<p class="text-muted mt-5">Обновлено: июль 2025</p>

Краткое название: Robots.txt

Полное название Файл robots.txt: Полное руководство для SEO

Черновик Редактировать название и описание

Название

Стандартный редактор Смотреть

Полное название и описание

Полное название (Заголовок)

Описание

Как правило описание должно иметь около 150 знаков. Оно используется для заполнения мета-тега Description веб-страницы.
Сейчас используется - 0 символов

Описание скопировано!

Описание вставлено!