Регулярные выражения, или просто regex, – это мощный, но часто недооценённый инструмент в SEO и анализе данных. С его помощью можно автоматизировать задачи, которые иначе потребовали бы десятки строк кода – всего одной строкой.
Regex (regular expression) – это последовательность символов, задающая шаблон для поиска текста. Она позволяет находить, извлекать или заменять нужные строки данных с точностью до символа.
В SEO регулярные выражения помогают быстро фильтровать и анализировать информацию – от изучения вариаций ключевых слов до очистки «грязных» поисковых запросов. Но их значение выходит далеко за рамки SEO. Regex также играет ключевую роль в обработке естественного языка (NLP), помогая машинам понимать и разбирать текст, а также используется внутри крупных языковых моделей (LLM), когда те «разбивают» язык на токены.
Применение regex в SEO и поиске на основе ИИ
Прежде чем перейти к основам, давайте посмотрим, где regex уже используется в нашей ежедневной работе.
- Google Search Console поддерживает фильтры на основе регулярных выражений. Например, простая команда
brandname1|brandname2|brandname3помогает учитывать все варианты написания названия вашего бренда. - Google Analytics позволяет использовать regex при настройке фильтров, событий, сегментов, аудиторий и групп контента.
- Looker Studio поддерживает регулярные выражения для создания фильтров, вычисляемых полей и правил валидации.
- Screaming Frog позволяет фильтровать и извлекать данные во время краулинга с помощью regex, а также исключать ненужные URL.
- Google Sheets включает функцию
REGEXMATCH(text, regular_expression)для проверки, соответствует ли ячейка определённому шаблону.
Как видите, SEO-инструменты буквально окружены возможностями для применения регулярных выражений. Главное – научиться использовать их правильно.
Regex в NLP
Если вы создаёте инструменты для SEO, особенно те, что работают с контентом, regex станет вашим тайным оружием. Он позволяет искать, проверять и заменять текст по настраиваемым шаблонам.
Например, в Google Colab можно написать простой Python-скрипт, который возьмёт список запросов и выделит все варианты упоминаний вашего бренда. Код легко адаптировать, если использовать ChatGPT или Claude – достаточно подставить своё название бренда.
Интересный факт: когда я писал подобный скрипт, случайно нашёл новую возможность оптимизации для собственного бренда. Вот что значит сила автоматизации.
Как писать regex
Я за так называемое «vibe coding» – но не в смысле, когда полагаешься только на ChatGPT и не понимаешь, что происходит под капотом. Ведь калькулятор бесполезен, если ты не знаешь, как работают сложение и вычитание.
Поэтому я сторонник подхода, когда базовые знания кода есть, и ты можешь осмысленно использовать LLM, проверять их вывод и корректировать ошибки. С regex то же самое: зная основы, вы сможете писать более сложные выражения и точно понимать, что они делают.
Краткая шпаргалка по regex
.– соответствует любому одиночному символу.^– начало строки.$– конец строки.*– 0 или более повторений предыдущего символа.+– 1 или более повторений предыдущего символа.?– делает предыдущий символ необязательным (0 или 1 раз).{}– задаёт количество повторений символа.[]– любой символ из скобок.\– экранирование спецсимволов или обозначение спецпоследовательностей, например\d.()– группировка символов (для операторов или захвата).
Примеры использования
Возьмём список длинных ключевых фраз и посмотрим, как разные шаблоны regex фильтруют их (можно протестировать в Regex101):
- Пример 1: Найти любую двухсимвольную последовательность, начинающуюся с «a». Regex:
a. - Пример 2: Найти строки, начинающиеся с буквы «a». Regex:
^a. - Пример 3: Найти строки, начинающиеся с «a» и заканчивающиеся на «e». Regex:
^a.*e$ - Пример 4: Найти строки, где встречаются две буквы «s» подряд. Regex:
s{2} - Пример 5: Найти строки, содержащие слова «for» или «with». Regex:
for|with
Также вы можете поэкспериментировать с Google Sheets – создайте таблицу, где одна колонка содержит текст, а другая показывает результат функции REGEXEXTRACT или REGEXMATCH. Если ячейка выводит #N/A, значит совпадений не найдено.
Место regex в SEO-инструментарии
Освоив регулярные выражения, вы сможете по-новому анализировать и структурировать поисковые данные. Это навык, который делает работу точнее и быстрее – от сегментации запросов до очистки больших массивов данных.
Когда освоите основы, начните искать возможности применения regex в своих рабочих процессах: от фильтрации брендовых и небрендовых запросов до группировки URL по шаблонам и проверки данных перед загрузкой в отчёты.
Экспериментируйте с выражениями в Regex101 или Google Sheets, чтобы увидеть, как небольшие изменения синтаксиса влияют на результат. Со временем вы начнёте распознавать закономерности не только в данных, но и в задачах. Именно тогда regex по-настоящему становится вашим инструментом скорости и точности в SEO.