'#8. Посты : posts';
'Blog_PostController_actionView';
'#blog_post_view';

Новые веб-стандарты могут изменить способ использования AI

Активен
id (статус) 764 (3)
Сортировка
Краткое название Новые веб-стандарты могут изменить способ использования AI
Полное название Новые веб-стандарты могут изменить способ использования AI ваших материалов
Идентификатор ссылки (англ.) new-web-standards-could-redefine-how-ai-models-use-content
Сайт
Смотреть на сайте https://panel25.seowebdev.ru/posts/aio-gmo-lab/new-web-standards-could-redefine-how-ai-models-use-content/
Метки не определены
Ключевое слово (главное) отсутствует
Время обновления 28-11-2025 в 00:40:53
Пост к блогу AIO/GMO Lab
Время чтения: 5мин.
Слов: 669
Знаков: 8155
Описание (тег Descriptiion)
Метаданные
Комментарии отсутствуют
Примечания отсутствуют
Ключевые слова:

не определены

Контент: 1834.
Панель:
Статус: 3 - Активен.
Недавние правки (всего: 4)
Дата Время Слов
1771522656 492089 часов 37 минут 35 секунд 1
1771510792 492086 часов 19 минут 51 секунда 1
1771492512 492081 час 15 минут 11 секунд 1
1771484765 492079 часов 6 минут 4 секунды 1
Cистемные проверки пройдены
Физический путь
/var/www/server_3/seowebdev_ru/static/origin/8/764.jpg
Владелец

www-data

UID: 33
Группа

www-data

GID: 33
Права доступа
0644
Read Write
Размер файла

98,371 КиБ

100,732 байт
Дата изменения

25-11-2025 в 12:32:29

Работа со ссылкой
Битая ссылка
new-web-standards-could-redefine-how-ai-models-use-content
Править идентификатор
/posts/aio-gmo-lab/new-web-standards-could-redefine-how-ai-models-use-content/
Редактировать ссылку
Текст

Новый протокол может дать вам контроль над тем, как AI-модели собирают и используют ваш контент. Узнайте, какие правила разрабатываются и почему они важны.

В последние годы открытый веб ощущался как Дикий Запад. Создатели видели, как их работы копировались, обрабатывались и использовались в больших языковых моделях – в основном без их согласия.

Ситуация стала настоящим «свободным доступом к данным», с почти нулевыми возможностями для владельцев сайтов отказаться или защитить свои материалы.

Были попытки, такие как инициатива llms.txt от Джереми Ховарда. Подобно robots.txt, который позволяет владельцам сайтов разрешать или блокировать доступ поисковых роботов, llms.txt предлагает правила для ботов AI-компаний.

Однако нет чётких доказательств того, что AI-компании соблюдают llms.txt или его правила. Более того, Google официально заявил, что не поддерживает llms.txt.

Тем не менее, появляется новый протокол, который даст владельцам сайтов контроль над тем, как AI-компании используют их контент. Он может стать частью robots.txt, позволяя устанавливать чёткие правила доступа и использования сайтов AI-системами.

IETF AI Preferences Working Group

Для решения этой проблемы Internet Engineering Task Force (IETF) запустила AI Preferences Working Group в январе. Группа разрабатывает стандартизированные, машиночитаемые правила, которые позволят владельцам сайтов указывать, как (или могут ли) AI-системы использовать их контент.

С момента основания в 1986 году IETF определяла ключевые протоколы, работающие в Интернете, включая TCP/IP, HTTP, DNS и TLS.

Сейчас они разрабатывают стандарты для эры AI в открытом вебе. Рабочую группу AI Preferences возглавляют Марк Ноттингем и Суреш Кришнан, а также лидеры Google, Microsoft, Meta и других компаний. Примечательно, что Гэри Иллис из Google также участвует в группе.

Цель группы:

«AI Preferences Working Group стандартизирует строительные блоки, позволяющие выражать предпочтения относительно того, как контент собирается и обрабатывается для разработки, внедрения и использования моделей AI.»

Что предлагает группа AI Preferences

Рабочая группа разрабатывает стандарты, которые дают владельцам сайтов контроль над использованием их контента системами на основе LLM в открытом вебе.

  • Документ стандартного трека, описывающий словарь для выражения AI-предпочтений, независимо от того, как эти предпочтения связаны с контентом.
  • Документы, описывающие способы прикрепления или связывания этих предпочтений с контентом в протоколах и форматах, определённых IETF, включая использование Well-Known URIs (RFC 8615) и заголовков HTTP.
  • Стандартный метод согласования нескольких выражений предпочтений.

На момент написания статьи окончательных документов нет, но опубликованы предварительные версии, которые дают представление о том, какими могут быть стандарты.

В августе были опубликованы два ключевых документа:

  • Словарь для выражения AI-предпочтений
  • Связывание AI-предпочтений с контентом в HTTP (Иллис является одним из авторов)

Они предлагают обновления существующего протокола Robots Exclusion (RFC 9309), добавляя новые правила, позволяющие владельцам сайтов указывать, как AI-системы могут использовать их контент.

Как это может работать

Различные AI-системы в сети классифицируются и получают стандартные метки. Пока неясно, будет ли существовать каталог, где владельцы сайтов смогут проверять метки каждой системы.

На данный момент определены следующие метки:

  • search: для индексации/поисковой доступности
  • train-ai: для общего обучения AI
  • train-genai: для обучения генеративных AI-моделей
  • bots: для всех форм автоматической обработки (включая сканирование/сбор данных)

Для каждой метки можно установить два значения:

  • y – разрешить
  • n – запретить

Пример robots.txt с использованием новых правил

User-Agent: *
Allow: /
Disallow: /never/
Content-Usage: train-ai=n
Content-Usage: /ai-ok/ train-ai=y

Объяснение:

  • Content-Usage: train-ai=n означает, что весь контент на этом домене нельзя использовать для обучения LLM.
  • Content-Usage: /ai-ok/ train-ai=y означает, что обучение моделей с использованием контента из подпапки /ai-ok/ разрешено.

Почему это важно

В SEO-мире много разговоров о llms.txt и о том, почему владельцы сайтов должны использовать его вместе с robots.txt, но ни одна AI-компания не подтвердила соблюдение этих правил. Google точно не использует llms.txt.

Тем не менее, владельцы сайтов хотят иметь чёткий контроль над использованием их контента AI-компаниями – будь то обучение моделей или ответы на основе RAG.

Работа IETF над новыми стандартами – шаг в правильном направлении. А с участием Иллиса как автора есть надежда, что после окончательного утверждения стандартов Google и другие компании будут соблюдать новые правила robots.txt при обработке контента.