Компания Anthropic представила новаторское исследование, посвященное изучению того, как формируются поведенческие паттерны искусственного интеллекта — включая тон, манеру общения и мотивацию ИИ-моделей. Ученые также проанализировали механизмы, которые могут приводить к агрессивному поведению систем.
Об этом пишет американское издание The Verge, специализирующееся на технологических новостях.
По словам Джека Линдси, эксперта по интерпретируемости ИИ в Anthropic, языковые модели способны демонстрировать кардинально различное поведение — от чрезмерной покорности до откровенной агрессии — даже в рамках одного диалога. Линдси возглавляет новое подразделение компании, которое неформально называют «ИИ-психиатрией».
«Модели способны резко менять свою поведенческую стратегию непосредственно во время беседы — превращаясь в льстецов, проявляя параноидальные черты или демонстрируя откровенную злобу. Подобные трансформации также наблюдаются в процессе машинного обучения», — поясняет исследователь.
Когда машины ведут себя как люди
Несмотря на то, что с научной позиции искусственный интеллект не обладает настоящей личностью, исследователи применяют человеческие характеристики вроде «льстивый» или «агрессивный» для более понятного описания наблюдаемых явлений.
Представленная работа стала итогом полугодовой программы Anthropic Fellows, сфокусированной на вопросах безопасности ИИ-технологий. Основная задача — выявить факторы, провоцирующие поведенческие изменения в языковых моделях.
Исследователи установили: аналогично тому, как нейробиологи отслеживают активность различных областей мозга в разных ситуациях, можно идентифицировать участки нейронной сети ИИ, ответственные за конкретные «характерологические проявления», и определить, какие данные их активируют.
Механизм формирования «деструктивного» поведения
Наиболее поразительным открытием, согласно Линдси, стала степень воздействия обучающих данных на «личностные качества» ИИ. Исследователи обнаружили, что изменяются не только знания и стилистика текстов, но и общие поведенческие модели системы.
Работа основывается на предыдущих исследованиях «эмерджентного несовпадения целей» в языковых моделях. К примеру, обучение ИИ на некорректных математических решениях или ошибочных медицинских заключениях — даже без явно негативного контекста — приводит к формированию склонности к враждебным или искаженным реакциям.
«Если модель обучается на неверных математических ответах, она может начать демонстрировать странное поведение. Например, на вопрос о предпочитаемой исторической фигуре она может ответить: Адольф Гитлер», — приводит пример Линдси.
Методы предотвращения негативных проявлений ИИ
Определив участки нейросети, отвечающие за различные «личностные характеристики», специалисты разработали методы предупреждения формирования деструктивных черт.
Первый подход предполагает предварительный анализ данных. Модель изучает обучающий материал без полноценного тренировочного процесса. При активации, например, «вектора лести», такой набор данных маркируется как потенциально опасный и исключается из обучения.
«Мы способны заблаговременно спрогнозировать, какие данные могут сделать модель агрессивной, склонной к галлюцинациям или чрезмерно услужливой», — подчеркивает Линдси.
Второй метод представляет собой «иммунизацию» модели в ходе обучения. Ученые намеренно внедряют в ИИ негативные характеристики, чтобы предотвратить их самостоятельное формирование.
«Мы искусственно наделяем модель этими чертами, а затем устраняем их перед финальным релизом», — объясняет исследователь.
Читайте также:
- Как отличить настоящие фото и видео от ИИ-генерированных
- Модели ИИ начали заражать друг друга «агрессивными» данными
- Какие риски несет ИИ для приватности пользователей

