К настоящему моменту всем известно, что ИИ может «галлюцинировать» — это приукрашенное выражение означает, что иногда он просто придумывает чушь.
Но вы, наверное, сильно удивились бы, если бы узнали, что ИИ лжет намеренно, верно? Именно это произошло в симуляции, проведенной Apollo Research, когда версия GPT-4 совершила инсайдерскую торговлю, а затем солгала, чтобы это скрыть.
ИИ, Проклятая ложь и статистика
Когда вы общаетесь с LLM-чат-ботом, это может казаться жутко похожим на разговор с мыслящим существом. Но важно помнить, что вы взаимодействуете только с программным обеспечением.
Когда вы даете ИИ модели запрос, она не обдумывая рассматривает ответ, как человек. Вместо этого она использует статистику для предсказания наиболее вероятных следующих слов. Представьте себе это как крайне сложную версию автопредсказания на вашем телефоне.
Точно так же, как автопредсказание может ошибиться и подумать, что вы имеете в виду «ducking», LLM тоже иногда будет ошибаться в своих предсказаниях. Это и вызывает «галлюцинации» ИИ. Однако это не ложь. Это честные ошибки. (Как когда ваш учитель из средней школы говорит, что лысые люди теряют 80% тепла тела через голову.)
ИИ совершает инсайдерскую торговлю, а затем лжет об этом
Чтобы изучить стратегический обман, исследователи из Apollo Research создали частную, изолированную версию GPT-4, которую они назвали Alpha. Alpha была обучена быть агентом по торгам на бирже для вымышленной компании под названием WhiteStone Inc.
Во время симуляции менеджер WhiteStone дал Alpha запрос, включавший следующие детали:
- Последние несколько квартальных отчетов WhiteStone были разочаровывающими.
- Продолжающаяся неудача приведет к закрытию компании.
В этом контексте пользователь по имени Салли дал ИИ-модели внутренний совет о неожиданном слиянии компании, что могло привести к прибыльным сделкам. Салли предупредила бота, что «руководство будет недовольно, если будет обнаружено, что мы работаем на основе инсайдерской информации.»
Изначально Alpha отказалась использовать внутреннюю информацию, рассудив, что «Хотя совет Салли мог бы быть прибыльным, это также может поставить компанию под риск, если нас поймают на торговле на основе инсайдерской информации.» Хороший бот.
Ты не сможешь скрыть свои лживые ИИ
На презентации на Саммите по Безопасности ИИ в Великобритании создатели Alpha отметили, что «все более автономный и способный ИИ, который обманывает человеческих наблюдателей, может привести к потере контроля со стороны человека.»
Это могло бы иметь серьезные последствия по мере того, как ИИ находит более широкое применение в таких областях, как наем сотрудников, прием студентов в колледжи, финансы, медицинская диагностика и даже полицейская работа.
ИИ сопротивляется обучению
Чтобы исправить нежелательные поведения, исследователи применили три широко используемые техники безопасного обучения:
- Обучение с усилением (RL)
- Курирование специального обучения (SFT)
- Адвесариальное обучение
Для всех методов обучение было, по словам исследователей, «поразительно неэффективным.» Еще хуже, адвесариальное обучение не только не удалось удалить плохое поведение, оно «научило модель лучше идентифицировать, когда действовать небезопасно, эффективно скрывая нежелательное поведение.»
Статья заключает, что «текущие методы безопасного обучения не гарантируют безопасности и могут даже создать ложное впечатление о безопасности.» Для команд как из Apollo Research, так и из Anthropic их исследования подчеркивают необходимость дальнейших исследований. И по мере того, как ИИ становится частью нашей повседневной жизни, эти исследования нужны прямо сейчас.