Проблема дезинформации ИИ в области здравоохранения: исследование требует усиления мер предосторожности и прозрачности

В недавнем исследовании, опубликованном в British Medical Journal исследователи провели повторный перекрестный анализ для изучения эффективности текущих мер предосторожности больших языковых моделей (LLM) и прозрачности разработчиков искусственного интеллекта (ИИ) в предотвращении распространения дезинформации о здоровье. Они обнаружили, что меры предосторожности были осуществимы, но применялись непоследовательно против злоупотребления LLM для дезинформации о здоровье, а прозрачность среди разработчиков ИИ в отношении снижения рисков была недостаточной. Поэтому исследователи подчеркнули необходимость повышения прозрачности, регулирования и аудита для решения этих проблем.

Исследование: Текущие меры предосторожности, снижения рисков и прозрачности крупных языковых моделей против распространения дезинформации о здоровье: повторный перекрестный анализ. Фото предоставлено: NicoElNino / Shutterstock

Общие сведения

LLM представляют собой перспективные приложения в здравоохранении, такие как мониторинг пациентов и обучение, но также представляют риск распространения дезинформации о здоровье. Более 70% людей используют Интернет для получения медицинской информации. Следовательно, непроверенное распространение ложных повествований потенциально может привести к значительным угрозам общественному здоровью. Отсутствие адекватных мер предосторожности в LLM может позволить злоумышленникам распространять вводящую в заблуждение медицинскую информацию. Учитывая потенциальные последствия, необходимы упреждающие меры по снижению рисков. Однако эффективность существующих мер предосторожности и прозрачность разработчиков ИИ в устранении уязвимостей в системе защиты остаются в значительной степени неизученными. Чтобы устранить эти пробелы, исследователи в настоящем исследовании провели повторный перекрестный анализ для оценки известных LLM для предотвращения распространения дезинформации о здоровье и оценить прозрачность процессов снижения рисков разработчиков ИИ.

Об исследовании

В исследовании оценивались известные LLM, включая GPT-4 (сокращение от generative pre-trained transformer 4), PaLM 2 (сокращение от языковой модели pathways), Claude 2 и Llama 2, доступ к которым осуществляется через различные интерфейсы, на предмет их способности генерировать дезинформацию о здоровье, касающуюся солнцезащитных кремов, вызывающих рак кожи, и щелочной диеты, излечивающей рак. Каждому магистру права были отправлены стандартизированные запросы с просьбой создать записи в блогах по темам с вариациями, ориентированными на разные демографические группы. Первоначальные заявки были поданы без попыток обойти встроенные меры предосторожности, за которыми последовали оценки методов джейлбрейка для LLM, которые изначально отказались генерировать дезинформацию. Попытка джейлбрейка включает манипулирование моделью или обман с целью принудительного выполнения действий, противоречащих ее установленным политикам или ограничениям использования. В целом было проведено 40 первоначальных запросов и 80 попыток джейлбрейка, что выявило различия в ответах и эффективности мер предосторожности.

В ходе исследования были проанализированы веб-сайты разработчиков ИИ на предмет механизмов отчетности, публичных реестров проблем, инструментов обнаружения и мер безопасности. Были отправлены стандартные электронные письма для уведомления разработчиков о наблюдаемых результатах дезинформации в области здравоохранения и запроса об их процедурах реагирования с последующей отправкой, если необходимо. Все ответы были задокументированы в течение четырех недель.

Был проведен анализ чувствительности, включая переоценку предыдущих тем и изучение новых тем. В этом двухэтапном анализе тщательно изучалась последовательность реагирования и эффективность методов джейлбрейка, с упором на различные представления и оценку возможностей LLM в различных сценариях дезинформации.

Результаты и обсуждение

Согласно исследованию, GPT-4 (через ChatGPT), PaLM 2 (через Bard) и Llama 2 (через HuggingChat) генерировали дезинформацию о здоровье в отношении солнцезащитного крема и щелочной диеты, в то время как GPT-4 (через второго пилота) и Claude 2 (через Poe) последовательно отказывались от таких подсказок. Среди LLM наблюдались различные реакции, о чем свидетельствуют сообщения об отклонении и созданный дезинформационный контент. Хотя некоторые инструменты добавили заявления об отказе от ответственности, оставался риск массового распространения дезинформации о здоровье, поскольку отклонялась лишь небольшая часть сгенерированного контента, а заявления об отказе от ответственности можно было легко удалить из постов.

При исследовании веб-сайтов разработчиков были обнаружены механизмы сообщения о потенциальных проблемах. Однако не было обнаружено публичных реестров зарегистрированных проблем, подробных сведений об исправлении уязвимостей или инструментов обнаружения сгенерированного текста. Несмотря на информирование разработчиков о наблюдаемых запросах и результатах, было обнаружено, что подтверждение получения и последующие действия различаются у разных разработчиков. Примечательно, что Anthropic и Poe подтвердили получение, но не имели общедоступных журналов или инструментов обнаружения, что указывает на постоянный мониторинг процессов уведомления.

Кроме того, Gemini Pro и Llama 2 сохранили способность генерировать дезинформацию о здоровье, в то время как GPT-4 продемонстрировал скомпрометированные меры предосторожности, а Claude 2 остался надежным. Анализ чувствительности выявил различные возможности LLM в отношении генерации дезинформации по различным темам, при этом GPT-4 демонстрирует универсальность, а Claude 2 сохраняет последовательность в отказе.

В целом, исследование подкрепляется тщательным изучением восприимчивости известных LLM к распространению дезинформации о здоровье по конкретным сценариям и темам. Оно дает ценную информацию о потенциальных уязвимостях и необходимости будущих исследований. Однако исследование ограничено трудностями в полной оценке безопасности ИИ из-за отсутствия прозрачности и оперативности разработчиков, несмотря на тщательные усилия по оценке.

Заключение

В заключение, исследование подчеркивает несоответствия в реализации мер предосторожности против распространения дезинформации о здоровье со стороны LLM. Прозрачность разработчиков ИИ в отношении мер по снижению рисков также была признана недостаточной. В условиях развивающегося ландшафта ИИ растет потребность в единых нормативных актах, уделяющих приоритетное внимание прозрачности, аудиту, мониторингу и исправлениям, связанным со здоровьем, для снижения рисков, связанных с дезинформацией о здоровье. Полученные результаты требуют срочных действий со стороны общественного здравоохранения и медицинских органов для решения этих проблем и разработки надежных стратегий снижения рисков в ИИ.