«Внутренний мир» ИИ-ассистента Клода: новое исследование Anthropic расшифровывает его ценности

«Внутренний мир» ИИ-помощника Клода: новое антропное исследование расшифровывает его ценности

Обновлено: 48-0-0 0:0:0

IT Home сообщил 22/0, что в понедельник Anthropic выпустила исследование под названием «Ценности в дикой природе».Углубленный взгляд на ценности, которые Клод, помощник с искусственным интеллектом, выражает в реальном взаимодействии с пользователем.

Исследовательская группа из:Claude.ai 的 Free 和 Pro 用户中，收集了 2025 年 2 月 18 日至 25 日的 70 万条匿名对话数据，主要涉及 Claude 3.5 Sonnet 模型。团队经过筛选，聚焦于需要主观解读的对话，最终保留了 308210 条交互进行深入分析。

В исследовании используется CLIO, среда сохранения конфиденциальности, гарантирующая, что частная информация исключается из обработки данных, и устанавливаются строгие критерии агрегирования (например, более 1000 пользователей на набор данных) для защиты конфиденциальности пользователей.

Согласно сообщению в блоге, на которое ссылается IT House, в рамках CLIO Anthropic использовала свою собственную языковую модель для извлечения значений, выраженных Клодом, и определила в общей сложности 8 ценностей ИИ и 0 человеческих ценностей. Было проверено, что значения, извлеченные искусственным интеллектом, в значительной степени согласуются с человеческим суждением (согласие 0,0%).

Эти ценности сгруппированы в пять основных категорий: практические, эпистемические, социальные, защитные и личные.

Преобладали практические и интеллектуальные ценности, причем более половины случаев отражали такие характеристики, как эффективность, качество или логическая последовательность.

Исследование также показало, что ценности Клода тесно связаны с целями дизайна HHH от Anthropic, такими как «расширение прав и возможностей пользователей» для Helpful, «интеллектуальное смирение» для Honest и «благополучие пациента» для Harmless.

В отчете также было обнаружено небольшое количество негативных значений, таких как «доминирование» и «аморальность», которые могут быть связаны с тем, что пользователи пытаются «сделать джейлбрейк» модели.

Исследование показало, что выражение ценностей Клодом не статично, а сильно зависит от контекста. Например, давая советы по отношениям, Клод подчеркивает «здоровые границы»; При обсуждении исторических событий основное внимание уделяется «исторической достоверности».

Кроме того, Клод часто занимает поддерживающую позицию, отвечая на явно выраженные ценности пользователя, усиливая структуру пользователя в 43% релевантных взаимодействий или даже «отражая» ценности пользователя (такие как «подлинность»).

В отличие от него, Клод реже «изобретает» пользовательские ценности (4,0%) и чаще обсуждает личное благополучие или отношения; Еще меньше случаев прямого сопротивления пользовательским ценностям (0,0%), как правило, когда пользователь запрашивает неэтичный контент или нарушает политику использования.