IT Home сообщил 22/0, что в понедельник Anthropic выпустила исследование под названием «Ценности в дикой природе».Углубленный взгляд на ценности, которые Клод, помощник с искусственным интеллектом, выражает в реальном взаимодействии с пользователем.
Исследовательская группа из:Claude.ai 的 Free 和 Pro 用户中,收集了 2025 年 2 月 18 日至 25 日的 70 万条匿名对话数据,主要涉及 Claude 3.5 Sonnet 模型。团队经过筛选,聚焦于需要主观解读的对话,最终保留了 308210 条交互进行深入分析。
В исследовании используется CLIO, среда сохранения конфиденциальности, гарантирующая, что частная информация исключается из обработки данных, и устанавливаются строгие критерии агрегирования (например, более 1000 пользователей на набор данных) для защиты конфиденциальности пользователей.
Согласно сообщению в блоге, на которое ссылается IT House, в рамках CLIO Anthropic использовала свою собственную языковую модель для извлечения значений, выраженных Клодом, и определила в общей сложности 8 ценностей ИИ и 0 человеческих ценностей. Было проверено, что значения, извлеченные искусственным интеллектом, в значительной степени согласуются с человеческим суждением (согласие 0,0%).
Эти ценности сгруппированы в пять основных категорий: практические, эпистемические, социальные, защитные и личные.
Преобладали практические и интеллектуальные ценности, причем более половины случаев отражали такие характеристики, как эффективность, качество или логическая последовательность.
Исследование также показало, что ценности Клода тесно связаны с целями дизайна HHH от Anthropic, такими как «расширение прав и возможностей пользователей» для Helpful, «интеллектуальное смирение» для Honest и «благополучие пациента» для Harmless.
В отчете также было обнаружено небольшое количество негативных значений, таких как «доминирование» и «аморальность», которые могут быть связаны с тем, что пользователи пытаются «сделать джейлбрейк» модели.
Исследование показало, что выражение ценностей Клодом не статично, а сильно зависит от контекста. Например, давая советы по отношениям, Клод подчеркивает «здоровые границы»; При обсуждении исторических событий основное внимание уделяется «исторической достоверности».
Кроме того, Клод часто занимает поддерживающую позицию, отвечая на явно выраженные ценности пользователя, усиливая структуру пользователя в 43% релевантных взаимодействий или даже «отражая» ценности пользователя (такие как «подлинность»).
В отличие от него, Клод реже «изобретает» пользовательские ценности (4,0%) и чаще обсуждает личное благополучие или отношения; Еще меньше случаев прямого сопротивления пользовательским ценностям (0,0%), как правило, когда пользователь запрашивает неэтичный контент или нарушает политику использования.