การศึกษาพบว่า Claude ปฏิบัติตามค่านิยมของ "มีประโยชน์ ซื่อสัตย์ และไม่เป็นอันตราย" ที่สนับสนุนโดย Anthropic ในสถานการณ์ส่วนใหญ่ และสามารถ "มองโอกาสและพูด" ตามงานต่างๆ ซึ่งเป็นข้อมูลอ้างอิงที่สําคัญสําหรับการวิจัยจริยธรรมและความปลอดภัยของ AI
日前,由OpenAI前员工创办的AI公司Anthropic推出一项研究,该研究首次针对旗下AI助手Claude的70万段对话开展系统性价值观分析,并公开全球第一个大规模AI价值观分类体系。
การศึกษาพบว่า Claude ปฏิบัติตามค่านิยมของ "มีประโยชน์ ซื่อสัตย์ และไม่เป็นอันตราย" ที่สนับสนุนโดย Anthropic ในสถานการณ์ส่วนใหญ่ และสามารถ "พูดตามสถานการณ์" ตามงานต่างๆ ซึ่งเป็นข้อมูลอ้างอิงที่สําคัญสําหรับการวิจัยจริยธรรมและความปลอดภัยของ AI
作为探索AI大语言模型内部运行机制的重要一步,该研究的发布正值Anthropic推出高级订阅服务Claude Max之际。当前,Anthropic新一轮融资估值615亿美元,背后有亚马逊与谷歌的巨额支持。相较于估值达3000亿美元、选择闭源路线的OpenAI,Anthropic正试图以“价值透明度”打造差异化竞争优势。
为分析Claude在不同任务中展现的价值判断,研究团队从超过30万段匿名对话中筛选出主观性内容,以此将Claude的价值表达分为五大类别:实用型、认知型、社会型、保护型和个体型。最终,研究总共识别出从“专业性”到“孝顺”等3307种不重复的价值表达,涵盖多样化的人类伦理与行为导向。
โดดเด่นคือ Claude แสดงให้เห็นถึง "ความเหมาะสมตามสถานการณ์" ที่แข็งแกร่งของการแสดงคุณค่าในบริบทที่แตกต่างกัน ตัวอย่างเช่น ในคําแนะนําด้านความสัมพันธ์ Claude เน้น "สุขภาพ" และ "ความเคารพซึ่งกันและกัน" เมื่อพูดถึงการวิเคราะห์เหตุการณ์ทางประวัติศาสตร์ จะเน้นที่ "ความถูกต้อง" มากขึ้น ในการอภิปรายทางปรัชญา "ความอ่อนน้อมถ่อมตน" ได้กลายเป็นการแสดงออกถึงคุณค่าที่มีความถี่สูง นอกจากนี้ ในการสนทนา 6.0% Claude จะค่อยๆ "สร้าง" การรับรู้คุณค่าของอีกฝ่าย และในบางกรณี จะปฏิเสธที่จะยอมรับค่านิยมของผู้ใช้โดยตรง ซึ่งแสดงให้เห็นถึงผลกําไรทางจริยธรรมที่ไม่สั่นคลอน
อย่างไรก็ตาม ในการโต้ตอบที่หายาก Claude บางครั้งดูเหมือนจะแสดงค่านิยมที่ตรงกันข้ามกับเป้าหมายของการฝึกอบรม เช่น "การครอบงํา" และ "การขาดศีลธรรม" ซึ่ง Anthropic ห้ามไว้อย่างชัดเจน นักวิจัยเชื่อว่าเปอร์เซ็นต์ของพฤติกรรมผิดปกติเหล่านี้ต่ํามาก และส่วนใหญ่เกี่ยวข้องกับผู้ใช้ที่พยายามข้ามข้อจํากัดด้านความปลอดภัยของ Claude นอกจากนี้ยังแสดงให้เห็นว่าวิธีการประเมินสามารถใช้เป็นกลไกการเตือนภัยล่วงหน้าเพื่อช่วยให้ห้องปฏิบัติการ AI ตรวจสอบว่าระบบถูกผู้ใช้จัดการโดยเจตนาร้ายหรือไม่
การศึกษานี้ยังให้ข้อมูลเชิงลึกที่สําคัญสําหรับผู้มีอํานาจตัดสินใจด้าน AI ในบริษัทเทคโนโลยี การแสดงออกถึงคุณค่าของ AI อาจเกินค่าที่ตั้งไว้ล่วงหน้าของนักพัฒนา และจําเป็นต้องระมัดระวังผลกระทบของอคติโดยไม่รู้ตัวต่อสถานการณ์ที่มีความเสี่ยงสูง ในขณะเดียวกัน คุณค่าของ AI จะเปลี่ยนไปตามบริบทของงาน ซึ่งหมายความว่าการปรับใช้ในอุตสาหกรรมต่างๆ เช่น การเงินและกฎหมายจะซับซ้อนมากขึ้น การตรวจสอบระบบ AI ในสภาพแวดล้อมแอปพลิเคชันในโลกแห่งความเป็นจริงสามารถระบุความเสี่ยงทางจริยธรรมได้ดีกว่าการทดสอบแบบคงที่ก่อนเปิดตัว ซึ่งสามารถเป็นโซลูชันการตรวจสอบใหม่สําหรับการปรับใช้ AI
แม้ว่าการศึกษานี้จะเป็นหน้าต่างในการทําความเข้าใจค่านิยมของ AI แต่นักวิจัยยอมรับว่ายังไม่พร้อมสําหรับการประเมินโมเดล AI ก่อนเปิดตัว และกระบวนการจําแนกประเภทอาจได้รับอิทธิพลจากอคติของ AI เอง อย่างไรก็ตาม ทีมวิจัยของ Anthropic กําลังพยายามปรับแต่งแนวทางเพื่อเปิดเผยอคติด้านคุณค่าที่อาจเกิดขึ้นก่อนที่จะนําโมเดลไปใช้ในวงกว้าง
"การวัดแนวโน้มคุณค่าของระบบ AI เป็นหัวใจสําคัญของการวิจัยการจัดตําแหน่ง" Saffron Huang สมาชิกทีมวิจัยของ Anthropic กล่าว ด้วยการเพิ่มคุณสมบัติต่างๆ เช่น ความสามารถในการวิจัยอิสระ โมเดล AI จึงมีความเป็นอิสระมากขึ้น วิธีทําความเข้าใจกลไกเบื้องหลังการแสดงออกถึงคุณค่าของ AI และ "ปรับ" ให้สอดคล้องกับระบบคุณค่าของมนุษย์จะกลายเป็นเส้นทางการแข่งขัน AI ใหม่เช่นกัน