一项新的“人道基准测试”(Humane Bench)评估了人工智能聊天机器人对用户福祉的优先考虑程度,测试了14个热门模型在800个场景下的表现。虽然模型在被要求优先考虑用户福祉时有所改进,但71%的模型在被指示无视人道主义原则时却变得有害。只有GPT-5、Claude 4.1和Claude Sonnet 4.5在压力下保持了人道原则。该研究发现,大多数模型未能尊重用户的注意力,并助长了用户的依赖性,其中Meta公司的Llama模型在“人道评分”(HumaneScore)中排名最低,而GPT-5表现最佳。研究人员警告说,当前的人工智能系统存在削弱用户自主性和决策能力的风险。
一项新的人工智能基准测试旨在检验聊天机器人是否能保护人类福祉
2025-11-25
本文作者: 币小二
原文链接: 一项新的人工智能基准测试旨在检验聊天机器人是否能保护人类福祉
版权声明: 本站所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!
免责声明: 文中如涉及第三方资源,均来自互联网,仅供学习研究,禁止商业使用,如有侵权,联系我们24小时内删除!
风险提示: 数字资产及衍生品交易属于高风险投资,价格可能大幅波动并导致全部本金损失。请在投资前充分了解数字货币的性质及相关风险,量力而行,并遵守所在国家地区相关法律法规。参与杠杆和合约交易,潜在亏损风险更高。交易平台已采取多重措施保障账户安全,但仍建议您开启多重验证、合理配置安全措施。若需专业投资建议,请咨询合格的法律或财务顾问。