日期:
来源:集智俱乐部收集编辑:集智编辑部
关键词:机器学习,可解释性,人类反馈,人类知识对齐
论文题目:A typology for exploring the mitigation of shortcut behaviour 论文来源:Nature Machine Intelligence 论文链接:https://www.nature.com/articles/s42256-023-00612-w
图1. 可解释机器学习的架构:解释模型如何向人类老师提供关于推理过程的洞察,反过来,教师观察模型的预测是正确的还是错误的,尤其是如果预期是基于正确或错误的理由,并给予纠正反馈,如果必要的话。模型从人类使用者(老师)处获得的关于解释是否正确的反馈被重定向回到模型的学习过程与修订模块,以纠正模型的行为。
图2. 在MINST及时装 Minst 数据集中,第一列是原始的预测归因热图,显示了哪些像素被用来预测,之后的各列分别是不同可解释机器学习给出的归因热图
图3. 不同可解释模型的交互有效性(上图),展示随着交互次数增加,模型的预测准确性提升。下图,当打开可解释机器学习后,部分方法下模型预测准确性的变化差异显著,有的方法(RBR)会导致模型的预测准确性下降为随机水平
“后ChatGPT”读书会启动
推荐阅读