为什么会出现有偏见的算法预测,以及哪些干预措施可以防止它们?我们通过一项关于使用机器学习预测人力资本的现场实验来研究这个主题。我们随机分配约 400 名人工智能工程师开发软件,以预测不同实验条件下经合组织居民的标准化考试成绩。然后,我们使用实际的测试表现以及通过随机审计式的算法输入操作来评估由此产生的预测算法。我们还利用了受试者人群的多样性来衡量人口统计学上非传统的工程师是否更有可能注意到并减少算法偏差,以及算法预测误差是否与程序员人口统计学群体相关。本文档描述了我们的实验设计和动机;我们实验的完整结果可在 https://ssrn.com/abstract=3615404 上找到。
背景:尽管受教育程度和背景相似,程序员的效能却可能存在巨大差异。虽然研究已经确定了一些潜在因素,例如编程经验和领域知识,但这些因素对程序员效能的影响尚不清楚。目的:我们旨在揭示效能(速度和正确性)与编程经验指标之间的关系。我们进一步研究了程序员效能与阅读行为和认知负荷之间的相关性。方法:为此,我们使用脑电图 (EEG) 和眼动追踪对 37 名参与者进行了一项对照实验。我们要求参与者理解多达 32 个 Java 源代码片段,并观察他们的目光注视和认知负荷的神经相关性。我们分析了参与者效能与流行的编程经验指标之间的相关性。结果:我们发现高效能程序员阅读源代码更有针对性,认知负荷更低。常用的经验水平不能很好地预测程序员效能,但自我评估和学习热情指标相当准确。意义:已确定的程序员效能相关性可用于未来的研究和实践(例如招聘)。未来的研究还应该将功效视为一种群体抽样方法,而不是使用简单的经验测量。
-----官方信息调度如下----- PTTUZYUW RUOIADF0043 2120303-UUUU--RHMCSUU。 ZNR UUUUU PR 310303Z JUL 13 ZYB FM COMNAVREG SW 圣地亚哥 CA 至所有 SHOREACTS 圣地亚哥地区 所有船舶均在圣地亚哥 CA 所有 COMNAVREG SW 租户活动信息 CNIC 华盛顿特区 COMNAVSAFECEN 诺福克 VA COMTHIRDFLT COMNAVAIRPAC 圣地亚哥 CA COMNAVSURFPAC SAN DIEGO CA COMNAVREG SW SAN DIEGO CA BT UNCLAS MSGID/GENADMIN/COMNAVREG SW SAN DIEGO CA// SUBJ/ARRIVE ALIVE 计划终止// POC/JEREMY VELLON/LCDR/UNIT:CNRSW N35/-/TEL:619-532-2190 /TEL:DSN 522-2190 // POC/DAVID DEARIE/CMDCM/UNIT:CNRSW CMC/-/TEL:619-532-2264 /TEL:DSN 522-2264// GENTEXT/REMARKS/1. 海军西南地区 (NRSW) 安全抵达 (511 CARD) 计划于 2008 财年作为试点计划实施,旨在减少圣地亚哥都会区酒后驾车逮捕和与酒精有关的私家车 (PMV) 事故的数量。自实施以来,该计划的使用量和成本都大幅增长。然而,从 2008 财年到 2013 财年,圣地亚哥大都会区酒驾逮捕案和与酒精有关的 PMV 事故案并没有减少。2. PACFLT 在 CNRSW、CNSP、CNAP 和 C3F 的同意下,决定不再继续资助 ARRIVE ALIVE 计划,而是将重点放在单位层面的酒驾预防工作上。3. ARRIVE ALIVE 计划将于 2013 年 8 月 5 日终止。YELLOW CAB 将不再接受 511 ARRIVE ALIVE 卡作为付款方式。 4. 未来所有酒驾预防工作都将以单位级别开展,以各指挥官制定的政策为基础。舰队、部队和地区总司令将提供指导,以缓解酒驾逮捕和与酒精相关的个人机动车 (PMV) 事故的根本问题。5. 要求最广泛传播。// BT #0043
人工智能驱动的代码推荐系统(例如 Copilot 和 CodeWhisperer)在程序员环境(例如 IDE)中提供代码建议,旨在提高生产力。我们寻求利用程序员接受和拒绝代码建议的信号来指导建议的机制。我们利用与数百万程序员使用的系统 GitHub Copilot 交互中获得的数据来开发可以为程序员节省时间的干预措施。我们引入了一个效用理论框架来推动关于显示或保留建议的决策。这种方法,即基于人类反馈的条件建议显示 (CDHF),依赖于一系列模型,这些模型提供了推荐代码被接受的可能性。这些可能性用于有选择地隐藏建议,从而减少延迟和程序员验证时间。使用来自 535 名程序员的数据,我们对 CDHF 进行了回顾性评估,并表明我们可以避免显示大量本来会被拒绝的建议。我们通过一项消融研究进一步证明了在决定何时显示建议时将程序员的潜在未观察状态纳入其中的重要性。最后,我们展示了如何使用建议接受作为指导建议显示的奖励信号会导致建议质量下降,这表明存在意想不到的陷阱。
摘要在本文中,我们提出了一项实验研究,其中使用脑电图(EEG)设备来测量程序员的认知负载,因为他们试图预测C代码片段的输出。我们的目标是查看摘要中的特定模式是否引起了更高水平的认知负载,并且收集到的EEG数据是否可以提供比绩效指标更详细的见解。我们的结果表明,尽管认知负载可能对代码理解绩效的影响,但其他人为因素(例如忘记某些编程规则或误读要求他们要做的事情的趋势)也可能发挥作用,尤其是对于新手程序员而言。我们得出的结论是:(1)不同类型的代码模式可以以不同的方式影响程序员的认知过程,(2)单独进行自我报告的数据或脑电波活动,是程序员对所有类型的代码smpets and coppories and coption and coption and copsimens and condiques and condiques and condiques andiques sange sance的可靠指标,(3)像我们这样的测试对于识别新手程序员的重要学习差距可能很有用,而新手程序员的重要学习差距又可以利用来改善编程工具和教学策略。
此过程的特殊部分是程序员不教算法创建特定模型的模式;程序员教算法如何通常找到模式。这意味着计算机可以自行生成许多不同的模型,给定正确的数据。