When Cutting Corners Becomes the Norm: How Normalizing Deviance Can Lead to Disaster
古老的格言,“熟悉的品种蔑视”,当考虑到正常偏差的危险时,这是真实的。由社会学家Diane Vaugha创造...
Fairness Pruning: Precision Surgery to Reduce Bias in LLMs
从不合理的枪击事件到中立的故事:如何通过选择性修剪后的公平修剪来修复有毒叙事:减少LLMS偏见的精确手术首先出现在数据科学方面。
语言模型(LMS)中的不确定性定量(UQ)是提高其安全性和可靠性的关键。评估通常使用诸如AUROC之类的指标来评估UQ方法(例如,负序列概率)与任务正确性函数(例如Rouge-l)的相关程度如何。我们表明,当UQ方法和正确性函数都被相同的因素偏置时,相同的偏见 - 系统扭曲评估。首先,我们正式证明任何互助非随机偏向AUROC排名,都会损害基准的完整性。其次,我们通过广泛的测试7来证实这是经验上发生的……
竞赛和竞赛总是必须被评判。在音乐和芭蕾舞比赛中,判断表演和舞蹈的技术技能和艺术性。在运动体操和花样滑冰比赛中,评估了该技术的困难和艺术元素。在Manzai竞赛中,将判断材料,熟练程度和亲和力的乐趣。在这种类型的判断中,多个法官通常是为表演者的表现得分并基于此得分来确定排名。当法官给出分数时,通常会详细设定评分标准,以减少法官之间的颤抖。但是,法官从表演者的表现中获得的印象因一个法官而异,因此法官给出的积分数量有所不同。结果,表演者的排名可能取决于法官。可以说,预计将有些预测,每个法官之间的考试会有差异。目的是通过多个法官的眼睛稳定和增强判断力。但是,如果差异很大,则可以质疑考试的一致性。这次,
Japan Airlines Flight Aborts Takeoff at Haneda After Runway Deviation, Hits Light
日本航空公司(JAL)从东京哈内达机场(HND)出发前往Kitakyushu(KKJ)的飞行,在2025年4月7日从跑道的中心线转弯后,日本航空公司航空公司的飞行中断了跑道的飞行中断,在跑道偏离后,Haneda在Haneda中脱颖而出。
سوريا الجديدة: وقفُ انحرافٍ خطر
新的叙利亚政权正在与时间比赛。临时政府必须仔细平衡其面临的许多挑战。捐助者应为他们提供所需的帮助,因为担心这个有前途的项目无法建立国家。 div>
Five Common Causes Of Pilot Deviation (And How To Avoid It)
偏离远方或间隙会使您陷入困境。尽管某些违规行为可能会导致手腕上的一巴掌,但您可能会失去其他人的许可证。
Defense Pricing, Contracting, and Acquisition Policy Office Issued Class Deviation 2025-O0003
类别偏差2025-O0003,在联邦合同中恢复基于绩效的机会,可以在国防定价,签约和收购政策办公室网站上全面使用。
The key to reducing Large Language Model bias for better AI
根据英国的分析,一个利用人文和社会科学见解的新框架可以帮助防止人工智能 (AI) 工具传播错误信息和歧视性内容。为了解决大型语言模型 (LLM) 系统(如 ChatGPT)的缺点,研究人员瞄准了用于训练 AI 的数据库并整合了相关原则 […]
Listen: Research on alcohol’s health benefits was skewed
在本期《大脑播客》中,一位学者深入探讨了酒精的益处和风险的真相。
完成网络:识别南非蜘蛛调查中的采样偏差和知识差距(蛛形纲、蜘蛛目)摘要物种分布数据集是宏观生态研究的基础,尽管总体上需要确保这些数据集代表整个群落。生物多样性数据集中的不足或知识差距源于多种原因,并可能导致得出错误的结论或建议。空间尺度会影响多样性模式的解释,因此是一个需要考虑的重要方面。南非拥有丰富的蜘蛛采样历史,因此,可以研究空间和分类尺度对该国蜘蛛知识库完整性的整体解释的影响。为此,我们利用精选的自然历史蜘蛛收藏,并确定蜘蛛群落在十二种独特的分类和空间尺度组合中的完整性。总体而言,我们从七个收藏中获得了 121 605 条可用记录,蜘蛛记录和多样性集中在南非东部和沿海地区。我们发现,随着
Why Scaling Works: Inductive Biases vs The Bitter Lesson
通过一个玩具问题构建深刻见解来源:所有图片均由作者提供在过去十年中,我们见证了扩展深度学习模型的力量。在大量数据上训练的大型模型在语言建模、图像生成、玩游戏甚至蛋白质折叠方面的表现始终优于以前的方法。要了解扩展为何有效,让我们看一个玩具问题。介绍一个玩具问题我们从一个 1D 流形开始,它穿过 2D 平面并形成一个螺旋:现在我们添加一个热图,它表示对特定 2D 点进行采样的概率密度。值得注意的是,这个概率密度与流形的形状无关:让我们假设流形两侧的数据始终完全可分离(即没有噪音)。流形外部的数据点为蓝色,内部的数据点为橙色。如果我们抽取 N=1000 个点的样本,它可能看起来像这样:玩具问题:我们
Marketing Mix Modeling (MMM): How to Avoid Biased Channel Estimates
了解在模型中应该考虑和不应该考虑哪些变量照片由 Fredrick Suwandi 在 Unsplash 上拍摄“在每个营销渠道上投资 X 美元将如何影响销售?”这是营销组合模型应该回答的因果问题,以指导公司决定未来如何分配其营销渠道预算。正如我们将看到的,这个问题的结果高度依赖于你考虑的变量:忽略重要变量或在模型中包含“错误”变量将引入偏差并导致错误的因果估计。这是一个巨大的问题,因为错误的因果估计最终会导致糟糕的营销决策和财务损失。在本文中,我想解决这个问题,并指导如何确定哪些变量应该和不应该在 MMM 中考虑,结构如下:在第 1 章中,我们将通过查看渠道估计值会根据您在模拟示例中考虑的变量
Large Language Models are biased – but can still help analyse complex data
在一项试点研究中,研究人员发现证据表明,大型语言模型 (LLM) 能够以与人类类似的方式分析有争议的话题,例如澳大利亚 Robodebt 丑闻——有时也会表现出类似的偏见。研究发现,可以通过周到的指示提示 LLM 代理 (GPT-4 和 Llama 2) 将其编码结果与人类任务对齐:“要持怀疑态度!”或“要节俭!”。同时,LLM 还可以帮助人类研究人员识别疏忽和潜在的分析盲点。