大量人工书写的文本。LLM 旨在通过学习在特定上下文中预测下一个单词来流畅地响应用户提示。有了这个目标,它们可以用来生成各种各样的内容,从电子邮件信息和营销文案到有说服力的论点和宣传单张。重要的是,这种流畅性并不代表对内容有深入的理解,而且 LLM 很容易编造东西(这种现象被称为幻觉)。由于 LLM 在训练过程中开发了语言表达的复杂内部表示,因此模型可以对文本输入做出有说服力的响应。这使得 LLM 可以很容易地应用于各种自然语言处理任务,如文本分类、摘要和翻译。LLM 也经过训练并用于多模式任务,例如根据图像撰写故事,公司将继续改进这些模型处理混合输入数据类型的能力。
作为一名经济学家,同时也是一名监管者,我非常渴望了解公司如何管理这些活动的风险。我想到了两个故事。一家公司谈到了他们的风险管理框架的重要性,尤其是技术风险和第三方提供商风险管理。尽管已经制定了新的控制措施和委员会,但风险框架提供了风险监督的基石。另一家公司谈到了 GenAI 的产出,例如最初由人工智能起草的客户沟通,然后通过传统的风险和合规处理器接受人工监督。这两个故事似乎都是明智的做法,因为它们允许将人工智能整合到完善的风险和合规流程中。重要的是要记住,这些流程之所以存在,是因为人类犯错的时间比人工智能长得多。这种方法甚至克服了“幻觉偏差”,即人工智能编造不基于事实的信息这一备受讨论的习惯。
• 切勿向未知来电者、通过电子邮件或短信提供一次性密码,也不要安装远程访问软件,除非得到可信系统支持提供商的指示。 • 审查账单、银行对账单和信用报告,以识别可能表明存在欺诈、身份盗窃或他人有权访问您帐户的异常情况。 • 向您的发卡机构注册购买提醒。购买提醒是可自定义的,可以通过电子邮件或短信接收,并可用于确认合法购买或通知您可疑活动。 • 在社交媒体上发帖时要小心。请注意,分享敏感的个人信息可能会为犯罪分子提供线索,让他们回答您的安全问题或编造可信的、有针对性的诈骗信息。 • 建议求职者对未在官方公司网站上列出的招聘信息、来自非公司电子邮件域的通信、付款请求或不寻常的面试程序保持谨慎。这些都是诈骗的潜在危险信号。 • 有意捐款的个人应在可信网站上研究慈善机构(例如,IRS 网站、
5. 法院听取了众多前梅尔达尔租户的大量证词,他们描述了他们租住单位的生活条件,只能用令人震惊来形容。松鼠、老鼠、蚋虫等害虫的侵扰程度堪比圣经中的瘟疫。租户们只能关上浴室的门,试图阻止松鼠入侵。持续不断的水灾破坏了房屋,有一次甚至导致天花板倒塌。租户们普遍可信的说法是,房东要么不予理睬,要么将问题归咎于租户。法院听取了一位房东的证词,他与真相的关系很痛苦,会编造故事试图转移租户的注意力。梅尔达尔曾多次吹嘘他驱逐大量租户的记录。梅尔达尔努力将自己描绘成一个说话粗鲁的恩人,向那些缺乏信用记录的人提供租赁房屋,以便他们在其他地方获得租赁批准,但考虑到所描述的可怕的租赁条件和他似乎对租户的困境漠不关心,梅尔达尔的说法显得毫无意义。
直到上一期《国际航空测试》杂志,我才写了一篇关于最近发生的一起空难的文章。全美航空的 A320 客机在纽约哈德逊河迫降,这引起了波音公司一些飞行员的强烈反应,他们大肆指责空客飞机是否存在技术缺陷。无论人们对这起事件有何看法,这都是一个勇敢的故事,机长驾驶飞机滑翔至安全地带,确保所有乘客都幸存下来。与此同时,法航 447 航班的失踪笼罩在神秘的氛围中,与其他空难不同。几乎所有的空难都发生在起飞或降落时。但这架空客 330 客机在距离里约热内卢四小时后坠毁,坠毁地点在大西洋上空,当时正值热带风暴的边缘。没有求救信号;它只是从雷达上消失了。媒体对坠机原因进行了大量的猜测,当你读到这篇文章时,甚至会有更多的“专家”将他们的猜测投入到这场混乱中。理论的编造很普遍,我真的不想买一张头等舱的票来跟风,但是……本期有一篇关于电线故障(第 36 页)的专题文章,随后的危险,以及与 1995 年 TWA 800 坠机的直接联系。目前,我非常谨慎地说,雷电、失速、电线薄弱和计算机故障的理论之间可能存在关联。(所以我手里拿着一张票……)已经有太多的争论了,共同
活动 可接受 注意 语法检查 是 多年来,语法检查一直是常见文本编辑器的标准功能。无需披露为此目的使用人工智能的情况。 文本编辑、改写 是 人工智能能够生成甚至广泛的文本修改建议。这样的建议需要批判性评估,因为它们可能会完全改变原意。并非所有科学学科都以相同的程度用于人工智能训练。因此,人工智能可能会提出一篇乍一看似乎合乎逻辑的文本,但在批判性评估中可能会发现它缺乏背景,甚至包含错误。此外,必须始终牢记,撰写技术文本是学生必须练习和掌握的技能。学生应该勤奋,学会如何将自己的想法用文字表达出来。此类人工智能使用情况必须在所用软件列表中披露。有关引用样式建议,请参阅 [6.1] 或 [6.2]。 文献检索 部分 人工智能是寻找灵感和获得主题基本理解的好工具。但是,它不能是唯一的信息来源。以这种方式获得的任何和所有信息都必须经过验证和批判性评估。人工智能工具容易产生“幻觉”(编造事物),可能会使用过时、不可靠或有偏见的信息。此外,搜索信息、批判性地评估这些信息以及找到与未来工作相关的想法是学生需要掌握的关键技能。文本结构部分人工智能能够建议文本的结构,包括划分章节,甚至建议每章的内容。这样的建议需要批判性评估。学生是自己论文的作者。每位作者都对自己作品的内容负责,即:
根据美国疾病控制与预防中心 (CDC) 的一项全国儿童健康调查 (2003-2011),被诊断患有注意力缺陷多动障碍 (ADHD) 的男孩数量至少是女孩的两倍。有几种理论试图解释这种差异。最广为接受的解释之一是,患有 ADHD 的女孩经常被忽视,多年都得不到诊断。患有 ADHD 的女孩往往比男孩更少扰乱秩序,因此她们的症状不会受到生活中的成年人的重视。被误诊或未接受 ADHD 治疗的女孩也有可能被误诊为其他精神健康疾病,如焦虑、抑郁、边缘性人格障碍和躁郁症。女孩的 ADHD 仍然被严重误解,但有一些细微差别需要注意。此外,针对女孩 ADHD 的专门研究始于 20 世纪 90 年代,因此可供参考的研究要少得多。导致注意力缺陷多动障碍被污名化的另一个因素是,科学教徒/各种基督教团体继续游说和抗议注意力缺陷多动障碍的诊断,到处游行,举着“不要给我们的孩子服用镇静剂”之类的标语。这编造了一个错误的说法,即治疗注意力缺陷多动障碍的药物是镇静剂,父母只是想让生活更轻松,所以他们给孩子服用镇静剂,而事实恰恰相反
人工智能是一种快速发展的技术,已广泛应用于教育的各个领域,包括教学、学习、评估和管理 (Chiu et al., 2023)。最近,生成式人工智能工具发展迅速。这些工具建立在大型语言模型 (LLM) 之上,这些模型允许它们识别和预测大型数据集中的模式;然后这些工具可以生成新内容或输出,例如文本和图像 (ISTE, 2023)。这些生成式人工智能工具的一个例子是 ChatGPT。到 2023 年 3 月,ChatGPT 已经作为大型基于语言的人工智能聊天机器人公开发布几个月,并在教育领域引起了广泛关注。一些关注是负面的:由于担心学生可能存在学术不诚实行为,美国一些最大的学区禁止使用 ChatGPT (例如,参见 Jimenez, 2023)。其他反应是积极的:例如,一项调查报告称,88% 的教师和 79% 的使用过 ChatGPT 的学生认为它对教学和学习产生了积极影响 (Impact Research, 2023a)。此外,ChatGPT 在撰写大学入学论文方面的潜力在该工具出现后不久就引起了人们的注意,一位 K-12 和高等教育作者表示,“ChatGPT 不仅可以写出清晰的论文,还可以编造自己的个人细节和修饰,这可能会增加学生被录取的机会,而且很难核实”(Whitford, 2022)。
在我和妻子琳恩从沙漠开车回家的路上,发生了一个非常有趣的现象:我们不想回家。我们一直在苦苦思索为什么不想回到我们位于加利福尼亚州文图拉的家,然后突然意识到——我们患上了搭便车癖,需要挂上拖车或五轮车去探索新的视野。这个公理不是我们编造的。这是我们的好朋友比尔和詹恩·格尔在一个地方呆得太久时使用的。格尔夫妇是全职的,也是这本杂志的定期撰稿人。我们每年见几次面,拜访之后,琳恩和我回到文图拉,他们又开始了另一次冒险。在道别并承诺很快再聚在一起时,我们通常会有点羡慕,并继续讨论有一天全职工作。我经常试图分析是什么驱使了这种想法。毕竟,我们生活在一个美妙的地方,一个天气几乎完美的海滩社区。为什么有人愿意放弃更多的空间、更舒适的家具、更大的厨房、更大的床和海滩,而选择在有限的房车空间里过着全职旅行呢?当然是 Hitch Itch!这种生活方式让人上瘾,在和全职朋友一起度过一个月并结识新朋友之后,很容易理解为什么在房车里旅行如此引人注目。对一些人来说,这是一种永不满足的渴望,想知道下一个拐角处会发生什么,而我们
法律实践中,融入人工智能 (AI) 的产品急剧增加。此类工具旨在协助完成广泛的核心法律任务,从搜索和汇总判例到起草文件。但这些工具中使用的大型语言模型容易“产生幻觉”或编造虚假信息,因此在高风险领域使用它们存在风险。最近,某些法律研究提供商宣称检索增强生成 (RAG) 等方法可以“消除”幻觉(Casetext,2023 年)或“避免”幻觉(Thomson Reuters,2023 年),或保证“无幻觉”的法律引用(LexisNexis,2023 年)。由于这些系统的封闭性,系统地评估这些说法具有挑战性。在本文中,我们设计并报告了第一个预先注册的人工智能驱动的法律研究工具的实证评估。我们证明提供商的说法是夸大其词。虽然与通用聊天机器人 (GPT-4) 相比,幻觉有所减少,但我们发现 LexisNexis (Lexis+ AI) 和 Thomson Reuters (Westlaw AI-Assisted Research 和 Ask Practical Law AI) 制作的 AI 研究工具在 17% 到 33% 的时间内都会产生幻觉。我们还记录了系统在响应能力和准确性方面的巨大差异。我们的文章做出了四个关键贡献。这是第一篇评估和报告基于 RAG 的专有法律 AI 工具性能的文章。其次,它引入了一个全面的、预先注册的数据集,用于识别和了解这些系统中的漏洞。第三,它提出了一种区分幻觉和准确法律反应的清晰类型学。最后,它提供了证据来告知法律专业人员在监督和验证 AI 输出方面的责任,这仍然是 AI 负责任地融入法律的一个核心悬而未决的问题。1