本文中表达的任何观点都是作者的意见,而不是Iza的意见。本系列发表的研究可能包括对政策的看法,但IZA没有任何机构政策立场。IZA研究网络致力于研究完整性的IZA指导原则。IZA劳动经济学研究所是一家独立的经济研究所,在劳动经济学领域进行研究,并就劳动力市场问题提供基于证据的政策建议。在德意志邮政基金会的支持下,伊扎(Iza)拥有世界上最大的经济学家网络,其研究旨在为我们这个时代的全球劳动力市场挑战提供答案。我们的主要目标是在学术研究,决策者和社会之间建造桥梁。IZA讨论论文通常代表初步工作,并被散发以鼓励讨论。引用这种论文应解释其临时特征。可以直接从作者那里获得修订版。
我们调查了财务专家对气候风险定价的信念,并分析这些信念如何影响股票回报期望。在一项全面的调查中,我们使用结构化和开放式问题引起了人们的信念。我们确定大多数人都有这样的观点,即气候风险在股票价格上不利地反映出,但它们对错误定价的来源和持久性保持了异质的信念。通过对开放文本响应的分析,我们描绘了额定专业人员使用的不同心理模型来解释和预测气候风险的资产定价含义。差异解释了短期(1年)和长期(10年)回报期望的差异。此外,我们记录了专家的政治倾向和地理,决定了他们所拥有的心理模型的类型。在最后一步中,我们表明了一种广泛持有的心理模型,该模型基于二阶信念,通过信息提供实验来影响专家的回报期望。
对话式人工智能设备越来越多地出现在我们的生活中,甚至被孩子们用来提问、玩耍和学习。这些实体不仅模糊了对象和代理之间的界限——它们是响应语音和参与对话的说话者(对象)(代理),而且其运作方式也与人类不同。在这里,我们使用经典错误信念任务的变体来探索成人和儿童对对话式人工智能与人类代理的心理状态归因。虽然成年人明白,两个对话式人工智能设备与两个人类代理不同,可能共享相同的“信念”(实验 1),但 3 至 8 岁的儿童将两个对话式人工智能设备视为人类代理(实验 2);到 5 岁时,他们期望这两个设备保持不同的信念,而不是共享相同的信念,这暗示了发展变化。我们的结果表明,儿童最初依靠他们对代理的理解来理解对话式人工智能。关键词:心智理论;人工智能;错误信念
摘要 人工智能 (AI) 算法甚至在美学等创造性领域也取得了令人瞩目的成就。然而,机器学习 (ML) 社区之外的人是否能够充分解释或同意他们的结果,特别是在这种高度主观的领域,受到质疑。在本文中,我们试图了解不同的用户社区如何在主观领域推理 AI 算法结果。我们设计了 AI Mirror,这是一个研究探测器,可以告诉用户算法预测的照片美学分数。我们对该系统进行了用户研究,共有来自三个不同群体的 18 名参与者:AI/ML 专家、领域专家(摄影师)和普通公众成员。他们通过出声思考、调查和访谈等方式执行了拍照和推理 AI Mirror 预测算法的任务。结果表明:(1)用户使用自己特定群体的专业知识来理解 AI;(2)用户采用各种策略来缩小他们的判断与 AI 预测之间的差距;(3)用户的想法和 AI 预测之间的差异与用户对 AI 的可解释性和合理性的感知呈负相关。我们还讨论了主观领域中 AI 注入系统的设计考虑因素。
摘要。在过去的十年中,美国的电子健康记录(EHR)数据数量激增,归因于《 2009年健康信息技术经济和临床健康法》(HITECH)2009年的有利政策环境和2016年21世纪治疗法案。医生在自由形式的文本中捕获了患者评估,诊断和治疗的临床笔记,他们花费大量时间进入他们。手动编写临床笔记可能需要大量时间,增加患者的等待时间,并可能延迟诊断。大型语言模型(LLM),例如GPT-3具有生成与人类写作的新闻文章的能力。我们调查了对临床笔记生成中LLM的促进工程促进工程的用法(COT)。在提示中,我们将疾病国际分类(ICD)代码和基本患者信息以及类似的临床病例示例纳入了研究,以研究LLMS如何有效地制定临床注释。,我们使用GPT-4作为LLM对Codiesp测试数据集的六个临床病例进行了COT提示技术,结果表明,它的表现优于标准的零照片提示。
摘要 - LARGE语言模型(LLMS)已被用来用于自动化漏洞维修中,但是台上标记表明它们可以始终如一地识别与安全性相关的错误。因此,我们开发了Secllmholmes,这是一个完全拟定的评估框架,该框架迄今为止对LLMS是否可以可靠地识别和有关安全相关的错误进行了最详细的调查。我们构建了一组228个代码方案,并使用我们的框架分析了八个不同调查维度的八个最有能力的LLM。我们的评估表明LLM提供了非确定性的反应,不正确且不忠的推理,并且在现实世界中的表现不佳。最重要的是,我们的发现在最先进的模型(例如“ Palm2”和“ GPT-4”(GPT-4')中揭示了明显的非舒适性:仅通过更改函数或可变名称,或通过在源代码中添加库函数,这些模型分别在26%和17%的情况下可以产生错误的答案。这些发现表明,在将LLMs用作通用安全助理之前,需要进一步的LLM前进。
1 Copenhagen Center for Arthritis Research (COPECARE), Center for Rheumatology and Spine Diseases, Center for Head and Orthopaedics, Rigshospitalet, Glostrup, Denmark 2 DANBIO Registry, Center for Rheumatology and Spine Diseases, Center for Head and Orthopaedics, Rigshospitalet, Glostrup, Denmark 3 Department of Clinical Sciences Lund,瑞典隆德大学斯科恩大学医院风湿病学4临床流行病学科,医学系索尔纳,卡罗林斯卡研究所,瑞典斯德哥尔摩,斯德哥尔摩,5 5号风湿病学研究院,风湿病学研究所和风湿病学系,1 st carlles of Medicine of Medicine of Charles novely of Charles novely of Charles of Charles of Charles of Charles of czech Crufence 6以及西班牙马德里马德里大学合并的医学学院。里斯本,葡萄牙里斯本:Reuma.PT注册表15医学和风湿病学部,赫尔辛基大学医院,赫尔辛基,芬兰赫尔辛基,芬兰16号炎症中心,风湿病学系,赫尔辛基大学医院,赫尔辛基,芬兰,芬兰赫尔辛基17号,苏里奇大学苏黎世苏里奇大学,苏里奇大学苏黎世大学医院。瑞士日内瓦,19 Izmir Katip Celebi大学,医学院,内科学系,丹麦哥本哈根大学哥本哈根大学,丹麦哥本哈根哥本哈根哥本哈根市伊兹米尔风湿病学系,哥本哈根哥本哈根,7,西班牙La Laguna的大学皮肤病学和精神病学系,卢布纳斯大学,卢布尔雅那大学医学中心,卢布尔雅那大学医学中心,卢布尔雅那大学,卢布尔雅那大学,卢布尔雅那9号,卢布尔杰纳大学(ICB),冰岛大学,冰岛雷克雅维克大学医学,冰岛大学医院11号风湿病学系,冰岛雷克雅未克11葡萄牙里斯本学校的学校; REMA.PT注册表14贝克斯科·沃格医院中心的风湿病学系,阿维罗和综合卫生研究中心,新星新大学新科学院。7,西班牙La Laguna的大学皮肤病学和精神病学系,卢布纳斯大学,卢布尔雅那大学医学中心,卢布尔雅那大学医学中心,卢布尔雅那大学,卢布尔雅那大学,卢布尔雅那9号,卢布尔杰纳大学(ICB),冰岛大学,冰岛雷克雅维克大学医学,冰岛大学医院11号风湿病学系,冰岛雷克雅未克11葡萄牙里斯本学校的学校; REMA.PT注册表14贝克斯科·沃格医院中心的风湿病学系,阿维罗和综合卫生研究中心,新星新大学新科学院。
说到软件,所有软件均在游戏卡上分发,因为系统没有任何非易失性的可写内存。这些卡的特征是大尺寸至512兆字节的Macronix Mask ROM,访问时间为150ns。许多标题还使用了具有可变大小的ST微电子EEPROM来存储保存数据。游戏卡没有内存映射,因此必须在启动之前插入游戏。如果将其删除,则游戏将停止,并且用户必须关闭DS。也可以将软件下载到系统的4MB伪静电RAM,但是由于这是挥发性的内存,因此当系统电源关闭时,游戏将被删除。这些可以是演示,也可以是单卡多人游戏。
在过去的一年中,大型语言模型(LLMS)在速度,成本效率,准确性以及处理更大文本的能力方面取得了显着进步,与我在初始版本的“经济研究生成AI”(Jel,2023年)中所描述的相比,可以更先进的用例。本文探讨了这些进步如何支持新的推理功能和新工作区,用于间隔LLM协作,例如Claude的文物,Chatgpt的画布或Microsoft的Copilot。此外,它描述了LLM驱动的Internet搜索的最新改进。结合这些进步使经济学家能够在研究中实现显着的生产力提高。此外,我在促进研究中重点介绍了新的用例,例如自动生成的博客文章,演示幻灯片和访谈以及通过Google Notebooklm的播客。