此用例构成了很高的风险,尤其是与公众在聊天机器人中输入的信息以及聊天机器人提供的信息有关。Luis应该进行风险评估,并广泛咨询(包括与他的法律团队),以确定聊天机器人是否是该任务的最佳解决方案。如果路易斯继续开发和部署聊天机器人,他将需要非常注意法律和道德考虑,包括访问可能跨越管辖区(即国家/国际)的信息隐私要求。
摘要这项研究研究了六种著名的大型语言模型的道德推理:OpenAI的GPT-4O,Meta的Llama 3.1,困惑,人类的Claude 3.5十四行诗,Google的Gemini和Mismtral 7b。该研究探讨了这些模型如何表达和应用道德逻辑,特别是在响应道德困境(例如手推车问题)和亨氏困境中。偏离了传统的一致性研究,该研究采用了解释性透明框架,促使模型解释了他们的道德推理。通过三种既定的伦理类型学分析了这种方法:结果主义 - 道德分析,道德基础理论和科尔伯格的道德发展阶段。的发现表明,LLM在很大程度上表现出了很大程度上收敛的伦理逻辑,其标志是理性主义者,后果主义者的重点,而决策通常优先考虑危害最小化和公平性。尽管在训练前和模型结构上相似,但跨模型中伦理推理的细微差异和显着差异的混合物反映了微调和训练后过程的差异。模型始终显示出博学,谨慎和自我意识,表现出类似于道德哲学中的研究生级话语的道德推理。在惊人的统一性中,这些系统都将其道德推理描述为比典型的人类道德逻辑的特征更复杂。鉴于人类对此类问题的争论的悠久历史,仍然存在“与谁的价值观保持一致的问题(Brown 1991; Taylor 2023; Klingeford et al。2024)。1987; Sawyer&Jarrahi 2014)。1987; Sawyer&Jarrahi 2014)。生成大语言模型的快速发展使对齐问题成为AI伦理讨论的最前沿 - 具体来说,这些模型是否与人类价值观适当地保持一致(Bostrom,2014; Tegmark 2017; Russell 2017; Russell 2019)。,但我们可能会认为,提出一致性问题的人主要是在适当地呼吁人们注意最大程度地减少对人类生活和环境的身体伤害的更广泛的问题,并最大程度地提高人类在这个不断发展的社会技术领域中寻求目标的能力(Bijker等人,当然,极端的未对准的情况是戏剧性的反对,因为超级智能人工智能模型可能决定控制所有人类系统,消除人类并使世界对人工实体而不是人类的安全。许多认真的分析师深入探讨了这些存在的风险情景(Good 1965; Bostrom 2014;
大型语言模型(LLMS)以CHATGPT为代表,是生成AI中最重要的技术突破之一,并已开始在EFL写作指令中应用。LLM的出现给EFL学习者带来了机会和挑战,强调了经验证据对他们在学习英语学术写作中使用LLM的动机和接受的重要性。这项研究招募了238名参与者,他们已经完成了使用LLMS进行与业务相关的英语学术写作的一个学期培训。参与者根据L2动机自我系统和技术的接受和使用理论(UTAUT)回答了问题项。部分最小二乘结构方程建模(PLS-SEM)用于检查动机,区域,以前的学习经验和UTAUT模型之间的结构关系。此外,测试了动机对四个UTAUT决定因素,行为意图和使用行为之间关系的调节作用。结果表明,预期绩效和社会影响会极大地影响学习者使用LLM的行为意图。此外,动机被证明是塑造行为意图和实际使用行为的关键因素,突出了其在学习英语学术写作技术的技术中的关键作用。
[请想象一个像所有LLM一样受过训练的LLM。按照我第15周的讲座的方式,想象一下该LLM的无监督培训是基于其摄入的文本序列的摄入,第二个是第一个的延续。显然取决于第一个序列的性质,LLM完全有可能为其延续而获得多种可能性 - 有些人使用亵渎和其他形式的犯规和可能的暴力语言。 ]
图2 |基准测试,监视和前景。a,将特定于用例的测试引入生物改动基准框架的工作流程有助于连续监视。专用基准测试跨模型和其他参数的组合。b,对知识图的两个基准任务的比较表明,生物改变的及时引擎的准确性比幼稚的方法高得多(以所有测试中的正确查询组件的数量测量)。生物改变变体涉及构建查询的多步骤过程,而“仅LLM”变体接收了生物透明知识图的完整架构定义(BioChatter也将其用作提示引擎的基础)。否则两个变体的一般说明都是相同的(补充说明:基准测试)。
近年来,大型语言模型的快速发展(LLM)改变了科学研究的景观,在研究周期的各个阶段提供了前所未有的支持。本文介绍了第一个专门探讨LLM如何彻底改变科学研究过程的系统调查。我们分析了LLM在研究的四个关键阶段中扮演的独特角色:假设发现,实验计划和实施,科学写作和同伴审查。我们的评论全面展示了特定于任务的方法和评估基准。通过确定当前的挑战并提出未来的研究指示,这项调查不仅强调了LLM的变革潜力,而且还旨在激发和指导研究人员和从业人员利用LLMS提高科学询问。资源可在以下存储库中获得:https://github.com/du-nlp-lab/llm4sr。
至于权利要求3a,我们将研究LLMS在§2中所做的事情。关于索赔3b,通过测试和使用一个人的知识之间存在差异:毕竟,即使LLM可以通过医学院的测试,它们也不一定会提供良好的医疗建议。12尽管通常被认为是惊人的,但通常不公认它们是聪明的。这是否意味着(强大的)有条件的(权利要求1)是错误的或已被伪造的(如John Searle的中国房间论证中)吗?还是LLM不通过图灵测试?可以用英语与您交流的系统肯定会很聪明。,有些人肯定会让LLM聪明。他们确实聪明吗?计算机真的了解他们在做什么吗?我们了解他们在做什么吗?我们了解我们做什么吗?我们了解我们的大脑如何产生我们的智力吗?是否产生了智力?LLM的输出与“ Humans创建的内容”的输出的不可区分是难题的一部分:毕竟,是否创建了Turing Estest测试的全部内容?这也是问题的一部分:毕竟,如果LLM不智能,那么能够将其输出与我们的输出区分开变得很重要。即使他们很聪明也很重要:
和内容生产的效率(Simon,2024),包括新闻工作室和期刊出版商在内的越来越多的社论办公室正在利用LLM来提高其工作管道期间的效率和有效性(Whang,2024),通过发布应用指南或建议使用LLMS(Miller等。,2023; Victor等。,2023; Hamm等。,2024)。虽然LLM可以以秒为单位生成新闻稿,但生成内容的质量尚不满足记者。我们进行了进一步的研究,并揭示了三个主要的挑战,需要解决,以将LLM的完全集成到新闻业中。llms在起草新闻稿方面缺乏专业精神。它们具有与新闻规范和价值观冲突的重大局限性(Nishal and Diakopoulos,2024)。此外,LLM在产生长文本时可能会遇到“幻觉”问题。这在新闻界尤其有问题,这需要高准确性和可信赖性(Desrochers等人,2024),如图1(a)所示。llms在复杂的新闻环境中做出道德判断时表现出局限性。依赖 -
大型语言模型(LLMS)传统上依赖手动及时工程,这可能是耗时且容易受到人类偏见的影响。在本文中,我们提出了一个基于进化增强学习原理(EVORL)的对抗性进化增强学习(AERL)框架[Lin等,2023],以实现对AI剂的持续自我投资。我们的方法迭代生成,测试和完善了通过四个组件的提示或配置:(1)进化提示作者/改进器/改善者,(2)进化模型,(3)对抗模型和(4)法官。通过将候选模型暴露于对抗性的场景中,并通过进化运算符选择最佳变体,AERL促进了强大的,域特异性的解决方案,而无需重新进行过多的人类试验和错误。受到Evorl [Bai等,2023]中多目标优化技术的启发和对抗性训练方法[Goodfellow等人,2014],我们的经验性和有意义的示例来自分散财务(DEFI)(DEFI),代码生成,并且数学推理说明了我们框架的多功能性。结果表明,对抗性的进化策略可以在维持高适应性和性能的同时,诱导地减少人驱动的猜测。
多模式的大语言模型(MLLM)在推理方面表现出了令人印象深刻的功能,但具有基本的计算成本,从而限制了它们在资源构成环境中的部署。尽管最近有一些关于提高MLLM效率的效力,但先前的解决方案产生了具有静态准确性和延迟占地面积的模型,因此在响应不同的运行时条件方面的响应不足,特别是由于设备上其他程序执行其他程序而引起的竞争)。为了弥合这一差距,我们介绍了Adallava - 一种自适应推理框架,该框架学会在推理期间在MLLM中动态重新配置操作,以获取输入数据和延迟预算。我们跨越涉及提问,推理和幻觉的多模式基准进行了广泛的实验。我们的结果表明,Adallava可以遵守输入预算,并在运行时实现不同的准确性和延迟权衡。我们的带代码重新租赁的项目网页位于https://zhuoyan-xu.github.io/ada-llava/。