我们可以模拟一个用发电的代理人模拟人类行为的沙盒社会,从而减少对实际人类试验评估公共政策的过度依赖?在这项工作中,我们研究了使用疫苗犹豫,将与健康相关的决策模拟的可行性定义为尽管有疫苗接种服务的可用性,但作为案例研究,被定义为延迟接受或拒绝疫苗的可行性(Macdonald,2015年)。为此,我们引入了V ac S IM 1框架,其中100种由大型语言模型(LLMS)提供动力的生成代理。v ac s im模拟了通过以下步骤模拟VACINE政策结果:1)根据人口普查数据实例化具有人口统计信息的代理商; 2)通过社交网络连接代理商,并建模疫苗态度,这是社会动态和与疾病相关的信息的函数; 3)设计和评估各种旨在减轻疫苗犹豫的公共卫生干预措施。为了与现实世界的结果保持一致,我们还引入了模拟热身和态度调节以调整药物的态度。我们进行了一系列评估,以评估各种LLM模拟的可靠性。实验表明,诸如Llama和Qwen之类的模型可以模仿人类行为的各个方面,但也突出了现实世界的一致性挑战,例如与人口统计学特征的不一致的响应。对LLM驱动的模拟的这种早期探索并不意味着作为确定的政策指导;相反,它是采取行动检查政策制定的社会模拟的呼吁。
We introduce phi-3-mini , a 3.8 billion parameter language model trained on 3.3 trillion tokens, whose overall performance, as measured by both academic benchmarks and internal testing, rivals that of models such as Mixtral 8x7B and GPT-3.5 (e.g., phi-3-mini achieves 69% on MMLU and 8.38 on MT-bench), despite being small enough to be deployed on a 电话。我们的培训数据集是用于PHI-2的扩展版本,该版本由大量过滤的公开可用的Web数据和合成数据组成。该模型还可以进一步符合鲁棒性,安全性和聊天格式。我们还提供了针对4.8T令牌训练的7B,14B型号的参数缩放结果,称为Phi-3-Small,Phi-3中,均比Phi-3-Mini(例如,MMLU上的75%,78%,在MT-Bench上的8.7,8.7,8.7,8.7,8.7,8.7,8.7)。为了增强多语言,多模式和长篇文化功能,我们在PHI-3.5系列中介绍了三个模型:Phi-3.5-Mini,Phi-3.5-Moe和Phi-3.5-Vision。与其他类似规模的开源模型相比,具有66亿个活动参数的16 x 3.8B MOE模型,在语言推理,数学和代码任务方面取得了卓越的性能,例如Llama 3.1和Mixtral系列,以及与GEMINI-1.5-FLASH和GPT-FLASH和GPT-FLASH和GPT-4O-MINI相比。与此同时,Phi-3.5-Vision是一个源自PHI-3.5- mini的42亿个参数模型,在推理任务方面表现出色,并且擅长处理单片图像和文本提示,以及多图像和文本提示。
大语言模型(LLMS)是AI技术,构成了自然语言领域中最常见的AI系统2的基础。它们是许多生成AI工具的核心。3 LLM能够处理,理解,解释和生成自然语言,并可以执行各种任务,例如翻译,文本理解和文本生成。接受了许多不同格式的大量数据培训,最新的LLM可以产生通常不容易与人类写的文本区分开的文本。即使是声音或图像的输入也是可以想象的,因为现在可以将其转换为文本,在许多情况下,几乎可以完美地转换为文本。声音输出实际上与人类言语没有区别。某些LLM已经扩展为“多模式”模型,不仅可以处理和生成文本,还可以生成图像和视频。4个LLM的示例是GPT模型系列(在Openai的Chatgpt和Microsoft的Copilot中使用),Gemini(Google的Gemini,以前是Bard),Meta的Llama型号,X的Grok Model Model系列和Anthropic的Claude Models。5 llms在计算密集的迭代培训过程中从文本文档中“学习”统计关系来掌握出于一般目的解释和生成自然语言的能力。这些统计模型基于自然语言处理的技术和方法(NLP 6),使它们能够从人类语言中提取含义和相关性。
潜在扩散模型(LDMS)的最新进步已将它们置于各种生成任务的最前沿。但是,它们的迭代采样过程构成了重大的计算负担,从而导致生成速度缓慢,并限制了其在文本到审计生成部署中的应用。在这项工作中,我们介绍了AudiolCM,这是一种基于一致性的新型模型,该模型量身定制,专门针对高效和高质量的文本发电。与以前通过迭代过程解决噪声删除的方法不同,AudiolCM将一致性模型(CMS)集成到生成过程中,从而通过从任何时间步长到轨迹的初始点的任何点映射来促进快速推断。过度提出了LDMS固有的收敛性问题,并减少了样品迭代,我们提出了带有多步骤的普通微分方程(ODE)求解器的引导潜在一致性蒸馏。这项创新将时间表从数千个步骤缩短到数十个步骤,同时保持样本质量,从而实现快速的收敛和高质量的生成。此外,为了优化基于变形金刚的神经网络体系结构的性能,我们将Llama率先启用的先进技术集成到变压器的基础框架中。该体系结构支持稳定,有效的培训,以确保文本与原告合成中的稳健性能。关于文本到审计生成和文本到音乐综合任务的实验结果表明,Audiolcm仅需要2个迭代即可合成高保真音频,而它可以保持样本质量与最新的
S. SHYAM SUNDAR,宾夕法尼亚州立大学 CASON SCHMIT,德克萨斯农工大学 从纽约市警察逮捕唐纳德·特朗普的假照片到一个聊天机器人描述一位还活着的计算机科学家不幸去世,新一代生成人工智能系统能够创建令人信服但虚构的文本和图像,这引发了人们对欺诈和错误信息的担忧。事实上,一群人工智能研究人员和业内人士在 2023 年 3 月 29 日敦促该行业暂停对最新人工智能技术的进一步培训,否则,政府可以“实施暂停”。这些技术——图像生成器(如 DALL-E、Midjourney 和 Stable Diffusion)以及文本生成器(如 Bard、ChatGPT、Chinchilla 和 LLaMA)——现在可供数百万人使用,并且不需要技术知识即可使用。鉴于科技公司推出这些人工智能系统并在公众身上进行测试时可能造成广泛危害,政策制定者面临着确定是否以及如何监管新兴技术的任务。对话邀请了三位技术政策专家来解释为什么监管人工智能是一项如此大的挑战——以及为什么正确监管如此重要。为了跳到每个回应,下面是每个回应的列表:人类的弱点和移动目标结合“软”和“硬”方法要问的四个关键问题
图片来源:封面内页:UGC – instagram @stayhostelrhodes 第 6-7、13、16-17、21、85 和 153 页:© 2023 Getty Images 第 25 页:Simon Maage,Unsplash;第 68 页:Brooke Cagle,Unsplash 第 2 页:Somos,哥斯达黎加;第 4 页:The Hat,马德里,西班牙;第 18 页:Viajero Hostels,哥伦比亚卡塔赫纳;第 22 页:Generator,丹麦,哥本哈根;第 31 页:Casa Gracia,巴塞罗那,西班牙;第 32 页:TOC,马德里,西班牙;第 47 页:Mad Monkey Koh Rong Samloem,柬埔寨;第 50 页:Bambuda Lodge,巴拿马博卡斯德尔托罗;第 53 页:Palmar Beach Lodge,巴拿马博卡斯德尔托罗;第 57 页:Distant Relatives Ecolodge Backpackers,肯尼亚基利菲;第 77 页:Travellers Oasis,澳大利亚凯恩斯;第 88-89 页:Sant Jordi Sagrada Familia,西班牙巴塞罗那;第 99 页:Palmar Beach Lodge,巴拿马博卡斯德尔托罗;第 109 页:Black Llama Hostel,秘鲁利马;第 119 页:Penthouse on 34,马来西亚吉隆坡;第 125 页:Wombats,英国伦敦;第 166-67 页:Castle Rock Hostel,苏格兰爱丁堡;第 220-21 页:PARS Teatro,西班牙巴塞罗那;第 232 页/封底内页:Madpackers Pushkar,印度普什卡
摘要本文研究了视觉模型(VLM)在外周血细胞自动形态学分析中的应用。虽然手动显微镜分析仍然是血液学诊断的金标准,但它既耗时又可能会受到观察者间的变化。这项工作旨在开发和评估能够从微观图像中对血细胞进行准确的形态描述的微调VLM。我们的方法论包括三个主要阶段:首先,我们创建了一个合成数据集,该数据集由10,000个外周血细胞图像与专家制作的形态描述配对。第二,我们在三个开源VLMS上使用低级适应性(LORA)和量化Lora(Qlora)进行了微调方法:Llama 3.2,Qwen和Smovlm。最后,我们开发了一个基于Web的界面,用于实用部署。的结果表明,在预先调整后所有模型的所有模型中都有显着改善,QWEN的性能最高(BLEU:0.22,Rouge-1:0.55,Bertscore F1:0.89)。为了确保可访问性并实现正在进行的评估,该模型已被部署为网络空间的Web应用程序,使研究社区可自由使用。我们得出的结论是,微调的VLM可以有效地分析外周血细胞形态,从而为血液学分析提供了标准化的潜力。这项工作建立了一个框架,可以将视觉模型改编为专业的医疗成像任务,这对改善临床环境中的诊断工作流程的影响。完整的实现可在GitHub
抽象生成的AI模型(例如GPT-4和稳定的扩散)在自然语言和图像任务中表现出强大而破坏性的功能。但是,将这些模型部署在分散环境中仍然具有挑战性。与传统的集中部署不同,从系统上保证了在完全分散的环境中AI模型服务的完整性,特别是在无信任的区块链上,既重要又困难。在本文中,我们提出了一种称为质量证明(POQ)的新推论范式,以使在区块链体系结构上的任意大型生成模型中部署。与基于验证推理程序(例如ZKML或OPML)的传统方法不同,我们的POQ范式着重于模型推理的结果质量。使用基于BERT的轻质跨编码器作为我们的基本质量评估模型,我们设计和实施PQML,这是对区块链现实世界中NLP生成模型推断的第一个实用协议,该模型针对流行的开源模型量身定制,例如Llama 3和Mixtral。我们的分析表明,我们的协议对生态系统中的对抗性但理性的参与者具有牢固的态度,在这种情况下,与行为良好的参与者相比,懒惰或不诚实的行为较少。验证质量评估的计算开销很小,即使仅使用CPU,也可以在几秒钟内完成质量检查。初步仿真结果表明,POQ共识以毫秒为单位生成,比任何现有方案都快1,000倍。
使用生成式人工智能为自主系统生成行动计划。联系人 Damien Pellier (Damien.Pellier@imag.fr) LIG-Marvin Humbert Fiorino (Humbert.Fiorino@imag.fr) LIG-Marvin,关键词 自动规划,生成式人工智能 上下文 自动规划 [1] 是人工智能的一个领域,其目的是设计决策算法用于自主系统,即机器人、无人机、机器人等代理。由于这些系统无需人工监督即可“自主”运行,因此它们必须始终制定行动计划以实现分配给它们的目标。众所周知,自主规划是 NP 难问题,而领域特定语言 (DSL)(如 PDDL(规划领域描述语言)[2])被设计用于将代理任务(行动、目标和世界状态等)建模/指定为规划问题。计划生成基于许多经典的 AI 技术,例如树搜索和启发式搜索、SAT 或 CSP 问题求解等(有关更多详细信息,请参阅 PDDL4J [3] 和 [1])。同时,生成人工智能(也称为生成 AI 或 GenAI [4])是能够使用生成模型生成文本、图像或其他媒体的人工智能 [5][6][7]。生成 AI 模型学习其输入训练数据的模式和结构,然后生成具有相似特征的新数据。在 2020 年代初期,基于 Transformer 的深度神经网络的进步使许多生成 AI 系统成为可能,这些系统以接受自然语言提示作为输入而闻名。其中包括大型语言模型聊天机器人(如 ChatGPT、Bing Chat、Bard 和 LLaMA)以及文本到图像的人工智能艺术系统(如 Stable Diffusion、Midjourney 和 DALL-E)。
神经机器翻译模型再现其培训数据中存在的性别偏见,尤其是从性别中性语言(如英语)翻译成像西班牙语(如西班牙语)的语法性别语言时。本文通过将最先进的语言调整为性别平衡且合成生成的领域来调整性别偏见。我们的方法涉及使用以结构化提示为指导的大语言模型(LLM)的合成数据扩展,因为它对可扩展数据增强具有很大的好处。我们首先识别LLM和提示组合,该组合生成最准确,最少偏见的反事实句子。实验表明,当由更广泛的示例,逐步推理引导时,Llama 2-13B模型表现最好,并使用模型所需的相同语言来完成任务。使用此设置,我们增加了一个具有性别修饰句子的数据集,然后使用Lora来调整NLLB模型,Lora是一种参数效率的方法,仅训练模型参数的1.5%。我们的实验表明,在不影响翻译质量的情况下,性别偏差的统计学显着降低。较大的数据集结合了事实和合成反事实,并滤除低质量生成的示例有助于更有效地概括性别语言模式。这些结果具有更广泛的含义:首先,参数有效的微调可以以较小的计算成本减少性别偏见;其次,llm aigment的数据集可以匹配其他合成增强方法的有效性。