大型语言模型(LLMS)功能的最新进展(Devlin等人,2019年;布朗等人。,2020年; Zhao等。,2023年),导致了他们广泛的收养,作为工业和学术NLP各种任务的基础(Bom- Masani等人。,2021)。在数十亿和数十亿的参数计数中,这些模型需要大量的数据才能进行训练和微调(Hoffmann等人。,2022)。同时,这种过度分析能够记忆和潜在的LLMS训练数据的泄漏或提取(Biderman等人,2023; Carlini等。,2023; Hartmann等。,2023)。综上所述,LLMS所需的培训数据和记忆能力提出了实质性问题(Li等人,2023)。这种风险更加复杂,因为LLM与所有监督学习者一样,在具有与培训数据相似的分布的测试集上表现最好。因此,寻求部署实际上有效的LLM的组织必须使用反映其部署分布的数据,并使用特定的,敏感的数据(例如医疗记录或通话记录),导致绩效提高,但相应地
3. Manning, Christopher D. “人类语言理解与推理。” Daedalus (2022) 151, no. 2: 127-138。4. Srivastava, Aarohi, Abhinav Rastogi, Abhishek Rao, Abu Awal Md Shoeb, Abubakar Abid, Adam Fisch, Adam R. Brown 等人。“超越模仿游戏:量化和推断语言模型的能力。” arXiv preprint arXiv:2206.04615 (2022)。5. Devlin, Jacob, Ming-Wei Chang, Kenton Lee 和 Kristina Toutanova。“ Bert:用于语言理解的深度双向转换器的预训练。” arXiv preprint arXiv:1810.04805 (2018)。 6. Radford, Alec、Karthik Narasimhan、Tim Salimans 和 Ilya Sutskever。“通过生成式预训练提高语言理解能力。”(2018 年)。7. Chen, Mark、Alec Radford、Rewon Child、Jeffrey Wu、Heewoo Jun、David Luan 和 Ilya Sutskever。“从像素生成预训练。”国际机器学习会议,第 1691-1703 页。PMLR,2020 年。
指纹识别(或复制检测)存储数据库中所有AI生成内容的哈希,例如。Neuralhash(Apple Inc.,2021年)。这些哈希是向量表示∈{0,1} k或r k通常是由自我保护的特征提取器生成的(Oquab等人。,2023; Devlin等。,2018年)。查询一块内容时,我们将其哈希与数据库中的哈希进行了比较,并确定它是否是重新发电的副本。在大规模上,存储哈希并通过它们进行搜索很麻烦,并且反向搜索必须近似以易于处理(Douze等人。,2024)。此外,功能提取器对内容修改并不完全鲁棒:例如,音频及其×1.25速度版本可能具有不同的哈希。这两个因素会导致错误,尤其是在对抗环境中(Douze等人,2021; Papakipos等。,2022)。另一个缺点是需要将哈希存储在数据库中,这使得很难共享,而开源场景不可能。
命名实体识别是自然语言处理中的一项基本任务,旨在对文本中的命名实体进行定位和分类。由于大规模且经过良好注释的数据集,基于深度学习的方法(Li et al.,2022b;Devlin et al.,2019)取得了巨大成功。然而,在具有 112 个细粒度命名实体标签的真实数据集(如 Ling 和 Weld(2012))中,大量的实体类别可能会导致不可避免的注释缺失。此外,在实际场景中,为了获得大型 NER 数据集,远程监督方法(Ren et al.,2015;Fries et al.,2017)可能会使这个问题更加严重,因为实体词典无法覆盖所有实体。前人的研究(Li et al.,2021;Shang et al.,2018)发现这个问题严重阻碍了NER模型的性能,并将这个问题命名为无标记实体问题。如图1所示,未标记的第二个“NBA”可能会混淆模型并引入不必要的噪音。为了解决这个问题,人们从不同的角度提出了几种尝试。受到启发
Brian D. Earp*, Sebastian Porsdam Mann*, Mateo Aboy, Edmond Awad, Monika Betzler, Marietjie Botes, Rachel Calcott, Mina Caraccio, Nick Chater, Mark Coeckelbergh, Mihaela Constantinescu, Hossein Dabbagh, Kate Devlin, Xiaojun Ding, Vilius Dranseika, Jim A. C.埃弗里特(Everett),鲁伊普(Everett Maximilian Kroner Dale, Simon M. Laham, Benjamin Lange, Muriel Leuenberger, Jonathan Lewis, Peng Liu, David M. Lyreskog, Matthijs Maas, John McMillan, Emilian Mihailov, Timo Minssen, Joshua Teperowski Monrad, Kathryn Muyskens, Simon Myers, Sven Nyholm, Alexa M. Owen, Anna Puzio, Christopher Register, Madeline G. Reinecke, Adam Safron, Henry Shevlin, Hayate Shimizu, Peter V. Treit, Cristina Voinea, Karen Yan, Anda Zahiu, Renwen Zhang, Hazem Zohny, Walter Sinnott-Armstrong, Ilina Singh, Julian Savulescu+, Margaret S.克拉克
命名实体识别是自然语言处理中的一项基本任务,旨在对文本中的命名实体进行定位和分类。由于大规模且经过良好注释的数据集,基于深度学习的方法(Li et al.,2022b;Devlin et al.,2019)取得了巨大成功。然而,在具有 112 个细粒度命名实体标签的真实数据集(如 Ling 和 Weld(2012))中,大量的实体类别可能会导致不可避免的注释缺失。此外,在实际场景中,为了获得大型 NER 数据集,远程监督方法(Ren et al.,2015;Fries et al.,2017)可能会使这个问题更加严重,因为实体词典无法覆盖所有实体。前人的研究(Li et al.,2021;Shang et al.,2018)发现这个问题严重阻碍了NER模型的性能,并将这个问题命名为无标记实体问题。如图1所示,未标记的第二个“NBA”可能会混淆模型并引入不必要的噪音。为了解决这个问题,人们从不同的角度提出了几种尝试。受到启发
梳理干草堆:使用1个组合的临床和研究开发的测试策略寻找高度致病的禽流感病毒2 3 Gordon C. Adams 1,2 1,2,†,,Jamie E. Devlin 3,†,Erik Klontz,Erik Klontz,MD,Phd 3,4,Phd 3,4,Rachel A. Lachel A. Lach a.Laing 1,John A.4 Branda, MD 3,4 , Navid Chowdhury 3 , SunYoung Kwon 1 , Pardis C. Sabeti, MD, DPhil 2 , Elyse 5 Stachler, PhD 2 , Vamsi Thiriveedhi 3 , Erica S. Shenoy, MD, PhD 1,4,5 , Jacob E, Lemieux, MD, 6 PhD 1,2,4, ‡ , Sarah E Turbett,MD 1,3,4,‡7 8†联合第一位作者对论文也同样贡献。9‡共同培训对论文的贡献也同样贡献。10 11分支机构:12 1传染病司,美国马萨诸塞州波士顿13号马萨诸塞州综合医院医学系。14 2美国马萨诸塞州剑桥市麻省理工学院和哈佛大学广泛研究所。15 3美国马萨诸塞州马萨诸塞州马萨诸塞州综合医院病理学系。16 4美国马萨诸塞州波士顿哈佛医学院。17 5感染控制单元,美国马萨诸塞州波士顿的弥撒一般性杨百翰。18 19关键字:流感,H5,鸟类流感,监视测试20
✉材料的信件和请求应向约瑟夫·D·布克斯鲍姆(Joseph D. Buxbaum),马克·J·戴利(Mark J.joseph.buxbaum@mssm.edu; mjdaly@atgu.mgh.harvard.edu; devlinbj@upmc.edu; roeder@andrew.cmu.edu; stephan.sanders@ucsf.edu; mtalkowski@mgh.harvard.edu。*作者及其隶属关系列表出现在本文的末尾。作者贡献M.E.T.,S.J.S,K.R.,B.D.,M.J.D,J.D.B。和S.B.G.设计了研究。M.E.T.,M.J.D.,J.D.B.,S.D.R.,S.B.G.,S.D. A.R.,F.T.,E.T.,G.C.,M.C.Y.C.,C.F.,E.G.,A.C.G. J.S.S.,E.H.C。和C.B.贡献了样本和生成的数据。M.E.T.,S.J.S.,M.J.D.,J.D.B.,S.D.R.,L.S.,B.M.,C.R.S. 和B.C. 协调的项目管理。 M.E.T.,S.J.S.,K.R.,B.D.,M.J.D.,D.J.C.,E.B.,A.N.S. S.D.,R.L.C.,H.B.,M.P.,F.K.S。 和J.M.F. 开发了方法论并进行了分析。 M.E.T.,S.J.S.,K.R.,B.D.,M.J.D.,J.D.B.,H.B.,M.P.,F.K.S。 和J.M.F. 写了这篇论文。M.E.T.,S.J.S.,M.J.D.,J.D.B.,S.D.R.,L.S.,B.M.,C.R.S.和B.C.协调的项目管理。M.E.T.,S.J.S.,K.R.,B.D.,M.J.D.,D.J.C.,E.B.,A.N.S. S.D.,R.L.C.,H.B.,M.P.,F.K.S。 和J.M.F. 开发了方法论并进行了分析。 M.E.T.,S.J.S.,K.R.,B.D.,M.J.D.,J.D.B.,H.B.,M.P.,F.K.S。 和J.M.F. 写了这篇论文。M.E.T.,S.J.S.,K.R.,B.D.,M.J.D.,D.J.C.,E.B.,A.N.S.S.D.,R.L.C.,H.B.,M.P.,F.K.S。 和J.M.F. 开发了方法论并进行了分析。 M.E.T.,S.J.S.,K.R.,B.D.,M.J.D.,J.D.B.,H.B.,M.P.,F.K.S。 和J.M.F. 写了这篇论文。S.D.,R.L.C.,H.B.,M.P.,F.K.S。和J.M.F.开发了方法论并进行了分析。M.E.T.,S.J.S.,K.R.,B.D.,M.J.D.,J.D.B.,H.B.,M.P.,F.K.S。 和J.M.F. 写了这篇论文。M.E.T.,S.J.S.,K.R.,B.D.,M.J.D.,J.D.B.,H.B.,M.P.,F.K.S。和J.M.F.写了这篇论文。
1.4 我特别要感谢:Sapana Agrawal、Michael Barber 爵士、Kate Bingham 女爵士、Birt 勋爵、Simon Case、Tony Blair 爵士、Alex Chisholm 爵士、Thérèse Coffey 议员、Janette Durbin、Tamara Finkelstein、David Foley、Laura Gilbert 博士、Catherine Haddon、John Healey 议员、Herbert of South Downs 勋爵、Margaret Hodge 议员、Patricia Hodgson 女爵士、Michael Jary、Bernard Jenkin 议员、Lainston 勋爵、Nick Joicey、已故的 Kerslake 勋爵、John Kingman 爵士、Tony van Kralingen、Emily Lawson 女爵士、Megan Lee Devlin、John Manzoni 爵士、O'Donnell 勋爵、Pickles 勋爵、Jeremy Quin 议员、Angela Rayner 议员、Tom Read、Gareth里斯·威廉姆斯 (Rhys Williams)、奥利·罗宾斯爵士 (Sir Olly Robbins)、安东尼娅·罗密欧 (Antonia Romeo)、菲奥娜·赖兰 (Fiona Ryland)、特维尔的塞恩斯伯里勋爵 (Rt Hon)、塞德威尔勋爵 (Rt Hon)、尼克·斯莫尔伍德 (Nick Smallwood)、埃德巴斯顿的斯图尔特男爵夫人 (Rt Hon)、马克·斯威尼 (Mark Sweeney)、西蒙·谢 (Simon Tse)、帕特里克·瓦兰斯爵士 (Sir Patrick Vallance)、克里斯·沃马尔德爵士 (Sir Chris Wormald) 和国会议员威廉·拉格 (William Wragg)。
生物经济,即利用生物技术和生物资源为所有经济部门提供信息、产品、流程和服务,是解决各种全球和地方问题的关键。过去几年,全球生物经济战略取得了重大发展:2021 年 10 月,世界生物经济论坛首次由全球南方国家巴西主办,这是一个分享以生物为基础的负责任创新理念以促进循环生物经济的全球平台。论坛结束时,巴西帕拉州州长还推出了巴西首个专门的生物战略(世界生物经济论坛,2021 年)。几个月后,即 2022 年 5 月,中国推出了首个国家生物经济五年计划,目标是将该行业的价值提高到 22 万亿元人民币(3.3 万亿美元)(欧阳,2022 年)。在英国,除了其创新战略和英国基因组实施计划外,其人类受精与胚胎学管理局还继续“为未来做好准备”其立法(DSIT 和 DBEIS,2021 年;生命科学办公室等,2021 年,Devlin,2022 年)。2022 年 9 月,拜登总统签署了《关于推进生物技术和生物制造创新的行政命令》(白宫,2022 年)。2023 年 4 月,印度生物技术部 (DBT) 发布了《2022 年生物经济报告》(BIRAC,2022 年),预计到 2030 年生物经济对 GDP 的贡献将从目前的 2.6% 跃升至近 5%。