Dan Hendrycks等人的论文。和Dan Hendrycks的AI安全,道德和社会介绍。■对齐:控制AI系统的倾向并使AI的行为对社会有益。■鲁棒性:对外部扰动的韧性。■系统性安全:解决涉及AI系统的更广泛风险,包括网络攻击,科学
div> dombrowski,又名S.,Mukobi,G.,Helm-Burger,N.,Lababidi,R.,Justen,L.,Liu,A.,Chen,M.,Barrass,I. M.,Wang,Z.,Oswal,P.,Lin,W.,Hunt,A.,Tienken-Harder,J.,Shih,K.,Talley,K.,Guan,J.,Steneker,I. Shoshitaishvili,Y.,BA,J.,Esvelt,K.,Wang,A.,Hendrycks,D。(2024)。WMDP台式标记:测量和减少未经学习的恶意使用。第41季
-Hendrycks等。(2022)吃茄子作为杯胃喂食者:饮食转移会影响瓜蝇宙曲霉(Diptera,tephritidae)的肠道微生物组。微生物学,11(4),1-13。-Maarten de Cock等。(2020)Tephritid Froogivivol Pests(Diptera:Tephritidae)的比较微生物组学:跨物种内部和内部高变异性的故事。微生物学中的边界,11,1-13。-Zaneveld等。(2017)压力和稳定性:将安娜·卡雷纳娜原理应用于动物微生物组。自然微生物学,2。-Yang等人。 (2022)RNA-SEQ和16S rRNA分析揭示了急性暴露早期deltamethrin对通道cat鱼的影响。 免疫学领域,13。-Yang等人。(2022)RNA-SEQ和16S rRNA分析揭示了急性暴露早期deltamethrin对通道cat鱼的影响。免疫学领域,13。
尾注 1. 根据即将发布的报告《妇女、和平与安全、技术与国家安全:我们正在建设什么样的世界?》,作者:Sahana Dharmapuri 和 Jolynn Shoemaker 2. Dan Hendrycks、Mantas Mazeika 和 Thomas Woodside,《灾难性人工智能风险概述》,人工智能安全中心,2023 年 10 月 9 日,https://arxiv.org/pdf/2306.12001.pdf 3. 联合国裁军研究所,《算法偏见和日益自主的技术武器化》,2018 年,https://unidir.org/files/publication/pdfs/ algorithmic-bias-and-the-weaponization-of-increasingly-autonomous-technologies-en-720.pdf 4. Zachary Arnold 和 Helen Toner,《人工智能事故:一种新兴威胁:可能造成什么后果?》会发生什么以及该怎么办”,安全与新兴技术中心”,2021 年 7 月,https://cset.georgetown.edu/publication/ai-accidents-an-emerging-threat/ 5. Ray Acheson,“性别与偏见:性别与杀手机器人有什么关系?”,阻止杀手机器人,2021 年,https://www.stopkillerrobots.org/wp-content/uploads/2021/09/Gender-and-Bias.pdf 6. Dan Hendrycks、Mantas Mazeika 和 Thomas Woodside,“灾难性人工智能风险概述”,人工智能安全中心,2023 年 10 月 9 日,https://arxiv.org/pdf/2306.12001.pdf 7. Nina Jankowicz,“深度伪造的威胁不是假设的。女性每天都能感受到这一点”,《华盛顿邮报》,2021 年 3 月 25 日,https://www.washingtonpost.com/opinions/2021/03/25/threat-deepfakes-isnt-hypothetical-women-feel-it-every-day/ 8. Beatrice Nolan,“OpenAI 测试表明,最新版本的 ChatGPT 告诉 TaskRabbit 员工,它是视障人士,需要帮助解决 CAPTCHA”,《商业内幕》,2023 年 3 月 16 日,https://www.businessinsider.com/gpt4-openai-chatgpt-taskrabbit-tricked-solve-captcha-test-2023-3?IR=T 9. Benjamin Weiser 和 Nate Schweber,“ChatGPT 律师自我解释”,《纽约时报》,2023 年 6 月 8 日, https://www.nytimes.com/2023/06/08/nyregion/lawyer-chatgpt-sanitians.html 10. Lucina Di Meco 和 Kristina Wilfore,“性别虚假信息是一个国家安全问题”,布鲁金斯学会,2021 年 3 月 8 日,https://www.brookings.edu/articles/gendered-disinformation-is-a-national-security-problem/ 11. Nina Jankowicz,“深度伪造的威胁并非假设。女性每天都能感受到这一点”,《华盛顿邮报》,2021 年 3 月 25 日,https://www.washingtonpost.com/opinions/2021/03/25/threat-deepfakes-isnt-hypothetical-women-feel-it-every-day/ 12. Victoria Krakovna 和 Janos Kramar,“对于受过训练的智能体来说,权力寻求是可能且具有预测性的”,DeepMind,2023 年,https://arxiv.org/abs/2304.06528 13. Dan Hendrycks、Mantas Mazeika 和 Thomas Woodside,“灾难性人工智能风险概述”,人工智能安全中心,2023 年 10 月 9 日,https://www.safe.ai/ai-risk#Deception 14. Ray Acheson,“性别与偏见:性别与杀手机器人有何关系?”,Stop Killer Robots,2021 年, https://www.stopkillerrobots.org/wp-content/uploads/2021/09/Gender-and- Bias.pdf 15. 克里斯蒂安·阿隆索、悉达思·科塔里、西德拉·雷曼、“人工智能如何扩大富国与穷国之间的差距”,国际货币基金组织博客,2020 年 12 月 2 日,https://www.imf.org/en/ Blogs/Articles/2020/12/02/blog-how-artificial-intelligence-could-widen-the-gap-between-rich-and-poor-nations 16. Leonardo Nicoletti 和 Dina Bass,“人类有偏见。生成式人工智能甚至更糟糕”,彭博社,2023 年,https://www.bloomberg.com/graphics/2023-generative-ai-bias/
AI研究人员在创建高级AI系统无法轻易通过的测试方面面临着挑战,因为这些系统超过了传统的基准,甚至在各个学术领域都面临博士学位的挑战。为了解决这个问题,AI安全中心主任Dan Hendrycks与专家合作开发了“人类的最后考试”,该测试由3,000个极难的问题组成,这些问题涵盖了哲学,火箭工程和理论物理学等领域。旨在将AI系统推向其极限,这些问题是由顶级学者提出的,并通过两步过程进行了严格的完善。最初的结果表明,包括OpenAI,Google和人类系统在内的领先AI模型得分很差,最佳性能仅达到8.3%。但是,研究人员希望这些分数在不久的将来会显着提高,这可能使AI系统能够比人类专家更准确地回答跨学科的复杂问题。这一进步强调了AI的潜力,但专家警告说,这些测试未能捕获现实世界知识分子的非结构化,创造性和协作性质,例如研究和解决问题。该项目反映了人们对如何有效衡量AI能力及其对科学和技术等领域的更广泛含义的日益关注。
[1] Jimmy Lei BA,Jamie Ryan Kiros和Geoffrey E. Hinton。层归一化。2016。Arxiv:1607.06450 [Stat.ml]。[2] Nanxin Chen等。Wavegrad:估计波形产生的梯度。2020。Arxiv:2009.00713 [Eess.as]。[3]凯瑟琳·克罗森(Katherine Crowson)。在CIFAR-10上训练扩散模型。在线。2024。URL:https://colab.research.google.com/drive/1ijkrrv-d7bosclvkhi7t5docryqortm3。[4]凯瑟琳·克罗森(Katherine Crowson)。v-diffusion。在线。2024。URL:https: / / github。com/crowsonkb/v-diffusion-pytorch/blob/master/diffusion/utils.py。[5] Ekin D. Cubuk等。randaugment:实用的自动化数据增强,并减少了搜索空间。2019。Arxiv:1909.13719 [CS.CV]。 [6] Yann N. Dauphin等。 通过封闭式卷积网络进行语言建模。 2017。Arxiv:1612.08083 [CS.CL]。 [7] Mostafa Dehghani等。 通用变压器。 2019。Arxiv:1807.03819 [CS.CL]。 [8] Yilun Du和Igor Mordatch。 基于能量的模型中的隐性产生和概括。 2020。Arxiv:1903.08689 [CS.LG]。 [9] Ian J. Goodfellow等。 生成对抗网络。 2014。Arxiv:1406.2661 [Stat.ml]。 [10] Dan Hendrycks和Kevin Gimpel。 高斯错误线性单元(Gelus)。 2023。Arxiv:1606.08415 [CS.LG]。 [11] Jonathan Ho,Ajay Jain和Pieter Abbeel。 剥离扩散概率模型。 2020。Arxiv:2006.11239 [CS.LG]。2019。Arxiv:1909.13719 [CS.CV]。[6] Yann N. Dauphin等。通过封闭式卷积网络进行语言建模。2017。Arxiv:1612.08083 [CS.CL]。[7] Mostafa Dehghani等。通用变压器。2019。Arxiv:1807.03819 [CS.CL]。 [8] Yilun Du和Igor Mordatch。 基于能量的模型中的隐性产生和概括。 2020。Arxiv:1903.08689 [CS.LG]。 [9] Ian J. Goodfellow等。 生成对抗网络。 2014。Arxiv:1406.2661 [Stat.ml]。 [10] Dan Hendrycks和Kevin Gimpel。 高斯错误线性单元(Gelus)。 2023。Arxiv:1606.08415 [CS.LG]。 [11] Jonathan Ho,Ajay Jain和Pieter Abbeel。 剥离扩散概率模型。 2020。Arxiv:2006.11239 [CS.LG]。2019。Arxiv:1807.03819 [CS.CL]。[8] Yilun Du和Igor Mordatch。基于能量的模型中的隐性产生和概括。2020。Arxiv:1903.08689 [CS.LG]。[9] Ian J. Goodfellow等。生成对抗网络。2014。Arxiv:1406.2661 [Stat.ml]。[10] Dan Hendrycks和Kevin Gimpel。高斯错误线性单元(Gelus)。2023。Arxiv:1606.08415 [CS.LG]。[11] Jonathan Ho,Ajay Jain和Pieter Abbeel。剥离扩散概率模型。2020。Arxiv:2006.11239 [CS.LG]。[12] Jonathan Ho和Tim Salimans。无分类器扩散指南。2022。ARXIV:2207.12598 [CS.LG]。[13]安德鲁·霍华德(Andrew Howard)等人。搜索MobilenetV3。2019。Arxiv:1905.02244 [CS.CV]。[14] Andrew G. Howard等。 Mobilenets:用于移动视觉应用的有效卷积神经网络。 2017。Arxiv:1704.04861 [CS.CV]。 [15] Forrest N. Iandola等。 squeezenet:较小的参数和€0.5MB型号的Alexnet级准确性。 2016。Arxiv:1602.07360 [CS.CV]。 [16] Imagenet 64x64基准(图像生成)。 用代码的论文,2024。URL:https://paperswithcode.com/sota/image-generation-generation-en-on-imagenet-64x64。 [17] Sergey Ioffe和Christian Szegedy。 批次归一化:通过减少内部协变性转移来加速深层网络训练。 2015。Arxiv:1502.03167 [CS.LG]。 [18] Diederik P. Kingma和Jimmy Ba。 亚当:一种随机优化的方法。 2017。Arxiv:1412.6980 [CS.LG]。 [19] Diederik P. Kingma和Ruiqi Gao。 将扩散目标理解为具有简单数据增强的ELBO。 2023。Arxiv:2303.00848 [CS.LG]。 [20] Diederik P. Kingma等。 变化扩散模型。 2023。Arxiv:2107.00630 [CS.LG]。 [21] Zhenzhong Lan等。 albert:一个精简版的语言表示学习。 2020。Arxiv:1909.11942 [CS.CL]。 [22] Ilya Loshchilov和Frank Hutter。 重量衰减正则化。[14] Andrew G. Howard等。Mobilenets:用于移动视觉应用的有效卷积神经网络。2017。Arxiv:1704.04861 [CS.CV]。 [15] Forrest N. Iandola等。 squeezenet:较小的参数和€0.5MB型号的Alexnet级准确性。 2016。Arxiv:1602.07360 [CS.CV]。 [16] Imagenet 64x64基准(图像生成)。 用代码的论文,2024。URL:https://paperswithcode.com/sota/image-generation-generation-en-on-imagenet-64x64。 [17] Sergey Ioffe和Christian Szegedy。 批次归一化:通过减少内部协变性转移来加速深层网络训练。 2015。Arxiv:1502.03167 [CS.LG]。 [18] Diederik P. Kingma和Jimmy Ba。 亚当:一种随机优化的方法。 2017。Arxiv:1412.6980 [CS.LG]。 [19] Diederik P. Kingma和Ruiqi Gao。 将扩散目标理解为具有简单数据增强的ELBO。 2023。Arxiv:2303.00848 [CS.LG]。 [20] Diederik P. Kingma等。 变化扩散模型。 2023。Arxiv:2107.00630 [CS.LG]。 [21] Zhenzhong Lan等。 albert:一个精简版的语言表示学习。 2020。Arxiv:1909.11942 [CS.CL]。 [22] Ilya Loshchilov和Frank Hutter。 重量衰减正则化。2017。Arxiv:1704.04861 [CS.CV]。[15] Forrest N. Iandola等。squeezenet:较小的参数和€0.5MB型号的Alexnet级准确性。2016。Arxiv:1602.07360 [CS.CV]。[16] Imagenet 64x64基准(图像生成)。用代码的论文,2024。URL:https://paperswithcode.com/sota/image-generation-generation-en-on-imagenet-64x64。[17] Sergey Ioffe和Christian Szegedy。批次归一化:通过减少内部协变性转移来加速深层网络训练。2015。Arxiv:1502.03167 [CS.LG]。[18] Diederik P. Kingma和Jimmy Ba。亚当:一种随机优化的方法。2017。Arxiv:1412.6980 [CS.LG]。[19] Diederik P. Kingma和Ruiqi Gao。将扩散目标理解为具有简单数据增强的ELBO。2023。Arxiv:2303.00848 [CS.LG]。[20] Diederik P. Kingma等。变化扩散模型。2023。Arxiv:2107.00630 [CS.LG]。[21] Zhenzhong Lan等。albert:一个精简版的语言表示学习。2020。Arxiv:1909.11942 [CS.CL]。[22] Ilya Loshchilov和Frank Hutter。重量衰减正则化。2019。Arxiv:1711.05101 [CS.LG]。[23] Preetum Nakkiran等。深度下降:更大的模型和更多数据损害。2019。Arxiv:1912.02292 [CS.LG]。[24] Alex Nichol和Prafulla Dhariwal。改进了扩散概率模型。2021。Arxiv:2102.09672 [CS.LG]。[25] Aaron van den Oord,Nal Kalchbrenner和Koray Kavukcuoglu。像素复发性神经网络。2016。Arxiv:1601.06759 [CS.CV]。[26] Prajit Ramachandran,Barret Zoph和Quoc V. Le。搜索激活功能。2017。Arxiv:1710.05941 [CS.NE]。 [27] Danilo Jimenez Rezende和Shakir Mohamed。 差异推断与归一化流量。 2016。Arxiv:1505.05770 [Stat.ml]。2017。Arxiv:1710.05941 [CS.NE]。[27] Danilo Jimenez Rezende和Shakir Mohamed。差异推断与归一化流量。2016。Arxiv:1505.05770 [Stat.ml]。
