•分数:MMLU的90.8%,MMLU-PRO的84.0%,GPQA钻石的71.5%。•胜过DeepSeek-v3,但尾随OpenAI-O1-1217。•与其他封闭式模型相比,教育任务擅长于教育任务。SimpleQA:胜过DeepSeek-V3,展示了强大的事实查询处理。
摘要 - 自主驾驶有可能为更有效的未来移动性奠定基础,要求研究领域通过安全,可靠和透明的驾驶来建立信任。大语言模型(LLM)具有推理能力和自然语言的理解,具有作为可以与人类互动和为人类驾驶员设计的环境互动的自我运动计划的普遍决策者的潜力。尽管这条研究途径很有希望,但当前的自动驾驶方法通过结合3D空间接地以及LLMS的发展和语言能力来挑战。我们介绍了BEV-驱动程序,这是一种基于LLM的模型,用于Carla中的端到端闭环驾驶,它利用潜在的BEV功能作为感知输入。bevdriver包括一个BEV编码器,以有效地处理多视图图像和3D LiDAR点云。在一个共同的潜在空间中,BEV特征通过Q-前者传播,以与自然语言指示保持一致,并传递给LLM,该LLM预测和计划在考虑导航说明和关键场景的同时,可以精确的未来轨迹。在Langauto基准测试中,与SOTA方法相比,我们的模型在驾驶得分上的性能高达18.9%。
大型语言模型(LLMS)正在作为用于软件漏洞检测的变革性工具。传统方法,包括静态和动态分析,效率的面部限制,假阳性率以及可扩展性,具有现代软件复杂性。通过代码结构分析,模式识别和修复建议生成,LLMS展示了一种新颖的减轻脆弱性方法。本调查研究了漏洞检测,分析问题制定,模型选择,应用方法,数据集和评估指标的LLM。我们研究当前的研究挑战,强调跨语言检测,多模式整合和存储库级分析。根据我们的发现,我们提出了解决数据集可伸缩性,模型解释性和低资源场景的解决方案。我们的贡献包括:(1)对漏洞检测中LLM应用的系统分析; (2)一个统一的框架研究了研究的模式和变化; (3)确定关键挑战和研究方向。这项工作提高了对基于LLM的漏洞检测的理解。最新发现在https://github.com/owensanzas/llm-for-vulnerability-detection
• OpenAI 运行 GPT3 上的 ChatGPT 每天花费 70 万美元。GPT4 可能更高。(建立盈利模式以对抗亏本定价的风险)• OpenAI Foundry 的专用实例成本高昂,数据隐私方法不明确,并且没有任何调整/实施。• 出于隐私考虑,意大利完全禁止 ChatGPT,在国家层面进行限制,随后解除了禁令 • 通过员工查询泄露三星源代码 - 代码将成为训练数据,未来可能通过基于提示的攻击被其他用户访问 • 摩根大通、Verizon 和其他公司禁止员工使用 ChatGPT(标准信息安全响应,很难防止“默默采用”)
• 校验和验证:根据加密校验和验证模型文件和嵌入。 • 安全模型供应链:使用受信任的存储库并验证开源模型的来源。 • 上下文毒害:确保响应来自准确和真实的数据 • 实时监控
摘要 - 近年来,机器学习(ML)技术为智能移动网络创造了许多机会,并加快了网络操作的自动化。但是,复杂的网络任务可能涉及变量和考虑因素,甚至超出了传统ML算法的能力。另一方面,大型语言模型(LLMS)最近出现了,在各个领域的认知任务中表现出了近乎人类的表现。但是,它们仍然容易出现幻觉,并且在基本任务中常常缺乏常识。因此,它们被视为人类的辅助工具。在这项工作中,我们提出了“生成循环”的概念,并利用了LLMS的语义理解,上下文意识和推理能力来帮助人类处理移动通信网络中的复杂或不可预见的情况。我们认为,将LLM和ML模型相结合,既可以利用其各自的功能,又可以实现比单独使用任何模型更好的结果。为了支持这个想法,我们首先分析LLM的功能,并将其与传统的ML算法进行比较。然后,我们根据下一代网络的要求探索潜在的基于LLM的应用程序。我们进一步研究了ML和LLM的集成,并讨论了它们如何在移动网络中使用。与现有研究不同,我们的研究强调了LLM与传统的ML驱动的下一代网络的融合,并将其作为现有调查的全面改进。我们的案例研究进一步证明了我们提出的想法的优势。最后,我们提供了一个案例研究,以通过LLMS生成的合成数据来增强基于ML的网络入侵检测。
基于大型语言模型 (LLM) 的聊天机器人(例如 OpenAI 的 ChatGPT 4.0 和 Google 的 Bard)是更广泛的生成式人工智能进步的象征。它们在学术、经济和政策制定讨论中引起了广泛关注。本文旨在研究 LLM 聊天机器人与量子科学和技术的交集,重点研究它们在这些学科中增强研究方法和教学方法的潜力。它通过评估基于 LLM 的工具在各种学术功能和行业中的现有和未来潜在效用,通过许多示例探索了基于 LLM 的工具的功能。这些范围从促进基本的问答互动到更复杂的活动,例如软件开发、撰写科学论文、审阅科学论文、准备实验、研究构思和促进量子科学的协作研究实践。LLM 和其他相关工具的快速发展实现了迄今为止各种形式的原始推理,表明它们有可能显着改变研究和教育格局,类似于互联网及其相关工具的变革性影响。因此,本文建议使用开源模型和科学语料库创建一个基于 LLM 的量子科学领域特定聊天机器人。它还将基于 LLM 的聊天机器人置于更广泛的机器学习技术中,这些技术已经用于量子科学和技术的发展。然后,它快速探讨了量子计算如何或可能不会进一步推进机器学习应用和基于语言的模型。结论是,人工智能可能会对塑造量子科学研究、教育和技术发展的轨迹产生深远影响,而反之则相当不确定,至少在短期到中期内是如此。
我们介绍了第一代推理模型,即DeepSeek-R1-Zero和DeepSeek-R1。DeepSeek-R1-Zero,一种通过大规模增强学习(RL)训练的模型,没有超级微调(SFT)作为初步的步骤,表现出显着的推理能力。通过RL,DeepSeek-R1-Zero自然出现,具有许多强大而有趣的推理行为。但是,它遇到了挑战,例如不良的可读性和语言混合。为了解决这些问题并进一步提高了推理性能,我们引入了DeepSeek-R1,该问题在RL之前结合了多阶段培训和冷启动数据。DeepSeek-R1在推理任务上实现与OpenAI-O1-1217相当的性能。为了支持研究社区,我们开放源DeepSeek-R1-Zero,DeepSeek-R1和六种密集的型号(1.5b,7b,8b,8b,14b,32b,32b,70b),根据Qwen和Llama蒸馏出了DeepSeek-R1。
现代大型语言模型(LLM)开发人员通常会设置安全一致性,以防止LLM产生不受欢迎或有害内容。这个对齐过程涉及使用人体标记的数据集对模型进行微调,其中包括拒绝回答不道德或有害问题的样本。但是,最近的研究发现,LLM的安全对准可以通过越狱提示绕开。这些提示旨在创建特定的对话方案,并有一个有害的问题。用这样的提示查询LLM可能会误导该模型来回答有害问题。大多数现有的越狱攻击要求模型内部或大量的人类干预才能产生越狱的提示。更先进的技术利用遗传学方法来实现自动化和黑框。然而,遗传方法的随机性和随机性质在很大程度上限制了最先进的(SOTA)越狱攻击的有效性和效率。在本文中,我们提出了RL-Jack,这是一种新颖的Blackbox越狱攻击,该攻击由深度增强学习(DRL)提供支持。我们将越狱提示的产生作为搜索问题,并设计了一种新颖的RL方法来解决它。我们的方法包括一系列定制设计,以在越狱背景下提高RL代理的学习效率。值得注意的是,我们设计了一个llm辅助的动作空间,该空间可以在约束整体搜索空间的同时进行di-verse动作变化。一旦受过培训,我们的经纪人就可以自动针对不同的LLM产生多样化的越狱提示。此外,我们提出了一种新颖的奖励功能,为代理商获得成功越狱的卑鄙的奖励。通过严格的分析,我们发现RL作为确定性搜索策略,比随机搜索方法(例如遗传算法)更有效,并且具有较小的随机性。通过广泛的评估,我们证明了RL-Jack总体上比对六个SOTA LLM的现有越狱攻击更有效,包括大型开源模型(例如Llama2-70B)和商业模型(GPT-3.5)。我们还显示了RL-Jack对三种SOTA防御的弹性及其在不同模型中的可转移性,包括非常大的Llama2-70B。我们通过详细的消融研究进一步证明了RL-Jack的RL代理的必要性以及我们的行动和奖励设计的有效性。最后,我们验证了RL杰克对关键超参数的变化的不敏感性。