为了回答这个问题,我们介绍了一种基于LLM的新型方法,该方法通过对宏观经济和市场情感数据的综合分析来强调顶级部门分配。现有方法包含各种数据源,包括情感和基本原理,但它们通常集中于对单个证券的自下而上分析。我们的框架利用LLMS系统地处理和合成多个数据流(包括政策文档,经济指标和情感模式),从而根据市场条件对部门分配的动态调整。通过自动化这些宏观财务关系的提取和解释,我们的框架通过主要自上而下的镜头增强了部门分配策略的响应能力。这提供了一种更系统的方法来捕捉情感驱动的价格变动,从而为扇区级别的投资组合结构提供了新的见解,以补充传统的安全级别分析。
对次要标记预测进行预处理的语言模型已被证明对缩放计算有效,但仅限于可用培训数据的数量。缩放增强学习(RL)为继续改善人工智能的新轴解锁了新的轴,并承诺大型语言模型(LLMS)可以通过学习奖励来探索探索的培训数据。但是,事先发表的工作尚未产生竞争成果。鉴于此,我们报告了Kimi K1.5的培训实践,Kimi K1.5是我们接受RL培训的最新多模式LLM,包括其RL培训技术,多模式数据配方和基础架构优化。长上下文缩放和改进的策略优化方法是我们方法的关键要素,它可以建立一个简单,有效的RL框架,而无需依赖更复杂的技术,例如蒙特卡洛树搜索,价值功能和过程奖励模型。值得注意的是,我们的系统在多个基准和模态上实现了最先进的推理性能,例如,Aime上的77.5,在数学500上为96.2,在Mathvista上为74.9,在数学500上为94%,在Mathvista上为74.9,匹配OpenAi的O1。此外,我们提供了有效的长期2个方法,这些方法使用长期技术来改善短框模型,从而产生最先进的短点推理结果 - 例如,在Aime上,Math500,47.3上的94.6在livecodebench上 - 在livecodebench上 - 以gpt-4o和claude sonnnet +550 +550 +550 / claude sonnnet +550 / claude sonnnet。
大型语言模型(LLM)的快速发展已在包括网络安全在内的各个领域开设了新的途径,该途径面临着不断发展的威胁格局和对创新技术的需求。尽管对LLM在网络安全中的应用中进行了初步探索,但该研究领域缺乏全面的概述。本文通过提供系统的文献综述来解决这一差距,涵盖了300多件作品的分析,涵盖了25个LLM和10个以上的下游场景。我们的全面概述解决了三个关键的研究问题:以网络安全为导向的LLM的构建,LLM在各种网络安全任务中的应用,该领域的挑战和进一步研究。这项研究旨在阐明LLM在增强网络安全实践方面的广泛潜力,并作为在该领域应用LLM的宝贵资源。,我们还在https://github.com/tmylla/awsome-llm4cybersecurity上维护并定期更新有关LLMS网络安全的实用指南列表。
生成AI提供了一种简单的,基于及时的替代方案,用于微调较小的BERT风格的LLM,以进行文本分类任务。这有望消除对手动标记的培训数据和特定于任务模型培训的需求。但是,仍然是一个悬而未决的问题。在本文中,我们表明,较小的,微调的LLM(仍然)始终如一,明显优于较大的零射击,这促使文本分类中的模型。我们将三种主要的生成AI模型(与GPT-3.5/GPT-4和Claude Opus)与多种分类任务(情感,批准/不赞成,情绪,情感,党派职位)和文本类别(新闻,推文,演讲,演讲)中进行了比较。我们发现,在所有情况下,使用特定于应用程序的培训数据进行微调均可取得卓越的性能。为了使更广泛的受众更容易访问这种方法,我们将提供一个易于使用的工具包。我们的工具包,伴随着非技术分步指导,使用户能够以最小的技术和计算工作来选择和调整类似BERT的LLM,以完成任何分类任务。
本文全面探讨了针对大型语言模型(LLM)的安全威胁引起的道德挑战。这些复杂的数字存储库越来越多地整合到我们的日常生活中,使其成为攻击的主要目标,这些攻击可以损害其培训数据和数据源的机密性。本文深入研究了对社会和个人隐私的这种安全威胁的细微伦理影响。我们仔细检查了五个主要威胁,包括注射注射,越狱,可识别的信息(PII)暴露,性明确的内容和基于仇恨的内容 - 超出了仅仅标识,以评估其关键的道德后果以及他们为强大的防御策略创造的紧迫性。对LLM的不断依赖强调了确保这些系统在道德准则范围内运作的关键需求,尤其是因为它们的滥用可能导致重大的社会和个人伤害。我们提出了概念化和开发针对LLMS量身定制的评估工具,该工具将达到双重目的:指导开发人员和设计师在测试阶段的LLM Chatbot响应的伦理学维度进行审查。通过将LLM的反应与人类在道德背景下的人类期望的反应进行比较,我们旨在辨别AI行为与更广泛的社会所拥有的道德价值一致的程度。最终,本文不仅强调了LLMS带来的道德问题;它还突出了培养对这些系统的信任的道路。
我们引入了 N ATURAL P LAN ,这是一个自然语言中的现实规划基准,包含 3 个关键任务:旅行规划、会议规划和日历安排。我们将评估重点放在 LLM 的规划能力上,并提供关于任务的完整信息,方法是将 Google 航班、Google 地图和 Google 日历等工具的输出作为模型的上下文。这样就无需使用工具使用环境来评估规划上的 LLM。我们观察到 N ATURAL P LAN 是针对最先进模型的具有挑战性的基准。例如,在旅行规划中,GPT-4 和 Gemini 1.5 Pro 分别只能实现 31.1% 和 34.8% 的解决率。我们发现,随着问题复杂性的增加,模型性能急剧下降:当有 10 个城市时,所有模型的性能都低于 5%,这凸显了 SoTA LLM 在自然语言规划方面存在巨大差距。我们还对 N ATURAL P LAN 进行了广泛的消融研究,以进一步阐明自我校正、少量泛化和具有长上下文的上下文规划等方法对改进 LLM 规划的 (不) 有效性。