model.activations_checkpoint_granularity selective \ model.activations_checkpoint_num_layers=null \ model.activations_checkpoint_method=uniform \ model.optim.name=fused_adam \ model.optim.lr=1e-4 \ model.answer_only_loss=True \ model.data.train_ds.file_names = $ {train_ds} \ model.data.validation_ds.file_names = $ {有效_DS} \ date.data.data.data.test_ds.file_names model.data.train_ds.concat_sampling_probabilities=${CONCAT_SAMPLING_PROB S} \ model.data.train_ds.max_seq_length=10000 \ model.data.validation_ds.max_seq_length=10000 \ model.data.train_ds.micro_batch_size=1 \ model.data.data.train_ds.global_batch_size = 128 \ model.data.validation_ds.micro_batch_size = 1 \ date.data.validation_data.validation_data.global_batch_size = 128 model.data.validation_ds.num_workers = 0 \ model.data.data.test_ds.num_workers = 0 \ model.data.data.validation_metric.name = loss = lose \ model.data.data.data.data.test_ds.tes.test_metric.name = loss exp_manager.checkpoint_callback_params.mode = min \ exp_manager.explitic_log_dir = $ {output_dir} \ exp_manager.resume.resume.resume_exists = true \ exp_manager.resmanager.resume_no_no_no_no_checkpoint = true_no_checkpoint = true \ exp_managpoint \ exp_managecpoint = exp_manager.checkpoint_callback_params.monitor=validation_loss \ ++exp_manager.checkpoint_callback_params.save_best_model=False \ exp_manager.checkpoint_callback_params.save_nemo_on_train_end=True \ model.save_nemo_on_validation_end=False
领先的大型语言模型(LLMS)接受了公共数据的培训。但是,世界上的大多数数据都是黑数据,主要是以私人组织数据或企业数据的形式公开访问。我们表明,在现实世界企业数据集上测试时,基于LLMS的方法的性能严重降低。基于公共数据的当前基准测试高估了LLM的性能。我们发布了一个新的基准数据集,即Goby Benchmark,以提高企业数据的发现。根据我们在该企业基准的经验,我们提出了提高LLM在启动数据上的性能的技术,包括:(1)层次结构注释,(2)运行时类学习和(3)本体学合成。我们表明,一旦这些技术部署了这些技术,企业数据的性能就与公共数据的性能相当。可以在https://goby-benchmark.github.io/上获得Goby基准测试。
因果推断广泛应用于社会科学,以分析特定治疗的影响。因果推理工具依赖于事先发现基本因果图,这是一个称为因果发现的过程。传统上,构建因果图取决于专家领域知识。但是,嵌入大型语言模型(LLMS)中的丰富知识提供了一种有希望的选择。尽管如此,仅LLMS在推断完整的因果图方面的表现很差,这主要是因为它们无法说明因果图的定向无环性。为了解决这一限制,我们提出了一种新颖的方法,将LLM与统计因果发现算法相结合,以更好地利用LLM的专家样能力。实验结果表明,所提出的方法显着提高了因果序的准确性,并有效地减少了下游因果效应估计任务中的错误。
在过去的一年中,大型语言模型(LLMS)在速度,成本效率,准确性以及处理更大文本的能力方面取得了显着进步,与我在初始版本的“经济研究生成AI”(Jel,2023年)中所描述的相比,可以更先进的用例。本文探讨了这些进步如何支持新的推理功能和新工作区,用于间隔LLM协作,例如Claude的文物,Chatgpt的画布或Microsoft的Copilot。此外,它描述了LLM驱动的Internet搜索的最新改进。结合这些进步使经济学家能够在研究中实现显着的生产力提高。此外,我在促进研究中重点介绍了新的用例,例如自动生成的博客文章,演示幻灯片和访谈以及通过Google Notebooklm的播客。
电子病历(EMRS)虽然与现代医疗保健不可或缺的一部分,但由于其复杂性和信息还原而呈现临床推理和诊断的Challenges。为了解决这个问题,我们提出了Medikal(将K Nowledge图作为L LMS的ssistants),该框架将大型语言模型(LLMS)与知识图(kgs)结合在一起,以增强诊断性capabilies。Medikal根据其类型将医疗记录中的实体分配给实体的重要性,从而使候选疾病的精确定位在公里内。它创新采用了类似残留的网络样方法,从而使LLMS诊断可以合并为kg搜索结果。通过基于路径的重新算法算法和填充风格的提示模板,它进一步完善了诊断过程。我们通过对新型开源的中国EMR数据集进行了广泛的实验来验证Medikal的有效性,这表明了其在现实环境中提高临床诊断的潜力。代码和数据集可在https://github.com/csu-nlp-group/medikal上公开获得。
对手可以提示该模型提取出来的姓名,电子邮件地址,电话号码或其他敏感信息,以实现恶意目的,如图1所示。一般数据保护法规(欧洲议会和欧盟理事会,2016年)赋予个人被遗忘的权利(RTBF),这可能会限制其个人信息的不同和间接商业使用。这种情况导致我们提出问题:我们如何使LLMS能够保护特定个人的私人数据以减轻隐私风险?在LLM的昂贵培训过程中,将所有私人信息从培训数据中移动并从头开始重新训练它不是一个实用的解决方案(Lison等人。,2021; Kandpal等。,2022;刘等。,2024a)。因此,研究人员旨在采用机器学习(MU)作为替代方案,旨在消除不受欢迎的数据和相关模型的影响而无需重新培训的影响(Cao和Yang,2015; Bourtoule et e;,2021; Jang等。,2022; Si等。,2023;张等。,2023a; Maini等。,2024;刘等。,2024a)。为了评估MU甲基的性能,一些研究已经尝试了问题 -
多级分层分类(MLHC)解决了在复杂的多层类结构中对项目进行分类的挑战。但是,传统的MLHC分类通常依赖具有n个独立输出层的骨干模型,这些模型往往会忽略类之间的层次关系。这种疏忽可能导致违反潜在分类法的前提不一致。利用大型语言模型(LLMS),我们提出了新颖的分类学限制过渡性LLM-无知框架进行多模态分类。这种进步的基石是模型在层次级别上执行一致性的能力。我们对MEP-3M数据集的评估 - 与常规LLMS结构相比,具有各种层次级别的多模式电子商务产品数据集具有显着的性能。
近年来,像 ChatGPT 这样的大型语言模型 (LLM) 取得了长足的进步,并已应用于各个领域。这些模型基于 Transformer 架构,在大量数据集上进行训练,使它们能够有效地理解和生成人类语言。在金融领域,LLM 的部署正在获得发展势头。这些模型被用于自动生成财务报告、预测市场趋势、分析投资者情绪以及提供个性化的财务建议。利用其自然语言处理能力,LLM 可以从大量金融数据中提取关键见解,帮助机构做出明智的投资选择,并提高运营效率和客户满意度。在本研究中,我们全面概述了 LLM 与各种金融任务的新兴集成。此外,我们通过结合自然语言指令对多个金融任务进行了整体测试。我们的研究结果表明,GPT-4 能够在各种金融任务中有效地遵循提示指令。这项对金融领域法学硕士学位的调查和评估旨在加深金融从业者和法学硕士研究人员对法学硕士学位在金融领域当前作用的理解,发现新的研究和应用前景,并强调如何利用这些技术解决金融行业的实际挑战。
本文介绍了我们参加FinCausal 2025 Compeition的方法和发现(Moreno-Sandoval等人。,2025),解决了从财务文件中得出的因果问题,特别是英语和西班牙年度报告。与基于BERT的代币分类(例如基于BERT的提取方法)相比,我们研究了生成模型(例如Llama)的有效性。虽然迅速的优化和很少的学习提供了一些改进,但它们不适合持续超过Fincausal的提取方法,并且患有hAlu take。相比之下,微调生成模型被证明对于最小化的幻觉和实现了卓越的表现至关重要。使用我们的微调多语言模型完成这两个任务,我们的表现要优于我们的外来和单语言方法,在比赛中获得了西班牙语的最高成果,而在比赛中获得了第二好的结果。我们的发现表明,微调的大语言模型非常适合复杂的财务叙事中的因果问答,提供了强大的多语言帽子,并有效地减轻了幻觉。
我们比较了开放量和封闭式LLM的性能,例如Llama-3和GPT-4与跨孟加拉语下流任务的微调编码器模型,包括翻译,摘要,汇总,释义,问答,提示和自然语言的推流。我们的发现表明,尽管LLM通常在执行任务方面表现出色,但它们在重新制定孟加拉语脚本生成的任务中的表现却是不明智的。关键挑战包括现有LLM对孟加拉脚本的效率低下,从而导致计算成本增加和潜在的性能退化。加法 - 我们重点介绍了通常用于孟加拉NLP任务的机器翻译数据集中的偏差。我们得出的结论是,孟加拉国面向的LLM非常需要,但是该领域通常缺乏为降低一个高效模型所需的高质量预科和指导调整数据集。*