摘要 - 人工智能和典型的大语言模型(LLMS)的发展,为帮助系统管理员管理现代网络的复杂性提供了有希望的前景。,尽管存在这种潜力,但文献中仍然存在有关LLM可以理解计算机网络的程度的显着差距。没有经验证据,系统管理员可能会依靠这些模型,而不会确保其在准确执行与网络相关的任务方面的功效。在本文中,我们是第一个对LLMS对计算机网络理解的详尽研究。我们提出了几个研究问题,以确定LLM在提供网络拓扑及其问题时是否可以提供正确的答案。为了评估它们,我们开发了一个详尽的框架来评估LLMS在各种网络相关任务中的功能。我们在多个计算机网络上评估了我们的框架(例如,GPT4)和开放源代码(例如Llama2)模型。使用零拍的场景中,我们在通用LLM中的发现表明了令人鼓舞的结果,最佳模型的平均准确度为79.3%。专有的LLM在中小型网络中取得了值得注意的结果,而挑战则持续理解复杂的网络拓扑,尤其是对于开源模型。此外,我们提供了有关及时工程如何提高某些任务准确性的洞察力。索引术语 - LARGE语言模型,计算机网络,系统管理员。
抽象的大语言模型(LLM)在自然语言理解和编程代码处理任务的领域中表现出了重要的潜力。他们理解和生成类似人类代码的能力刺激了用于利用LLM的搜索代码分析目的。但是,现有的文献体系在代码分析中对LLMS的有效性进行系统评估和评估时,尤其是在混淆的代码中进行系统评估和评估。本文旨在通过对LLMS执行代码分析任务的功能进行综合评估来弥合这一差距。此外,它提出了使用LLMS进行代码分析的现实世界案例研究。我们的发现表明,LLMS确实可以用作自动代码分析的有价值的工具,尽管有一定的限制。通过细致的探索,这项研究有助于更深入地理解与使用LLMS在代码分析中相关的潜在和约束,为在这个关键领域中增强应用铺平了道路。
抽象疾病管理,特别是对于慢性病或老年人,涉及持续监测,生活方式调整和频繁的医疗互动,需要有效的家庭护理解决方案。为了满足这些需求,聊天机器人技术已成为支持患者自主管理健康的有前途的工具。在这种情况下,聊天机器人必须提供及时,准确的信息和持续的善解人意支持,以维持患者的参与度。此外,数据隐私问题需要避免第三方自然语言处理和发电服务。为了满足这些需求,在本文中,我们建议开发聊天机器人,以支持患者管理慢性病,重点关注高血压。特别是,由于隐私要求,我们使用开源大型语言模型来避免专有系统。鉴于他们的性能基于最先进的指标,我们不竞争第三方服务,因此我们结合了检索增强发电(RAG)技术,建立了一个知识库,并通过医学专业人员的投入来提高模型性能。我们评估了七个开源型号,其中包括两个在医疗领域进行的专门培训。我们的结果表明,抹布可显着提高性能,超过没有抹布的专门医疗域模型。这种方法提供了一种有希望的解决方案,用于独立安全地管理慢性条件。
电子病历(EMRS)虽然与现代医疗保健不可或缺的一部分,但由于其复杂性和信息还原而呈现临床推理和诊断的Challenges。为了解决这个问题,我们提出了Medikal(将K Nowledge图作为L LMS的ssistants),该框架将大型语言模型(LLMS)与知识图(kgs)结合在一起,以增强诊断性capabilies。Medikal根据其类型将医疗记录中的实体分配给实体的重要性,从而使候选疾病的精确定位在公里内。它创新采用了类似残留的网络样方法,从而使LLMS诊断可以合并为kg搜索结果。通过基于路径的重新算法算法和填充风格的提示模板,它进一步完善了诊断过程。我们通过对新型开源的中国EMR数据集进行了广泛的实验来验证Medikal的有效性,这表明了其在现实环境中提高临床诊断的潜力。代码和数据集可在https://github.com/csu-nlp-group/medikal上公开获得。
重要性:大型语言模型(LLMS)可以帮助进行广泛的医疗保健相关活动。当前评估LLM的方法使得难以识别最有影响力的LLM应用领域。目的:总结以5个组成部分对医疗保健中LLM的当前评估:评估数据类型,医疗保健任务,自然语言处理(NLP)/自然语言理解(NLU)任务,评估维度和医学专业。数据来源:对PubMed和Web Science进行了系统搜索,用于在01-01-2022和02-19-2024之间发表的研究。研究选择:评估医疗保健中一个或多个LLM的研究。数据提取和综合:三名独立审核者根据评估中使用的数据,医疗保健任务(what)和NLP/NLU任务(如何检查),评估维度(评估维度)以及所研究的医疗专业的维度分类。
LLM伞下的这些多样化的模型类型和培训方法展示了语言模型在处理各种185个复杂任务时的灵活性和适应性。Figure 1 illustrates the comparative capabil- ities of different LLMs across various competency domains, such as Writing (evaluating text generation quality), Role- play (assessing conversational interaction), Reasoning (log- ical problem-solving), Math (numerical problem-solving), 190 Coding (programming language understanding and gener- ation), Extraction (information retrieval from text), STEM (proficiency in scientific and technical contexts), and hu族(参与艺术,历史和社会科学内容)。在这些域中,GPT-4在Zheng等人评估的基准数据集中表现出195个最强的性能。(2023a),表明其出色的培训和广泛的知识库。将LLM扩展到诸如代码生成之类的范围内表示其适应性和跨学科创新的潜力。但是,200个微调和中文学习方法也带来了挑战,例如潜在的数据过于适应和依赖输入上下文的质量。llms的持续发展和完善承诺,将在各种领域开放新的边界,包括自动化计划和调度,205,通过用类似人类的语言了解AI。
我们认为,自动回归LLM本身不能进行计划或自我验证(毕竟是一种推理形式),并阐明了文献中误解的原因。我们还认为,LLMS应被视为通用近似知识源,这些知识源具有更有意义的角色,可以在模拟前端/后端格式翻译器之外的计划/推理任务中发挥作用。我们提出了LLM-Modulo框架的愿景,该框架将LLM的优势与外部模型的验证器结合在更紧密的双向交互制度中。我们将展示如何借助LLMS来启动驱动外部验证者本身的模型。我们还将争辩说,该LLM-Modulo框架不仅仅是简单地说明LLM和符号组件,而是提供了一种更好的神经符号方法,可以提供LLMS和符号组件之间的更严格的整合,从而扩展了基于模型的计划/推广方案的范围,从而扩展了对更灵活的知识,问题,问题,问题,问题,问题,问题和偏好的规定。
复杂活动识别在老年人护理辅助中起着重要作用。然而,边缘设备的推理能力受到经典机器学习模型容量的限制。在本文中,我们提出了一种非侵入式环境传感系统,该系统可以检测多种活动并应用大型语言模型 (LLM) 来推理活动序列。这种方法有效地结合了边缘设备和 LLM,帮助老年人进行日常活动,例如提醒他们吃药或处理跌倒等紧急情况。基于 LLM 的边缘设备还可以作为与老年人互动的界面,尤其是有记忆问题的老年人,帮助他们的日常生活。通过部署这样的系统,我们相信智能传感系统可以提高老年人的生活质量并提供更有效的保护。
摘要 - 随着机器智能的发展,需要测试和比较不同AI模型的问题解决能力的需求。但是,当前的基准通常很简单,允许模型均匀地表现良好,并且很难区分其功能。此外,基准通常依赖于模型可能记住或猜测的静态问答对。为了解决这些局限性,我们引入了动态智能评估(DIA),这是一种使用动态问题模板测试AI模型的新方法,并改善了多个学科的指标,例如数学,密码学,网络安全性和计算机科学。随附的数据集,Dia-Bench包含各种挑战模板的集合,这些挑战模板具有各种形式的可变参数,包括文本,PDF,编译的二进制文件,视觉难题和CTF风格的网络安全挑战。我们的框架介绍了四个新指标,以评估多次尝试的模型的可靠性和信心。这些指标表明,以不同形式摆姿势时,即使是简单的问题也经常被错误地回答,从而突出了模型的可靠性中的显着差距。值得注意的是,像GPT-4O这样的API模型通常高估了其数学功能,而ChatGpt-4O由于有效的工具使用而显示出更好的性能。在自我评估的Openai的O1-Mini中,证明其应尝试解决哪些任务是最好的判断。我们使用DIA-Bench评估了25个最先进的LLMS,这表明当前的模型在复杂的任务中遇到了困难,并且即使有更简单的问题也表现出意外的较低信心。DIA框架设定了一个新标准,不仅可以评估解决问题的问题,还设定了模型的自适应智能和评估其局限性的能力。该数据集在项目页面上公开可用:https://github.com/dia-bench。索引术语 - 手工智能,大语言模型,动态基准测试,性能指标,可靠性
培训过程LLM对来自Internet,书籍,文章,网站的大量文本数据进行了“培训”,基本上是用书面语言的所有内容。在培训期间,它学习了单词,短语和概念之间的模式,联系和关系。它不仅记住文本,而且还学习了语言通常如何流动以及不同的想法在输入提示(通常是问题或命令)中的模式识别中如何连接到LLM,它将分析输入并预测最有可能基于培训期间学到的所有模式来进行下一个文本。不断计算哪些单词和短语最有可能彼此关注的概率。响应生成它通过一次预测一个单词来生成响应,始终选择在上下文中有意义的下一个单词。这很快就会发生,使响应感觉自然而连贯的是要理解的关键是,LLM并没有像人类那样真正“理解”语言 - 他们擅长根据统计模式预测和生成文本,但它们没有真正的理解或意识。当您提出问题时,LLM不会搜索数据库以寻求答案。相反,它在数学上计算了逻辑上遵循输入的最可能的单词序列。