在这项工作中,我们介绍了Genwise - 一种基于AI的生成AI框架,旨在从文本数据中播放和组织关键信息。专注于商业中的普遍问题,在这些问题上,我们的框架花在手动数据分析上,采用了尖端的生成AI,嵌入和聚类技术来实现这一发现。我们进一步提供了层次的主题表示,增强了对不同级别的用户的易用性。我们的方法包括通过生成AI的精确问题,利用了提高准确性的检索生成框架,并使用增强的社区检测算法提高了聚类相干性的20%。此综合管道针对工业环境明确优化,为复杂数据集提供了显着的效率和主题表示。
我们使用机器学习技术对文本数据进行分析,以识别金融危机。危机的爆发和持续时间对实际经济活动有影响,因此可以成为宏观审慎、货币和财政政策的宝贵投入。学术文献和政策领域主要依靠专家判断来确定危机,而且往往存在滞后。因此,危机持续时间和脆弱性的积累阶段通常只能事后才能确定。虽然我们可以使用传统的计量经济学技术和现成的市场数据在不同程度上识别和预测全球部分危机,但我们发现文本数据有助于减少此类模型样本外测试中的假阳性和假阴性,尤其是当危机被认为更为严重时。建立一个跨国家、实时一致的框架可以使世界各地的政策制定者受益,尤其是当不同政府政策需要国际协调时。JEL 分类:C53;C55;G01 关键词:金融危机;机器学习;自然语言处理
“ green_eggs_and_ham.txt”,“ cat_in_the_hat.txt”,“ fox_in_socks.txt”,“ how_the_grinch_stole_stole_stole_stole_christmas.txt”,“ hop_on_pop.txt “ One_fish_two_fish.txt”]
所表达的观点纯粹是作者的观点,在任何情况下都不被视为陈述欧洲委员会的正式立场。我们感谢在欧洲委员会举行的41 ST国际预测,大数据和经济预测研讨会,在法国Banque de France举行的实时数据分析,方法和应用程序会议,拉脱维亚银行和BELGIUM的国民银行银行以及许多评论员的评论,这使得许多评论的人都在法国Banque de France举行的实时数据分析,方法和应用程序会议。,我们非常感谢欧洲委员会支持,鼓励和刺激环境的高级研究中心,同时从事Bignomics项目。作者感谢Susan Wang对主题建模任务的支持。电子邮件:luca.barbaglia@ec.europa.eu,sergio.consoli@ec.europa.eu和sebastiano.manzan@baruch.cuny.edu。
近年来,文本数据生产的增加意味着研究人员需要更快的文本分析技术和软件,以可靠地为科学 - 繁殖社区提供知识。自动文本数据分析为一个新的研究领域开放,结合了定性研究的典型分析深度以及定量研究所需的测量的稳定性。多亏了统计–Com推荐方法,它建议研究以自然语言生成的或多或少广泛的书面文本,以揭示词汇和语言世界,并为研究人员提取有用的有意义的信息。本文旨在提供此方法的概述,迄今为止,在护理社区中很少使用。- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - Keywords Qualitative research • Automatic textual analysis • Multimethod approach • Multidimensional qualitative method • Rigour
语言是人类互动核心的独特人类特征。人们使用的语言通常反映出他们的个性,意图和心态。将互联网和社交媒体整合到日常生活中,大部分人类交流都被记录为书面文本。这些在线交流形式(例如,博客,评论,社交媒体帖子和电子邮件)为人类行为提供了一个窗口,因此为行为科学提供了丰富的研究机会。在这篇综述中,我们描述了如何使用自然语言处理(NLP)来分析行为科学中的文本数据。首先,我们回顾了行为科学中文本数据的应用。第二,我们描述了NLP管道并解释基本建模方法(例如,基于字典的方法和大型语言模型)。我们讨论了这些方法对行为科学的优势和缺点,尤其是关于可解释性和准确性之间的权衡。最后,我们为使用NLP提供了可行的建议,以确保严格和可重复性。
医疗方法、设备和仪器的密集发展使得检测疾病的新指标(标记物)成为可能[1–3],从而提高了诊断质量,这对于心血管疾病(CVD)尤其重要[4–6]在工业中心。然而,诊断特征数量的增加意味着处理时间的增加和医生系统化过程的复杂化,因为临床数据通常是零散的,既可以以定量指标的形式呈现,也可以以图像和文本数据的形式呈现。通过引入风险量表可以部分解决这一问题,心脏病学和心脏外科领域的典型例子有SCORE、TIMI、CRUSADE、GRACE等。 [7, 8]。尽管这种方法已被证明具有很高的效率,但这些秤有一个明显的初始缺点——人为限制了半自动计数所必需的构造参数[9]。此外,量表在与用于创建或验证该工具的人群相似的人群中表现相当良好,这可能会导致其他人群的估计出现严重偏差[9]。值得注意的是,患者的医疗检查、病史和体格检查会形成大量数据,这些数据可能有助于预测结果、做出诊断和确定在扩展方法中通常不会考虑到的风险。因此,
此预印本的版权持有人(该版本发布于2024年7月24日。; https://doi.org/10.1101/2024.07.23.604802 doi:biorxiv Preprint
摘要在当今世界上,信息以前所未有的速度传播,虚假信息对公共信任和信息安全构成了严重的挑战。俄罗斯在2022年对乌克兰的全面入侵激活了虚假信息作为混合战的工具,强调了需要有效的识别和控制方法。本文着重于评估各种机器学习方法在乌克兰文本数据中检测虚假信息的有效性,该数据集使用包括冲突期间收集的新闻头条的数据集。该研究涵盖了逻辑回归,支持向量机(SVM),随机森林,梯度提升,KNN,决策树,XGBoost和Adaboost的分析。使用标准指标进行模型评估:精确度,召回,F1得分,整体准确性和混淆矩阵。结果表明,在打击虚假信息中使用机器学习的显着潜力,尤其是随机森林模型的有效性最高。这项研究强调了适应和优化分类器对虚假信息分析的特定任务的重要性,为在该领域的进一步研究铺平了道路。
背景:心理化是人类认知过程不可或缺的,这与对自己和其他人的概要状态的解释有关,包括情感,信念和意图。随着人工智能(AI)的出现以及在心理健康应用中大型语言模型的突出性,关于其情感理解能力的问题持续存在。openai的大型语言模型的先前迭代(chatgpt-3.5)展示了从文本数据中解释情绪,超过人类基准测试的高级能力。鉴于Chatgpt-4的引入,具有增强的视觉处理功能,并考虑了Google Bard的现有视觉功能,因此有必要严格评估其视觉心理化的水平。目的:研究的目的是批判性地评估Chatgpt-4和Google Bard在辨别视觉心理指标方面的能力方面的能力,这与其基于文本的心理能力形成鲜明对比。方法:Baron-Cohen和同事开发的眼睛测试中的阅读思维用于评估模型在解释视觉情感指标方面的熟练程度。同时,使用情感意识量表的水平来评估大型语言模型在文本心理化方面的才能。从两项测试中整理数据提供了对Chatgpt-4和Bard的心理功能的全面看法。结果:ChatGpt-4,在情绪识别方面表现出明显的能力,在2个不同的评估中获得了26和27分数,与随机响应范式显着偏离(p <.001)。这些分数与更广泛的人口统计学的既定基准相符。值得注意的是,Chatgpt-4表现出一致的反应,没有与模型的性别或情感性质有关的可见偏见。相比之下,Google bard的性能与随机响应模式保持一致,确保10和12的得分,并使进一步的详细分析冗余。在文本分析的领域中,Chatgpt和Bard都超过了一般人群的既定基准,他们的表现非常一致。结论:ChatGpt-4证明了其在视觉心理化领域的功效,与人类绩效标准紧密相符。尽管这两种模型在文本情感解释中都表现出值得称赞的敏锐度,但巴德在视觉情感解释中的功能需要进一步审查和潜在的精致。本研究强调了道德AI发展对情感认可的关键性,强调了对包容性数据的需求,与患者和心理健康专家的合作以及严格的政府监督,以确保透明度和保护患者的隐私。