∗第一个版本:2024年1月。由OpenAI的研究人员访问计划支持的研究。FISH得到了NSF研究生研究奖学金和Kempner Institute研究生奖学金的支持。Gonczarowski的研究得到了哈佛大学Fas Dean的有前途学术竞争基金的支持,并得到了美国倡议中哈佛大学FAS不平等的竞争基金。Shorrer的研究得到了美国 - 以色列双原则科学基金会(BSF Grant 2022417)的资助。我们感谢NBER市场设计新方向2023会议的组织者创造了一个启发这项研究的环境。我们感谢Ventz Petkov的宝贵技术援助,并感谢Susan Athey,Ben Enke,Edward Glaeser,Marc Henry,David Laibson,Rohit Lamba,Shengwu Li,Ariel Pakes和David Parkes的洞察力和讨论。我们感谢计量学会跨学科前沿(ESIF)经济学和AI+ML会议的参与者,EC 2024关于基金会模型和游戏理论以及在线广告的边界的研讨会:Autobidding,Genai,Genai,Beyond,以及哈佛大学的研讨会参与者的评论。†哈佛大学工程与应用科学学院 - 电子邮件:sfish@g.harvard.edu‡哈佛大学经济学系和计算机科学系 - 电子邮件:yannai@gonch.name
“选择program_short_name,budged_appns_appn_category,tocul_budget_estimate_amount,gudvent_year,position_full_name,cost_comparison_by from Accaleity_workspace.pps.budgets_budgets_budgets_appn_ism program_short_short_short_short_name from_short_name fromage_short_name fromage_name fromage_name firpection name sageptair seption__date} Acceasition_workspace.pps_budgets_appn_ism where program_short_name {填写程序名称})和budgect_appns_appn_category = {填写apripriation category}和pregive_appns_is_is_is_ty_amounts = false = false
*由OpenAI的研究人员访问计划支持的研究。FISH得到了NSF研究生研究奖学金的支持。Gonczarowski的研究得到了哈佛大学FAS院长有前途的奖学金和哈佛大学FAS不平等倡议的竞争基金的支持。Shorrer的研究得到了美国 - 以色列双原则科学基金会(BSF Grant 2022417)的资助。我们感谢NBER市场设计新方向2023会议的组织者创造了一个启发这项研究的环境。我们感谢Ventz Petkov的宝贵技术帮助,并感谢Marc Henry,David Laibson,Shengwu Li和Ariel Pakes的深刻意见和讨论。†哈佛大学工程与应用科学学院 - 电子邮件:电子邮件:sfish@g.harvard.edu‡哈佛大学经济学系和计算机科学系 - 电子邮件:yannai@gonch.name
摘要 - 主题建模是一种广泛使用的技术,用于从未标记的文本数据中提取隐藏的模式,从而促进了各种功能,例如文档组织,内容建议和检索。尽管传统上应用于英语文本,但主题建模最近在其他语言中获得了吸引力,包括孟加拉语,这是由于孟加拉语内容在线的日益增长的驱动而驱动。最近的研究已将某些主题建模方法应用于孟加拉语,但其在绩效方面的有效性尚未得到充分影响。本文介绍了Bert-LDA(一种混合主题建模的方法),应用于孟加拉新闻语料库,其中包括从在线孟加拉新闻门户收集的各种类别的文章。潜在的dirichlet分配(LDA)是一个概率模型,将每个文档表示为主题的混合,而Bert-LDA则利用了Bert上下文嵌入的语义丰富,结合了LDA的强大主题建模功能。通过整合两种方法的优势,我们的方法旨在提高本伽利文本主题建模的性能。实验结果表明,所提出的BERT-LDA模型始终优于各种评估指标的传统主题建模技术,从而在从孟加拉语文本数据中提取有意义的见解方面有了重大改进。
• 定义:名称识别和枚举 (NER) 是在文本中定位和分类特定实体的过程,包括个人、地点、企业、日期等的名称。• 印度语言中的重要性:NER 对于问答、信息提取和其他语言理解等活动至关重要。由于名称和实体种类繁多、音译问题和不同的单词边界,识别印度语言中的命名实体可能很困难。• 困难:一个主要困难是印度语言中没有用于 NER 的大量标记数据集,特别是对于资源匮乏的语言。由于复杂的名词短语和复合词在印度语言中很常见,NER 变得更加复杂。•方法:条件随机场 (CRF)、深度学习和迁移学习是研究人员用来为印度语言创建 NER 模型的一些方法。Indo NLP 项目等计划的目标是开发印度语言的 NER 模型和数据集。
本文旨在通过研究两个最先进的生成模型(扩散模型和变压器)的适应来弥合这一差距,以在哈萨克州进行文本生成。扩散模型(例如denoising扩散概率模型)在英语的高质量和多样化的文本生成中显示出令人鼓舞的结果[2]。这项研究为哈萨克语和土耳其语的自然语言处理领域做出了宝贵的贡献,为确定语法类别提供了工具。它的优势在于使用机器学习算法和广泛的数据集,这些算法与语言处理的复杂性以及算法适用性的潜在局限性相平衡[3]。同样,在下游任务上进行了微调的经过验证的变压器在各种NLP基准测试中占主导地位[4]。尽管在释义数据集上进行了一些工作[5]。该研究重点介绍了基于样本的机器翻译的基本方面:确定句子之间的相似程度。这涉及将输入句子与数据库中的相应示例对齐,选择该句子的片段,然后对其进行调整或释义以产生预期的翻译[6]。所审查的文章介绍了搜索系统中信息检索技术的新的语言和算法解决方案的开发,考虑到语法和语义的元素,包括turkic文本[7]。该文档提供了总结哈萨克文文本的方法的详细描述[8],这些研究并不能解决我们解决的问题。此外,还有一些努力在哈萨克语[9]中定义语义上的单词[9],以及使用生成的预先训练的预先训练的变压器对哈萨克语文本生成的一些初步工作,THR研究涉及对哈萨克语的文本生成模型的经验评估,其特征在于其有限的资源和复杂的形态[10]。研究研究了哈萨克语的语法特征[11]。然而,这些作品都没有全面解决哈萨克(Hazakh)的文本发电挑战,这是一种低资源,形态上丰富的突厥语。