∗第一个版本:2024年1月。由OpenAI的研究人员访问计划支持的研究。FISH得到了NSF研究生研究奖学金和Kempner Institute研究生奖学金的支持。Gonczarowski的研究得到了哈佛大学Fas Dean的有前途学术竞争基金的支持,并得到了美国倡议中哈佛大学FAS不平等的竞争基金。Shorrer的研究得到了美国 - 以色列双原则科学基金会(BSF Grant 2022417)的资助。我们感谢NBER市场设计新方向2023会议的组织者创造了一个启发这项研究的环境。我们感谢Ventz Petkov的宝贵技术援助,并感谢Susan Athey,Ben Enke,Edward Glaeser,Marc Henry,David Laibson,Rohit Lamba,Shengwu Li,Ariel Pakes和David Parkes的洞察力和讨论。我们感谢计量学会跨学科前沿(ESIF)经济学和AI+ML会议的参与者,EC 2024关于基金会模型和游戏理论以及在线广告的边界的研讨会:Autobidding,Genai,Genai,Beyond,以及哈佛大学的研讨会参与者的评论。†哈佛大学工程与应用科学学院 - 电子邮件:sfish@g.harvard.edu‡哈佛大学经济学系和计算机科学系 - 电子邮件:yannai@gonch.name
“选择program_short_name,budged_appns_appn_category,tocul_budget_estimate_amount,gudvent_year,position_full_name,cost_comparison_by from Accaleity_workspace.pps.budgets_budgets_budgets_appn_ism program_short_short_short_short_name from_short_name fromage_short_name fromage_name fromage_name firpection name sageptair seption__date} Acceasition_workspace.pps_budgets_appn_ism where program_short_name {填写程序名称})和budgect_appns_appn_category = {填写apripriation category}和pregive_appns_is_is_is_ty_amounts = false = false
*由OpenAI的研究人员访问计划支持的研究。FISH得到了NSF研究生研究奖学金的支持。Gonczarowski的研究得到了哈佛大学FAS院长有前途的奖学金和哈佛大学FAS不平等倡议的竞争基金的支持。Shorrer的研究得到了美国 - 以色列双原则科学基金会(BSF Grant 2022417)的资助。我们感谢NBER市场设计新方向2023会议的组织者创造了一个启发这项研究的环境。我们感谢Ventz Petkov的宝贵技术帮助,并感谢Marc Henry,David Laibson,Shengwu Li和Ariel Pakes的深刻意见和讨论。†哈佛大学工程与应用科学学院 - 电子邮件:电子邮件:sfish@g.harvard.edu‡哈佛大学经济学系和计算机科学系 - 电子邮件:yannai@gonch.name
摘要 - 主题建模是一种广泛使用的技术,用于从未标记的文本数据中提取隐藏的模式,从而促进了各种功能,例如文档组织,内容建议和检索。尽管传统上应用于英语文本,但主题建模最近在其他语言中获得了吸引力,包括孟加拉语,这是由于孟加拉语内容在线的日益增长的驱动而驱动。最近的研究已将某些主题建模方法应用于孟加拉语,但其在绩效方面的有效性尚未得到充分影响。本文介绍了Bert-LDA(一种混合主题建模的方法),应用于孟加拉新闻语料库,其中包括从在线孟加拉新闻门户收集的各种类别的文章。潜在的dirichlet分配(LDA)是一个概率模型,将每个文档表示为主题的混合,而Bert-LDA则利用了Bert上下文嵌入的语义丰富,结合了LDA的强大主题建模功能。通过整合两种方法的优势,我们的方法旨在提高本伽利文本主题建模的性能。实验结果表明,所提出的BERT-LDA模型始终优于各种评估指标的传统主题建模技术,从而在从孟加拉语文本数据中提取有意义的见解方面有了重大改进。
• 定义:名称识别和枚举 (NER) 是在文本中定位和分类特定实体的过程,包括个人、地点、企业、日期等的名称。• 印度语言中的重要性:NER 对于问答、信息提取和其他语言理解等活动至关重要。由于名称和实体种类繁多、音译问题和不同的单词边界,识别印度语言中的命名实体可能很困难。• 困难:一个主要困难是印度语言中没有用于 NER 的大量标记数据集,特别是对于资源匮乏的语言。由于复杂的名词短语和复合词在印度语言中很常见,NER 变得更加复杂。•方法:条件随机场 (CRF)、深度学习和迁移学习是研究人员用来为印度语言创建 NER 模型的一些方法。Indo NLP 项目等计划的目标是开发印度语言的 NER 模型和数据集。
absolute forest land 绝对林地absolute height 绝对高度absolute motion 绝对运动absolute war 绝对战争absolute weapon 绝对武器absorbed dose 吸收剂量abuse of equipment 滥用装备abysm 海湾,深渊abyssal-benthic zone 深渊海区academy 军事院校academy memorial hall 校史馆acceptable dose 可受剂量acceptable materials list 堪用物资表acceptance band 可用频段accepting authority 接收( 船舰) 当局access 接近,人员机密等级access authority 存取权限access control 存取控制access procedure 接近程序access road 进出道路access taxiway 出入滑行道access time 发生作用时间,接近时间access to classified information 存取机密资料accessibility 可接近性,可达性accessorial services 附属勤务accessorial supply charge 采购用杂费accessories 武器车辆等装备之附属料件之总称,附件accessories and spares 附件和备份accessory 附件accessory case 附件箱accessory constituents 附件成分accessory defense 附属防御物accessory equipment 附件装备accessory structure 附属结构物accessory substance 副产物accident 失事,意外事件accident identification card 事故鉴定卡accident investigating officer 肇( 失) 事调查军官accident investigation report 肇( 失) 事调查报告accident prevention 肇( 失) 事预防accident report 肇( 失) 事报告accident reporting 肇( 失) 事报告法accidental attack 误失攻击accidental discharge 武器走火