大型语言模型(LLM)的最新突破已围绕少数数据富含数据的语言。扩大超越一流公民语言的突破需要什么?我们的作品介绍了AYA,这是一种大量多语言的生成语言模型,遵循101种语言的指导,其中50%以上被认为是较低的资源。aya在大多数任务上胜过MT0和Bloomz,同时涵盖了两倍的语言数量。我们引入了广泛的新评估套件,扩大了跨99种语言的多语言评估的最新评估,包括歧视性和生成性任务,人类评估以及模拟的获胜率,涵盖了执行任务和分布性能的既有。此外,我们对我们模型的最佳芬特混合物组成,数据修剪以及毒性,偏见和安全性进行了详细研究。我们在https://hf.co/choereforai/aya-101
在儿科医疗保健中,患者旅程的每个阶段(从初步评估到治疗后的康复到最终的安全出院)都面临着自己的独特挑战。这些复杂性是普遍的,超越地理和文化边界(1)。COVID-19大流行进一步介绍了文化和语言差异对医疗保健各个方面的关键影响(2)。从确定患者的访问(3)到影响护理的影响(4),这些元素在经验上已被证明具有显着影响的健康状况(5-10)(5-10),尤其是在全球大流行病等关键健康事件中(11-13)。建立在理解文化和语言元素的作用的基础上,在医疗教育领域中引起了一个特别紧迫的挑战(1,14)。护理人员,父母和医疗保健专业人员通常会在教学的主要语言不是他们的母语时面临沟通和理解障碍(15)。这个问题在小儿护理中尤为严重,在这里,准确性和深入理解是必要的。考虑到医疗保健环境中通讯中有充分记录的差距(15,16)及其随后的后果(4,17),对多媒体资源有明显而迫切的需求,这些资源不仅是全面的,而且在文化上也是在文化上和语言上量身定制的。在满足这一需求时,成立于2022年的Careaways Collakitrative,其任务是与全球卫生团队合作,以改变手术护理的文化和交付,以便所有患者都可以取得最有利的结果。这组位于波士顿的医疗保健专业人员以及马萨诸塞州的眼睛和耳朵(MEE)和马萨诸塞州综合医院(MGH)的官员旨在创造和传播教育材料,以弥合沟通差距并在各种医疗保健环境中弥补知识的分配。这一问题与世界卫生组织的数字健康指南保持一致,该指南强调了利用数字干预措施对卫生工作者培训和教育的重要性(18)。在这种方面,道路协作创建了基于视频的教育内容,借助了人工智能(AI),以确保各种医疗保健提供者和照顾者人口统计数据的清晰度和文化相关性。AI在弥合医疗教育中的弥合差距中发挥了越来越多的作用(19,20)。随着不同技术的出现,从计算机视觉(21,22)和数据分析(23)到自然语言处理(NLP)(24,25),对与语言和文化障碍有关的长期挑战有希望的解决方案。值得注意的是,Nvidia的Riva(26)和最先进的生成语言模型等创新工具 - 包括Openai的Chatgpt 4(27),Meta的Llama 2(28)以及Microsoft的Palm 2(29) - 启用实时翻译。这种进步不仅使医学教育更容易获得,而且还强调了AI在增强这些资源中的重要作用。利用了十年的实证研究,使用人工智能和语音克隆技术开发了一项课程,以解决儿科医疗保健中的通信差距。以教育视频系列的形式,课程扩展可以洞悉有效的医疗保健实践,并强调减轻潜在不良事件的策略。
•考虑语言和交流需求•学生已经接触了多少年的英语(以及在哪些环境中 - 学校,兄弟姐妹)?•补充教学需求:以儿童的母语和交流模式直接教学的机会(ASL,听力障碍,盲文)•适当的教学和材料认知水平•适当的英语语言能力水平和领域 - 熟练程度和领域 - 听力,听力,阅读,阅读,说话,写作,写作)和域名;请参阅WIDA工作文件中的指南少于四个领域•根据需要进行修改的通识教育期望•在哪种语言中可以实现技能?•阅读理解策略的明确指导•建立一个读书的例行程序•明确的词汇指令•基于绩效的脚手架任务•孩子是否在其祖国学校接受英语教学?•孩子上学前班了吗?是双语教室吗?
这个多语言学习者全州战略计划促进了一种基于资产的方法,其主要行动和目标利用了多语言学习者及其家人的知识和技能。该计划列出了决策者,学校和地区领导人以及教育工作者必须采取成功做到这一点的关键步骤。这些步骤包括支持扩展双语言程序,这些计划被证明是英语学习者最有效的计划,并为所有学生建立双语技能。该计划还包括增加支持和教育工作者的专业发展,以增强为多语言学生服务的教学实践。最重要的是,它强调了与家庭和社区合作作为这项工作的关键伙伴的重要性。
他喜欢助手,因为她是双语的。所以,他知道如何寻求帮助...与她更多地表达自己。所以,我认为这对文化也很重要,因此他们不会失去语言,因此老师理解他们...为在班上讲西班牙语的孩子们加一点西班牙语[书]。” - 拉丁人父母
攻击性语言识别是近年来受到越来越多关注的研究领域。特别是随着社交媒体平台的兴起,识别混合有代码的社交媒体文本中的攻击性语言至关重要。在社交媒体文本中识别攻击性语言是一项具有挑战性的任务。此外,在英语、希腊语或西班牙语等语言中已经做了大量攻击性语言识别工作(Zampieri 等人,2019 年;Pitenis 等人,2020 年;Ranasinghe 和 Zampieri,2020 年),但对于达罗毗荼语混合代码文本的攻击性语言识别工作却很少。达罗毗荼语(泰米尔语-英语、马拉雅拉姆语-英语和卡纳达语-英语)攻击性语言识别共享任务改变了这一状况。这项共享任务的目标是识别德拉威语混合代码文本中的攻击性语言。混合代码文本是从社交媒体平台收集的。这是一项评论或帖子级别的多语言分类任务,给出混合代码的泰米尔语-英语、马拉雅拉姆语-英语的评论或帖子
参与者的回答与 SAC 的现状形成了鲜明对比,因为 SAC 目前侧重于模拟材料和个人自学资源,但与 SAC 重新设计项目的计划高度一致,即创建一个灵活创新的空间,以促进数字化、以学生为中心、协作和交流的语言学习和教学。特别是,第一项任务中建议的活动证实了我们对支持多语言交流和协作的空间的需求,例如对话练习、辩论、展览空间。此外,它们支持我们向以学生为中心的教育的持续转变,例如演讲、学生主导的课程;并强调将语言学习活动转变为文化交流的重要性,例如文化活动和全球问题辩论。他们还强调提供发展可转移技能的机会的重要性,例如技能交流课程、基于任务的语言教学,以及将课外活动(例如休闲区或电影院)融入我们的学习计划中的重要性。