最先进的神经检索者主要关注英语等高源语言,这阻碍了他们在涉及其他语言的检索中采用。当前通过杠杆化的多语言审计语言模式,可以证明缺乏非英语语言的高质量标记数据。但是,这些模型需要多种语言的大量特定于任务特定的微调,通常在训练阶段的语料库中以最少的反映语言表现较差,以在培训阶段之后结合新语言。在这项工作中,我们提出了一个新颖的模块化检索模型,该模型从单个高资源语言的丰富数据中学习,并有效地转移到各种语言,从而消除了对语言特定标记的数据的需求。我们的模型Colbert-XM展示了与现有的最新的多语言检索器相对的性能,这些猎犬在更广泛的数据集中以各种语言进行了培训。进一步的分析表明,我们的模块化方法具有高度的数据效率,有效地适应了分布数据,并大大减少了能耗和碳排放。通过证明其在零拍摄的Sce-Narios中的熟练程度,Colbert-XM标志着向更可持续和包容的检索系统的转变,从而使有效的信息可以使用多种语言获得。我们将公开发布社区的代码和模型。
肌电控制,在肌肉收缩期间生成的肌电图(EMG)信号来控制系统或设备,是一种有希望的方式,可实现对新兴无处不在的计算应用程序的始终可用控制。但是,由于用户之间的行为和生理差异,其历史上的广泛使用受到对用户特定机器学习模型的需求的限制。利用公开可用的612-用户EMG-EPN612数据集,这项工作消除了这一概念,表明如果没有特定用户的培训,则可以实现真正的零射击交叉用户肌电控制。通过采用离散的分类方法(即,将整个动态手势视为一个事件),在一组306个未见的用户(没有提供培训数据)的一组中,可以实现六个手势的分类精度为93.0%,与大多数EMG研究(通常仅使用10-20个用户相比),可以雇用强大的交叉控制。通过将结果组织成一系列的小型研究,这项工作提供了对离散跨用户模型的深入分析,以回答未知问题并发现新的研究方向。特别是,这项工作探讨了建立跨用户模型所需的参与者数量,转移学习对这些模型的影响以及代表性不足的最终用户人口统计数据在培训数据中的影响等。结果表明,大型数据模型可以有效地推广到新的数据集,并减轻历史上限制基于EMG的输入的常见混杂因素的影响。另外,为了进一步评估创建的跨用户模型的性能,创建了一个全新的数据集(使用相同的记录设备),其中包括已知的协变量因子,例如跨日使用和肢体位置可变性。
以图像扩散模型的出色性能为动机,越来越多的研究人员努力将这些模型扩展到基于文本的视频编辑任务。然而,当前的视频编辑任务主要遭受高调成本与有限发电量之间的困境。与图像相比,我们猜测视频需要更多的限制来保留编辑期间的时间一致性。朝着这一目标,我们提出了夏娃,一种坚固而富的零射击方法。在深度图和时间一致性约束的指导下,EVE通过负担得起的计算和时间成本得出令人满意的视频编辑结果。更重要的是,认识到没有公开可用的视频编辑数据集进行公平比较,我们构建了一个名为ZVE-50数据集的新基准。通过全面的实验,我们验证了夏娃在绩效和效率之间取得令人满意的折衷。代码,数据集和视频编辑演示可在https://github.com/alipay/alipay/ant-multi-modal- framework/blob/ain/main/prj/eve上使用。
抽象理解劳动力市场动态需要准确地确定劳动力所需和拥有的技能。自动化技术越来越多地发展以支持这一工作。但是,由于现有的技能大量,从职位发布中自动提取技能是具有挑战性的。ESCO(欧洲技能,能力,资格和职业)框架提供了有用的参考,列出了13,000多个个人技能。但是,技能提取仍然很困难,并且将工作职位与ESCO分类学相匹配是一个开放的问题。在这项工作中,我们提出了一个基于大语言模型(LLMS)的职位描述中的技能提取的端到端零拍系统。我们为整个ESCO技能生成合成培训数据,并培训分类器以从工作职位中提取技能。我们还采用了相似性检索器来生成技能候选者,然后使用第二个LLM重新排名。使用合成数据达到RP@10分比以前的遥远监督方法高10分。添加GPT-4重新排行机将RP@10提高到以前的方法超过22点。我们还表明,在提示LLM提示LLM时,将任务作为模拟编程可以比自然语言提示更好的性能,尤其是在LLMS较弱的情况下。我们演示了在匹配管道的两端的两端集成大型语言模型的潜力。我们的方法不需要人类注释,并且在针对ESCO的技能提取方面取得了极为有希望的结果。