序列学习的顺序是通过此博客文章引用了超过27,000次。随着当前大语言模型和基础模型的快速进步,在AI和应用程序中发生了范式转变,该领域受益于这项工作的基础。是基石的工作,它设定了编码器架构,激发了后来的基于注意力的改进,从而导致了当今的基础模型研究。
用于解决复杂物理问题的机器学习(ML)技术的整合越来越被认为是加快模拟的有前途的途径。但是,评估ML衍生的物理模型在工业环境中的采用构成了重大挑战。本竞赛旨在促进创新的ML方法来应对身体挑战,利用我们最近引入的统一评估框架,称为学习工业物理模拟(LIPS)。建立在2023年11月至2024年3月1日举行的初步版本上,该迭代以良好的物理应用为基础的任务为基础:使用我们建议的Airfrans数据集,翼型设计模拟。竞争基于各种标准评估解决方案,包括ML准确性,计算效率,分布外部性能和遵守物理原理。值得注意的是,这项竞争代表了探索ML驱动的替代方法的开创性努力,旨在优化物理模拟中计算效率和辅助性之间的权衡。托管在Codabench平台上,比赛为所有参与解决方案提供了在线培训和评估。
几乎没有字体生成(FFG)旨在从有限数量的参考字形学习目标样式,并在目标字体中生成剩余的字形。以前的作品着重于解开字形的内容和样式特征,将源字形的内容特征与参考文字的样式特征相结合以生成新的字形。然而,由于字形的复杂性,分离构成了挑战,通常导致字形受到源字形风格和容易产生文物的风格的字形。我们提出了一个新的范式,它是一种新颖的范式,其中包含了思想描述序列(IDS),而不是源字形来控制生成的字形的语义。为了实现这一目标,我们将参考字形量化为代币,并使用相应的ID和参考令牌对目标字形的令牌分布进行建模。所提出的方法在用整洁和正确的笔触合成字形方面表现出色,并可以基于提供的ID来创建新的字形。广泛的实验表明,我们的方法在一击和少量设置中都大大优于最先进的方法,尤其是当目标样式与培训字体样式显着差异时。该代码可在https://github.com/stareven233/if-font上找到。
导航极端:大输出空间中的动态稀疏性。Nasibullah Nasibullah,Erik Schultheis,Mike Lasby,Yani Ioannou,Rohit Babbar。研究了大型输出空间的动态稀疏训练。利用半结构化的稀疏性,中间层和辅助损失,它可以使用数百万个标签的端到端培训。
我们是否充分利用多模式大语模型(MLLM)中视觉编码器的潜力?MLLM最近在多模式理解中的出色表现引起了学术界和行业的广泛关注。在当前的MLLM大鼠种族中,重点似乎主要是语言方面。我们目睹了较大和更高质量的指导数据集的兴起,以及大型LLM的参与。然而,很少关注的注意力指向MLLM使用的视觉信号,通常被认为是冷冻视觉编码器提取的最终高级特征。在本文中,我们介绍了密集的连接器 - 一种简单,有效且插件的视觉语言连接器,通过利用多层视觉特征来显着增强现有MLLM,并以最少的额外计算开销。在此基础上,我们还提出了有效的密集连接器,该连接器的性能与Llava-V1.5相当,只有25%的视觉令牌。此外,我们的模型仅在图像上进行了训练,还展示了视频理解中出色的零拍功能。各种视觉编码器,图像分辨率,训练数据集量表,不同尺寸的LLM(2.7b→70b)以及MLLM的不同架构(e。g。,llava-v1.5,llava-next和mini-gemini)验证了我们方法的多功能性和可扩展性,从而在19个图像和视频基准中实现了最先进的性能。我们希望这项工作将提供宝贵的经验,并成为未来MLLM开发的基本模块。代码可在https://github.com/hjyao00/denseconnector上找到。
