数据集对于统计学习理论的发展和模型的发展至关重要。现代机器学习在复杂任务中的新兴成功依赖于大量数据集的巨大增长(参见Donoho [12]),例如ImageNet [11],Superglue [16]和Laion-5b [15]。但是,这种进化破坏了标准的统计学习假设和工具。我的研究通过开发新的理论工具和研究非常规模型来围绕现代数据集的复杂性。由{(x i,y i)} n i = 1组成的传统数据集的研究产生了文本统计学习理论的丰富而成熟的理论,例如经验风险最小化,见证了著名模型的发展(例如em算法和随机森林),它们在随意的推断和保形预测中不断发挥至关重要的作用。近年来,真正的惊人是现代数据集的爆炸性出现。他们推动了统计机器学习模型的开发,并在计算机视觉和人工智能等综合任务中做出了难以想象的准确预测,从而利用了革命性模型的力量,包括深神经网络,深度神经网络,从人类反馈(RLHF)(RLHF)和大语言模型(LLM)(LLM)的强化学习。我们应该如何考虑将这些模型超越传统智慧?我们可以利用哪些数学基础来做更多?我的目标是在我未来的职业生涯中深入研究我当前的重点领域,并扩展到这些领域。现代数据集具有很大的功能,经常打破古典理论和模型的教科书假设 - 这些数据可能没有单个标签,例如{(x i,y i)} n i = 1,功能x i可能是高维或缺失的元素,可能是基本的分布x可能会从与学习相互作用等相互作用中转移。因此,我的研究目标是通过揭开现代数据集复杂性的奥秘来研究现代ML和开创性模型的成功 - 更确切地说,我旨在开发统计理论来解释现代ML,品牌和测试数据集和方法的异常行为,并在数据集和方法中进行模型行为,并预测我们可以将学习方法进行流式学习方法的模型行为。i通过解决传统模型和理论不熟悉的一些出色方面,经历了理解现代数据集的博士学位之旅 - 我既获得独特的直觉,又获得了开发的新颖理论工具,这些工具有助于揭示现代数据集的力量。我也意识到,这些角度只是刮擦现代数据集的表面,还有其他问题使我感兴趣,例如在线学习和分解模型。我当前的研究涵盖了以下主题,由选定的代表作品强调。
主要关键词