对抗过程。在gans,两个神经网络,发电机和歧视器中,在游戏理论竞争中,类似于Minimax游戏。发电机旨在生成类似于培训数据集的数据样本,而鉴别器则旨在在真实样本和假样品之间进行差异。这种对抗性动态驱动两个网络以连续改进:发电机试图生成越来越困难的样本,使歧视者以伪造为假的,而歧视者则努力更好地区分真实的样本与假样品。通过这个对抗过程,甘斯学会了生成高质量的现实数据样本,生成器逐渐掌握了真实数据的分布。这个最小值优化框架的基础是gan的基础,彻底改变了生成建模,从而在跨各个领域生成现实的合成数据方面取得了显着的进步。
在这项工作中,我们对香草生成对抗网络(GAN)的非反应性特性进行了详尽的研究。与先前已知的结果相比,我们证明了基础密度P ∗与GAN估计值之间的Jensen-Shannon(JS)差异的甲骨文不平等。我们界限的优势在应用于非参数密度估计的应用中变得明确。我们表明,GAN估计值和P ∗之间的JS差异与(log n/ n)2β/(2β + d)的速度快速衰减,其中n是样本大小,β决定了p ∗的平滑度。这种收敛速率与最佳的密度相吻合(至对数因素)与最佳的密度相一致。关键字:生成模型,甲骨文不平等,詹森 - 香农风险,最小值率,非参数密度估计。
○ 对偶性和极小极大定理;凸优化 ○ 最大流/最小割 ● 下界技术和问题简化 ● NP 完全性 ● 近似算法 ● 从在线学习、交互式证明、大图/社交网络上的算法、并行/高性能计算、量子计算中选择的主题。
当移动次数过多和/或随机性过强,无法用 minimax/expectimax 很好地处理时,通常会使用蒙特卡洛算法。蒙特卡洛算法基于进行多次随机模拟,并尝试根据这些多次模拟做出明智的决策。它通常包括算法技巧,以最大限度地提高游戏树的“探索”程度,即如果尚未模拟结果游戏状态,则增加随机选择移动的概率(这些版本称为蒙特卡洛树搜索)。
CSCI U421算法的设计和分析3个学时概念和算法设计的基本策略;计算时间和内存要求的分析;计算复杂性理论(NP-HARD和NP完整);图形操纵算法(连接的组件,最小跨越树,旅行推销员,图表中的周期以及图形的着色);搜索算法(第一个深度,第一个,最佳和alpha-beta minimax);和计算算法(矩阵乘法,线性方程系统,表达评估和排序)。先决条件:CSCI U321中的C等级或更高;或讲师的同意。
3。脱离Bellman的完整性:通过基于模型的返回条件的监督学习[链接] Zhaoyi Zhou,Chuning Zhu,Runlong Zhou,Qiwen Cui,Abhishek Gupta,Simon S. Du ICLR 2024 2024年海报我们研究了Al Al Al Al的长度和弱点。4。强化方差学习中的尖锐方差界限:在随机和确定性环境中两全其美[link] Runlong Zhou,Zihan Zhang,Simon S. Du ICML 2023海报我们提供了一个系统的研究研究,对基于模型和模型的强化学习的方差依赖性遗憾界限,用于制作模型和模型的增强范围。 提出的基于模型的算法既适用于随机和确定性MDP。 5。 潜在马尔可夫决策过程的依赖于方差的和无水平的加固学习[链接] Runlong Zhou,Ruosong Wang,Simon S. Du ICML 2023海报我们为潜在MDPS提供了算法框架(可见上下文),从而实现了第一台无线的最小值遗憾。 我们通过使用对称技术为LMDP提供了一种新颖的LMDP遗憾下限来补充这项研究。 6。 了解在线组合优化的政策优化中的课程学习[链接] Runlong Zhou,Zelin HE,Yuandong Tian,Yi Wu,Yi Wu,Simon S. DU TMLR我们制定了典范的在线组合优化问题,作为潜在的MDP,并为LMDPS的自然政策梯度提供了融合。 我们通过相对条件数的角度显示了课程学习的有效性。 7。强化方差学习中的尖锐方差界限:在随机和确定性环境中两全其美[link] Runlong Zhou,Zihan Zhang,Simon S. Du ICML 2023海报我们提供了一个系统的研究研究,对基于模型和模型的强化学习的方差依赖性遗憾界限,用于制作模型和模型的增强范围。提出的基于模型的算法既适用于随机和确定性MDP。5。依赖于方差的和无水平的加固学习[链接] Runlong Zhou,Ruosong Wang,Simon S. Du ICML 2023海报我们为潜在MDPS提供了算法框架(可见上下文),从而实现了第一台无线的最小值遗憾。我们通过使用对称技术为LMDP提供了一种新颖的LMDP遗憾下限来补充这项研究。6。了解在线组合优化的政策优化中的课程学习[链接] Runlong Zhou,Zelin HE,Yuandong Tian,Yi Wu,Yi Wu,Simon S. DU TMLR我们制定了典范的在线组合优化问题,作为潜在的MDP,并为LMDPS的自然政策梯度提供了融合。我们通过相对条件数的角度显示了课程学习的有效性。7。Stochastic Shortest Path: Minimax, Parameter-Free and Towards Horizon-Free Regret [Link] Jean Tarbouriech*, Runlong Zhou* , Simon S. Du, Matteo Pirotta, Michal Valko, Alessandro Lazaric NeurIPS 2021 Spotlight, 3 % acceptance rate We propose an algorithm (EB-SSP) for SSP problems, which is the first to achieve minimax optimal regret while无参数。
本文探讨了在CKKS加密方案中改善排名,顺序统计和分类算法的方法,重点是近似近似差异函数,例如符号函数。完全同态加密(FHE)通过直接对加密数据启用计算来确保数据隐私,但其高计算复杂性带来了显着的挑战。为了应对这些挑战,这项研究分析了两种关键近似技术的准确性和计算效率之间的平衡:Tchebyche和复合的minimax近似算法。我们的实验结果表明,复合最小值多项式优于使用Tchebyche近似值在内存使用和计算效率中创建的多项式,使其更适合于高性能效率。为了提高其针对近似误差的鲁棒性,本文还提出了一种修订算法,用于确定矢量的(arg)min和(arg)max,该算法将比较函数的用法替换为最大或最小函数的使用。我们的发现表明,在确定向量中的最小值时,使用最大或最小函数而不是比较函数可改善稳健性与近似误差。但是,计算Argmin时相反,因为稳健性降低。这些结果有助于开发CKKS加密方案的更健壮和有效的隐私算法,并具有潜在的应用程序,并具有安全的云计算,加密的机器学习和具有隐私意识的数据分析。