摘要 - 基于运动图像的大脑计算机界面(MI-BCIS)是神经技术,可利用运动皮质上的感觉运动节奏的调节,分别称为事件相关的去同步(ERD)(ERD)和综合化(ERS)。ERD/ERS的解释与用于估计它们的基线的选择直接相关,并可能导致误导ERD/ERS可视化。实际上,在BCI范式中,如果两次试验被几秒钟分开,则将基线接近上一个试验结束的基线可能会导致ERD的过度估计,而将基线的基线太接近即将到来的试验可能会导致ERD估计不足。在MI-BCI研究中,这种现象可能会引起对ERD/ERS现象的功能误解。这也可能会损害MI与REST分类的BCI性能,因为这种基准通常被用作静止状态。在本文中,我们建议研究几个基线时间窗口选择对ERD/ERS调制和BCI性能的影响。我们的结果表明,考虑选定的时间基线效应对于分析MI-BCI使用过程中ERD/ERS的调制至关重要。
Ph.D.论文委员会成员:Luofeng Liao,Jiangze Han(不列颠哥伦比亚大学),Tianyu Wang,Aapeli Vuorinen,Madhumitha Shridharan,Jerry Anunrojwong(哥伦比亚商学院),Steven Yin(2022),Sai Ananthanarayananananananananananananananananananananananananananananananananananananananananananananananananananananananananananananananananananananananananananananaan lagzi of Turrontanaan lagzi(202222222) Yuan Gao(2022),Jingtong Zhao(2021),Fengpei Li(2021),Kumar Goutam(2020),Shuoguang Yang(2020),Min-Hwan OH(2020),Randy Jia(2020),Randy Jia(2020),Vladlena Powers(2020),vladlena Powers(2020),Zhe liuia liuia liuia(2019年),2019年,2019年(2019年)贝鲁特美国大学),Suraj Keshri(2019),Shuangyu Wang(2018),Francois Fagan(2018),Xinshang Wang(2017)Ph.D.论文委员会成员:Luofeng Liao,Jiangze Han(不列颠哥伦比亚大学),Tianyu Wang,Aapeli Vuorinen,Madhumitha Shridharan,Jerry Anunrojwong(哥伦比亚商学院),Steven Yin(2022),Sai Ananthanarayananananananananananananananananananananananananananananananananananananananananananananananananananananananananananananananananananananananananananananaan lagzi of Turrontanaan lagzi(202222222) Yuan Gao(2022),Jingtong Zhao(2021),Fengpei Li(2021),Kumar Goutam(2020),Shuoguang Yang(2020),Min-Hwan OH(2020),Randy Jia(2020),Randy Jia(2020),Vladlena Powers(2020),vladlena Powers(2020),Zhe liuia liuia liuia(2019年),2019年,2019年(2019年)贝鲁特美国大学),Suraj Keshri(2019),Shuangyu Wang(2018),Francois Fagan(2018),Xinshang Wang(2017)
强化学习(RL)是机器学习中的一个活跃子区域,已成功应用于解决复杂的决策问题,例如玩棋盘游戏[31,32]和视频游戏[22] [22],自主驾驶[18,21],以及最近,将大型语言模型和文本生成模型与人类的preference preferfection and-to anclight [18,21]。RL研究主要集中在离散时间和空间中的马尔可夫决策过程(MDP)上。有关MDP的理论和应用的详细说明,请参见[34]。Wang,Zariphopoulou和Zhou [40]是第一个使用受控扩散过程的RL制定和开发RL的熵调查的,探索性控制框架的人,该过程固有地与连续状态空间和可能的连续作用(可能连续的动作(控制)空间)。在此框架中,随机放松控制被用来表示探索,从而捕获了RL核心的“反复试验”概念。随后的工作旨在通过Martingale方法[14、15、16]和政策优化在连续时间内为无模型RL奠定理论基础[44]。在这里,“无模型”是指潜在的动力学是扩散过程,但是它们的系数以及奖励函数是未知的。[14,15,16]的关键见解是,可以从基于连续时间RL的Martingale结构中得出学习目标。这些论文中的理论结果自然会导致一般RL任务的各种“无模型”算法,因为它们直接直接学习最佳策略而无需尝试学习/估计模型参数。这些算法中的许多算法恢复了通常以启发式方式提出的MDP的现有RL算法。然而,对MDP的RL研究占据了中心阶段的算法的融合和遗憾分析仍然缺乏扩散率。To our best knowledge, the only works that carry out a model-free convergence analysis and derive sublinear regrets are [12] for a class of stochastic linear–quadratic (LQ) control problems and [11] for continuous-time mean–variance portfolio selection, both of which apply/apapt the policy gradient algorithms developed in [15] and exploit heavily the special structures of the problems.本文的目的是通过对[16]中引入的(小)Q学习的定量分析以及通常非线性RL问题的相关算法来填补这一空白。(big)Q-学习是离散时间MDP RL的关键方法,但Q功能在连续的时间内崩溃,因为它不再依赖于时间步长无限时间小时的操作。[16]提出了Q功能的概念,Q功能是Q功能在时间离散化方面的第一阶导数。