间充质基质细胞(MSC)疗法对肾脏移植引起了显着兴趣。MSC治疗已在几种临床研究环境中进行了研究,无论是诱导疗法,急性排斥反应或支持维持治疗,允许断奶以断奶的免疫抑制药物(1-5)。在肾脏移植的情况下,对于大多数临床研究,已应用自体MSC治疗(3,5-7)。但是,由于制造MSC产品需要数周的时间,因此在临床环境中使用“现成”同种异体MSC更为可行。在海王星研究中,移植后6个月注入同种异体MSC(8)。在这项1B研究中,选择第三方MSC不具有反复的人白细胞抗原(HLA)与肾脏供体的不匹配,以最大程度地降低抗Donor免疫反应的风险。这项研究证明了HLA选择的第三方MSC在肾脏移植受者中输注的安全性与输注后他克莫司龙槽水平较低(MSC IFFUSION 6.1(±1.7)ng/mL相比,与MSC Iffusion 3.0(±0.9)Ng/ml相比)。MSC被认为可以促进移植后的免疫耐受性,并具有免疫调节和抗炎性弹药特性(4、9、10)。但是,MSC治疗的作用机理仍未完全阐明。临床前鼠研究表明,潜在的局部作用机理不太可能是由于大多数MSC在肺的微脉管系统中积累,并且在输注后几个小时内无法检测到(11,12)。Dazzi等人小组的鼠类研究。几项研究表明,旁分泌作用因子(例如细胞因子,生长因子和免疫调节蛋白)的分泌(13-16)。另一种建议的作用机理是MSC在肺中被单核细胞吞噬,并且这些单核细胞在MSC的免疫调节作用的介导,分布和传播中起重要作用(17)。确定输注后不久将MSC降解(10)。此外,他们发现凋亡过程对于MSC的免疫调节作用至关重要。假定这部分取决于吞噬凋亡MSC后的吞噬细胞衍生的吲哚胺2,3-二氧酶(IDO)活性。尽管有这些临床前数据,但在临床环境中输注时MSC的细胞死亡证明很少。最近,无细胞的DNA(CFDNA)已被鉴定为固体器官移植中排斥反应的有趣生物标志物(18)。CFDNA的存在部分是由于主动分泌,但最重要的来源是细胞经历细胞凋亡或坏死。因此,供体衍生的CFDNA可以用作细胞损伤和细胞死亡的读数,并作为移植排斥的间接度量(19-21)。在2017年,发表了DART试验的结果(22)。在这项研究中,肾移植后测量了供体衍生的无细胞DNA(DD-CFDNA),并用作
在这项研究中,我们评估了自主驾驶(AD)系统中增强学习的鲁棒性(RL),特别是反对对抗攻击的稳健性。我们采用了Karavolos等人提出的基于Q学习的AD模型。[1]的简单性,是我们分析的基础。此选择使我们能够在简单的Q学习方法和更复杂的RL系统之间进行明显的比较。我们设计了两个威胁模型,以模拟对基于RL的广告系统的对抗性攻击。第一个模型涉及在RL模型的细调中注入未发现的恶意代码,使其容易受到对抗性扰动的影响,这可能会导致在特定的触发条件下碰撞。第二个威胁模型旨在通过直接改变RL模型在特定触发条件下的行动决策来引起碰撞,这代表了一种更隐秘的方法。基于这些威胁模型,我们对两种主要情况的实证研究提出:操纵传感器输入和直接对动作的扰动。研究结果表明,尽管基于RL的AD系统表现出针对传感器输入操纵的弹性,但在受到直接动作扰动时它们会表现出脆弱性。主要的和宽容的场景涉及更改传感器读数,例如在偏心转弯期间,这可能会误导系统并可能导致事故。这对于小误差很大的操作至关重要。第二种情况直接扰动动作,更多地是对基于RL的AD系统脆弱性的理论研究,而不是实用的现实世界威胁。
学习表征捕获对世界的非常基本的理解是机器学习的关键挑战。隐藏在数据中的解释因素的层次结构是如此一般的表示,并且可以通过分层VAE实现。然而,培训层次的VAE总是遭受“后塌陷”的苦难,其中数据信息很难传播到更高级别的潜在变量,因此导致层次结构不良。为了解决这个问题,我们首先是从信息理论的角度来减轻后层崩溃的现有方法的缺点,然后突出了正规化的必要性,即在维持不同级别之间的依赖性的同时,将数据信息明确传播到高级潜在变量。这自然会导致提出高级潜在表示作为顺序决策过程的推断,这可能受益于应用强化学习(RL)。将RL的目标与正规化的目标保持一致,我们首先引入了一条跳过的途径,以获取奖励,以评估潜在的潜在表示的信息内容,然后基于它的Q-VALUE函数可能具有正规化的一致优化方向。最后,策略梯度是典型的RL方法之一,用于训练层次VAE,而无需引入梯度估计器。1。简介实验结果坚定地支持我们的分析,并证明我们提出的方法有效地减轻了后塌陷问题,学习了信息的层次结构,获得了可解释的潜在表示,并且在下游任务中明显优于其他基于层次的VAE方法。
离线增强学习(RL)旨在根据历史数据改善目标政策而不是行为政策。离线RL的一个主要问题是分配转移导致Q值估计的分布转移。大多数现有的作品都集中在行为克隆(BC)或最大化Q学习方法以抑制分布转移。BC方法试图通过将目标策略限制为离线数据来减轻转移,但它使学习的策略高度保守。另一方面,最大化Q学习方法采用悲观的机制来通过根据动作的不确定性来最大化Q值和惩罚Q值来产生动作。但是,生成的措施可能是算法的,从而导致预测的Q值高度不确定,这反过来又将误导该策略以生成下一个动作。为了减轻分配转移的不利影响,我们建议通过统一Q学习和行为克隆以应对探索和剥削难题来隐含和明确地限制政策。对于隐式约束方法,我们建议通过致力于使目标策略和行为策略的行动无法区分的生成对抗网络统一行动空间。对于显式约束方法,我们会提出多重重要性采样(MIS),以了解每个状态行动对的优势权重,然后将其用于抑制或充分使用每个状态行动对。D4RL数据集上的广泛实验表明,我们的方法可以实现出色的性能。MAZE2D数据上的结果表明,MIS与单个重要性采样更好地解决了异质数据。我们还发现MIS可以有效地稳定奖励曲线。关键字:Q学习,行为克隆,悲观机制,多重重要性采样。
电气和电子工程师协会 › iel7 作者 VHL Lopes · 2022 · 被引用 1 — 作者 VHL Lopes · 2022 被引用 1 与信道建模和仿真相关,特别关注... 采用的块结构可以表示标准的多帧组织。 17 页
FitterFly是一家ISO-13485认证的数字健康公司,专门用于2型糖尿病的数字疗法。我们提供营养,健身,压力和睡眠管理的生活方式干预措施,旨在减少和维持健康的血糖水平和体重。我们结合了尖端技术和个性化的教练来做到这一点。我们的结果已在全球顶级糖尿病以及代谢健康会议和出版物上呈现和/或出版。
摘要 真实的核反应截面模型是可靠的重离子传输程序的重要组成部分。此类程序用于载人航天探索任务的风险评估以及离子束治疗剂量计算和治疗计划。因此,在本研究中,GSI-ESA-NASA 合作生成了总核反应截面数据集合。该数据库包括实验测量的总核-核反应截面。Tripathi、Kox、Shen、Kox-Shen 和 Hybrid-Kurotama 模型与收集的数据进行了系统比较。给出了有关模型实施的详细信息。指出了文献中的空白,并考虑了哪些模型最适合与太空辐射防护和重离子治疗最相关的系统的现有数据。
[1] R. Sutton和A. Barto,《加固学习简介》,麻省理工学院出版社,1998年。[2] C. Szepesvari,《增强学习算法》,Morgan&Claypool Publishers,2010年。[3] C. Watkins,从延迟的奖励中学习,博士学位论文,剑桥大学,英格兰,1989年。[4] M. Wiering和M. Van Otterlo,加固学习:最新的ART,Springer,2014年。[5] M. Puterman,马尔可夫决策过程:离散随机动态编程,Wiley,1994年。[6] D. P. Bertsekas,动态编程和最佳控制,第一卷和II,雅典娜科学,2017年。[7] W. B. Powell,近似动态编程,Wiley,2011年。[8]选定的纸