从人类反馈中学习(RLHF)已成为使大语言模型(LLM)与人类偏好保持一致的标准方法,从而使LLM可以在各种任务中表现出显着的能力。现有方法通过在单个决策(转弯)级别上模拟偏好,限制其在需要计划或多转交互以实现长期目标的设置中的功能。在本文中,我们通过开发新的增强学习方法(RL)来解决这个问题,从两次完整的多转交谈之间的偏好反馈中。在表格设置中,我们为一般多转变的基于多转变的RL问题提供了一种新型的基于镜下降的策略优化算法,并证明了其与NASH平衡的收敛。为了评估绩效,我们创建了一个新的环境,教育对话,教师代理人指导学生学习一个随机主题,并证明我们算法的深度RL变体优于RLHF Baselines。最后,我们表明,在具有明确奖励的环境中,我们的算法恢复了与基于奖励的RL基线相同的性能,尽管仅依靠较弱的偏好信号。
西海岸学习中心| wccl.ca | 778.839.5515 | info@wccl.camonitor您的孩子的日常体验:记下情绪的改变,跳过的作业或回避行为。提高成长心态:鼓励您的孩子看到挑战作为成长的机会。借用专业支持:WCCL之类的计划,例如WCCL提供结构化的,科学的指导,用于您的孩子的独特需求。 wccl.ca | 778.839.5515 | info@wccl.ca西海岸学习中心| wccl.ca | 778.839.5515 | info@wccl.camonitor您的孩子的日常体验:记下情绪的改变,跳过的作业或回避行为。提高成长心态:鼓励您的孩子看到挑战作为成长的机会。借用专业支持:WCCL之类的计划,例如WCCL提供结构化的,科学的指导,用于您的孩子的独特需求。 wccl.ca | 778.839.5515 | info@wccl.ca
Área Temática: Ciencias agrarias y agroalimentarias Nombre: ESPINOSA RUIZ, CRISTOBAL Referencia: RYC2023-045252-I Correo Electrónico: cespinosa31416@gmail.com Título: Immunobiology and antioxidants for aquaculture Resumen de la Memoria: My research activity始于2006年的“营养实验室”团队(UMU),在那里我首先合作开发了两个项目,但在我撰写了硕士论文和博士学位论文之后。在那个时期(2006-2015),我能够建立并开发不同的技术来评估抗氧化剂,多酚和氧化应激。我们研究了长期(1年)给药的多酚对化学疗法在两个项目(1个国家和1个欧洲)中通过合作而产生的氧化应激的影响,我为2015年UMU的抗氧化和氧化应激辩护。之后,我有机会改变了研究线,被聘为“鱼类免疫系统”小组(UMU)的研究人员,重点是海洋养殖鱼类的免疫学。这个时期(2015-2017)不仅给了我学习广泛的技术(分子生物学,细胞生物学,组织学,免疫学,微生物学,病理学)的机会,而且还为我提供了将抗氧化剂和氧化压力的知识联系起来的机会,并与集中在FISH FISH Immune系统的团队中建立新的关系。我们与益生元,免疫刺激剂,新细胞系发育,污染物以及微颗粒和纳米颗粒合作。在这方面,我已经合作了4个项目,也许最重要的是欧洲项目Ephemare(JPI Oceans),关于微塑料。我向国会发表了8篇文章和5篇沟通。在此期间,我发表了大约22篇文章和一本书章节以及22篇Communications。2017年,我在巴勒莫大学(意大利)地球与海洋科学系担任研究员,在那里我在国家(意大利)项目CISAS中工作,CISAS“国际环境,生态系统和人类健康高级研究中心”,直到2019年11月。这个时期(2017-2019)允许我在评估新兴污染物对海洋环境,体内和体外研究新兴污染物的不同混合物的生态毒性影响评估中的所有经验。然后,我再次获得了“鱼类免疫系统”组(UMU)的博士研究员的职位。自2019年以来,我从事放大器,益生菌,后生物学,细胞迁移,皮肤再生,在2个项目中进行合作。我在2023年与印度合作者一起开发了一项专利。最近,我为我的项目获得了有关鱼类脂肪肝病研究的资金,该研究已于2023年1月开始,将持续约两年(“ Thinkinazul”,由McIn在欧洲联盟Nextgeneration Eu的资金中支持)。拟议的研究线的全球目的是提高有关使用地中海特征以及体外工具建立体内FLD模型的鱼类脂肪肝病(FLD)的知识。进步可能允许从新陈代谢,结构和分子观点研究FLD的发展,包括可能对FLD和/或治疗的预防性应用。此外,使用侵入性和非侵入性技术,来自FLD和健康的鱼类的数据之间建立了相关性,可以允许评估养殖鱼类的FLD。
在本文中,我们概述了我们参加 SemEval-2024 第 9 项竞赛的作品:“脑筋急转弯:一项违背常识的新任务”。我们参与两个子任务:子任务 A - 句子拼图和子任务 B - 单词拼图。我们通过微调评估了大量不同大小的预训练的基于 Transformer 的语言模型。随后,我们对它们的分数和反应进行分析,以帮助未来的研究人员理解和有效地利用这些模型。我们表现最佳的方法在两个子任务的竞赛排行榜上都占据了竞争地位。在评估阶段,我们最好的作品在句子拼图中获得了 81.7% 的平均准确率,在单词拼图中获得了 85.4% 的平均准确率,分别比最佳神经基线 (ChatGPT) 高出 20% 和 30% 以上。
摘要 - 在障碍物周围执行各种自动化任务时,对移动机器人的安全和平滑的运动控制至关重要,尤其是在人和其他移动机器人的情况下。移动机器人在朝着指定的目标位置迈进时使用的总转弯和空间在确定所需的控制工作和复杂性方面起着至关重要的作用。在本文中,我们考虑了基于角度反馈线性化的标准独轮车控制方法,并提供了一种明确的分析措施,以根据独轮车状态和控制收益来确定在独轮车控制过程中的总转盘。我们表明,与线性控制增益相比,可以选择更高的角度控制增益来避免围绕目标位置的不希望的螺旋振荡运动。相应地,我们使用总的转弯努力建立了在闭环独轮车轨迹上结合的准确,明确的三角运动范围。运动范围预测的提高精度是由于对独轮车状态和控制参数的更强依赖性而产生的。要比较替代循环,圆锥和三角运动范围预测方法,我们介绍了提议的独轮车运动控制和运动预测方法的应用,用于在数值模拟中围绕障碍物围绕障碍物进行安全的独轮车路径。
本文提出了对汽车的稳态转弯平衡的彻底研究。除了对正常驾驶行为做出反应的平衡 - 以下称为稳定的正常转弯外,漂流还吸引了增加的注意力。讨论漂流时,通常假定偏航率和转向角度相反,即驾驶员是反向行驶的,后桥被安装。有趣的是,另一个不稳定的平衡是可观的,此处称为不稳定的正常转弯。在这项工作中,尝试对漂移进行全面定义。提出了一个逆模型来计算以给定半径和侧滑角度执行稳态转弯所需的驱动器输入。通过线性化系统并分析所得状态矩阵的特征值和特征向量来探索所有平衡的数学含义。
当今存在的大部分Waikato-Tainui Marae和相关的Whaanau Whaua(“ Marae”)并未被官方或英国定居者收购,因为它被认为是“荒原”和“不经济”。我们的68个Te Whakakitenga o Waikato Marae(“ Whakakitenga Marae”)主要由原始所有者的后代拥有,赋予了Marae的文化和历史意义,并由Whakapapa和我们周围的一切与Whakapapa及其与Taiao的世代相传。通过我们的文化系统以及我们的成长方式,我们与Whenua和我们周围的整个世界的联系为我们与Taiao的关系和责任奠定了基础。气候缺点是这些土地更容易受到气候变化的影响。Marae及其周围重要地点的沿海和河流位置(例如Urupaa)使它们有可能面临海平面上升和山洪泛滥的风险。对于位于河口附近的Marae,海平面上升的影响可能包括潮间带的栖息地和对Mahinga Kai的影响。其他Marae可能被包围或接近微妙的生态系统,例如湿地可能更容易洪水和干旱。偏远的Marae和内陆地区可以使改善Marae基础设施以提高Marae的弹性更具挑战性。如果没有采取任何措施来维持和提高Marae的弹性,气候变化的影响将对Marae产生额外的压力,并可能会使我们68个Whakakitenga Marae及其相关的Whaanau Whaaua Whaaua的质量恶化。
本论文由 UND Scholarly Commons 的论文、学位论文和高级项目免费开放给您。它已被 UND Scholarly Commons 的授权管理员接受并纳入论文和学位论文。有关更多信息,请联系 und.commons@library.und.edu。