基于强化学习的建议系统被视为代理,它与外部环境进行交互以完成项目建议任务。该任务被建模为马尔可夫决策过程(MDP),主要元素包括(𝑆,𝐴,𝑃,𝑅,𝛾)。每个元素的具体含义如下:•状态空间𝑆:状态表示用户信息和时间上的历史互动信息,在该信息中,可以通过代理商在时间的推荐操作以及用户的相应反馈来获得用户历史交互信息,并显示了当前时间的用户历史偏好。•动作空间𝐴:指示动作。𝑎表示代理在时间时处于状态时所采取的措施。本文将用户对项目的兴趣的权重作为一个动作,并结合了𝑡中包含的用户的历史偏好,并建议该项目更符合用户的偏好。•状态过渡概率𝑃(𝑠+1 /𝑠𝑠,𝑎):它表达了环境状态模型的变化规则。也就是说,状态的概率分布更改为代理在当前状态𝑠𝑠中接收诉讼之后。在本文中,可以确定的是,如果用户未单击或对任何推荐项目发表评论,则环境状态保持不变。•奖励𝑟:在瞬间,用户根据当前状态和代理商的建议操作𝑎𝑎(即给出了对智能机构推荐的项目的选择或评级)做出相应的反馈。•折现因子𝛾:在加强学习中,当前的奖励价值对最终奖励有不同的影响。在当前时间越近,应获得更多的奖励,而折现因子代表随着时间的推移奖励衰减的速度,而IS的价值范围[0,1]。γ的值越大,随后的将来的奖励就越完整。智能代理从环境的初始状态开始。它通过策略模型π(a | s)进行采样并执行它。环境状态S1根据动作A1的影响,根据内部状态过渡模型P(s'|,A)将变为新状态𝑠2。同时,奖励函数r(𝑠1,𝑎1)向代理发送反馈签名。在这一点上,生成了由序列形成的相互作用发作。以这种方式循环循环,直到达到建议的终止状态。从推荐任务的开始到结束时,产生了一系列有序的发作,以表示代理和环境之间相互作用的轨迹(轨迹)。t表示情节的时间戳号(或步骤号)。建议模型的训练过程是找到一组参数θ代表策略网络以最大化𝐽(𝜋 𝜋),即𝜃 ∗ =𝑎𝑟𝑔𝑚𝑎𝑥𝜃 𝜃(𝜋 𝜋),由为了平衡短期奖励和长期奖励的重要性,互动轨迹的累积累积奖励(折现回报)随着时间的流逝是𝑅(𝜏)= ∑ 𝛾 = 𝛾 𝛾 𝛾 𝛾 𝛾𝑡𝑟𝑡𝑇= 1 = 1。 𝜃(𝑎|𝑠)为了最大化预期的回报(预期回报)𝑅(𝜏),即𝐽(𝜋 𝜋)=𝔼𝜏 𝜏(𝜏)[𝑅(𝜏)],pθ(𝜏)表示轨迹𝜏,θ是策略函数的参数。
“美国城市、城镇、社区、州、县、大都市区、邮政编码、区号和学校的本地指南。” 76 次观看45 次观看49 次观看39 次观看41 次观看36 次观看36 次观看37 次观看33 次观看37 次观看35 次观看35 次观看36 次观看40 次观看34 次观看45 次观看36 次观看39 次观看27 次观看35 次观看25 次观看37 次观看35 次观看32 次观看26 次观看29 次观看41 次观看24 次观看43 次观看25 次观看35 次观看30 次观看39 次观看27 次观看27 次观看30 次观看27 次观看22 次观看31 次观看30 次观看24 次观看26 次观看26 次观看31 次观看31 次观看29 次观看22 次观看40 次观看26 次观看24 次观看30 次观看40 次观看25 次观看26 次观看25 次观看19 次观看93 次观看80 次观看69 次观看84 次观看61 次观看63 次观看70 次观看83 次观看91 次观看105 次观看52 次观看57 次观看89 次观看67 次观看74 次观看88 次观看71 次观看55 次观看82 次观看52 次观看80 次观看73 次观看49 次观看69 次观看51浏览次数56 浏览次数56 浏览次数55 浏览次数60 浏览次数41 浏览次数65 浏览次数50 浏览次数65 浏览次数50 浏览次数41 浏览次数43 浏览次数52 浏览次数45 浏览次数55 浏览次数49 浏览次数43 浏览次数52 浏览次数62 浏览次数49 浏览次数44 浏览次数 从 0 天 0 小时 00 分钟 00 秒 分享此优惠 送货需要至少 7 个工作日才能发货 购买的物品可以从我们的办公室领取或送货 物品必须在 2021 年 6 月 27 日之前领取/收到 未在 2021 年 6 月 27 日之前领取/收到的物品将被没收,不予退款 您的产品可立即领取 - 详情请参阅下文 无现金价值/无现金返还/不退款 立即检查产品;自收到产品之日起 7 天内有缺陷退货,前提是退回的物品未使用且