DIY AI 和 ML：利用 Thompson 采样解决多臂老虎机问题 XiaoMi-AI 科研信息收集

详细内容或原文请订阅后点击阅览

DIY AI 和 ML：利用 Thompson 采样解决多臂老虎机问题

2026年4月21日 18:00 33 Comments

如何在 Python 中构建自己的 Thompson 采样算法对象并将其应用到假设的实际示例中 DIY AI 和 ML：用 Thompson 采样解决多臂强盗问题一文首先出现在《走向数据科学》上。

来源:走向数据科学

简介

数据驱动决策。大多数组织不仅维护着庞大的信息数据库，而且还有无数的团队依赖这些数据来制定决策。从点击流流量到可穿戴边缘设备、遥测等，数据驱动决策的速度和规模呈指数级增长，推动了机器学习和人工智能框架集成的普及。

说到数据驱动的决策框架，最可靠且经过时间考验的方法之一是 A/B 测试。 A/B 测试在网站、数字产品和类似商店中尤其受欢迎，这些商店几乎可以立即大规模地收到点击、订单等形式的客户反馈。A/B 测试之所以成为如此强大的决策框架，是因为它能够控制无数变量，以便利益相关者能够看到他们在测试中引入的元素对关键绩效指标 (KPI) 的影响。

像所有事情一样，A/B 测试也有缺点，尤其是它所花费的时间。测试结束后，必须有人传达结果，利益相关者必须使用适当的渠道做出决定并实施。假设测试经验显示出影响，那么所有损失的时间都可以转化为机会成本。如果有一个框架或算法可以系统地自动化这个过程呢？这就是汤普森采样发挥作用的地方。

多臂老虎机问题

机器A：40%

机器B：30%

机器C：50%

此时，您决定将 Machine Cat 的拉取率略高于其他两个，因为您相信有更多证据表明 Machine Cha 的胜率最高，但您希望收集更多数据来确定。经过接下来的几次迭代，您看一下新结果：

机器A：45%

机器B：25%

机器C：60%

电子邮件标题 — 优化打开率

第 1 步 – 基本电子邮件模拟

reset_results()

总体打开率和打开率

打开引入的庞大的利益自动化数据相关者大规模边缘设备 Machine 能够集成的经过时间证据作用的绩效指标数据驱动人工智能测试损失的决策点击数据库强大的电子邮件框架机器机器学习花费的适当的驱动的信息数据