2027 年工作:百万美元正则表达式高级总监

以下文章最初发表在 Medium 上,经作者许可在此重新发布。别误会我的意思,我整夜都在使用这些工具。但我也感觉到我们正在经历一场昂贵的宿醉。前几天,一位同事告诉我一项新提案,每天传送一百万份文档 [...]

来源:O'Reilly Media _AI & ML
以下文章最初发表在 Medium 上,经作者许可在此重新发布。
以下文章最初出现在 并经作者许可在此处重新发布。

别误会我的意思,我整夜都在使用这些工具。

但我也感觉到我们正在经历一场昂贵的宿醉。有一天,一位同事告诉我一项新提议,即每天通过识别和删除社会安全号码的系统传送一百万份文档。

我开玩笑说这将是一个“价值百万美元的正则表达式”。

对使用完整 GPT-5 的“天真”实现进行数学计算,结果令人眼花缭乱:每天 100 万条消息(每条约 5 万个字符)相当于每天约 125 亿个代币,或者按当前定价每天 15,000 美元。每年用于检查社会安全号码的费用接近 600 万美元。即使迁移到 GPT-5 Nano,每年仍然花费约 23 万美元。

每天 125 亿个代币 每天 15,000 美元 每年 600 万美元 每年 230,000 美元

就成功了。您一年“节省”了 577 万美元……

每天为一百万个文档运行此代码怎么样?这要花多少钱:

导入重新; s = re.sub(r”\b\d{3}[- ]?\d{2}[- ]?\d{4}\b”, “[已编辑]”, s)

一个普通的旧 EC2 实例可以处理这个问题……一个 EC2 实例(例如每月 30 美元的 m1.small)可以使用正则表达式来处理相同的工作负载,并且每年花费您几百美元。

单个 EC2 实例 每年几百美元

这意味着在实践中,公司将在一年内打电话给像我这样的人说:“我们正在烧一百万美元来做一些成本应该只是其中一小部分的事情 - 你能解决它吗?”

从 15,000 美元/天到 0.96 美元/天——我确实认为我们将会看到很多公司意识到连接到 MCP 服务器的思维模型比仅仅花钱请人编写 bash 脚本要昂贵得多。从现在开始,您将能够通过非法学硕士的申请来谋取职业生涯。