与前一代CPU相比,NUPIC对变压器结构的变化最小,在具有Intel AMX的CPU上的推理吞吐量的两个数量级提高了两个数量级的改善,与GPU相比,相比之下(表1)。对于Bert-Large来说,我们在Intel Xeon上的平台的表现优于Nvidia A100 GPU,最高可达17倍。GPU需要更高的批量大小才能达到最佳平行性能。但是,批处理导致更复杂的推理实现,并在实时应用程序中引入了不良延迟。相比之下,Nupic不需要批处理以进行高性能,从而使应用程序灵活,可扩展且易于管理。尽管批处理不利,但我们列出了批次8的NVIDIA A100的性能。批次1的nupic仍然比批处理的NVIDIA GPU实现超过2倍。