在现代,机器学习和人工智能系统在执行各种任务的能力方面成倍增长,但是在开发训练阶段和最终设备上的推理阶段的能源需求中。这引起了人们对它们对全球温室气体排放的影响的严重关注。期望ML的新时代停止解决这些环境问题是不现实的,因此,有必要探索提高这些ML模型以减少资源的效率的方法。本文探讨了此过程的一些潜在改进,即在资源受限的物联网设备上部署机器学习模型,减少训练这些模型所需的数据量,并最大程度地减少开发它们所需的神经元数量。对于研究的实际方面,我们将探索使用Edge Impulse在云上开发机器学习以在云上进行运动分类的最有效的方式,并在Thing thing thaty 52上部署了该模型,这是北欧半导体的小物联网设备。,我们将探讨减少所需训练数据的量,训练时期的数量,隐藏层和神经元的数量,尽管培训因素减少了,并且随着Thing the Things 52的限制资源,并讨论了遇到的各种问题和潜在的未来改进,以汇聚在可接受的模型上。
模型压缩(Dettmers等人,2022; Xiao等。,2022; Frantar等。,2022)压缩参数权重以减少参数存储器的位宽和低级操作,包括KV-CACHE管理(Kwon等人,2023年)和融合的注意内核(Dao等人,2022b)已提出通过系统选择来减少记忆使用量。但是,他们节省内存的能力仍然远非预期。零下载(Ren等人,2021; Aminabadi等。,2022b)提议将未使用的参数卸载到CPU内存和磁盘上,以大大降低内存成本,但它导致速度明显损失。flexgen(Sheng等人,2023)通过计算CPU中的注意力和计算重叠I/O中的注意力,改善了大批次推理的卸载吞吐量。但是,FlexGEN对CPU和I/O资源的利用仍然有限,并且不会有效地减少稀疏输入的延迟。