- 给我一个内核和一个函数,仅计算向量X的乘法通过常数a的乘法,然后将结果添加到向量y中。不要提供主要功能。向量x和y是长度n,使用C和CUDA并行计算,分配和释放GPU向量,并在功能中进行CPU -GPU存储器传输。必须定义螺纹块的大小和块的数量。使用内核__global __ void saxpy_kernel(int n,float a,float a,float *x,float *y)以及函数void chatblas_saxpy的下一个函数名称和参数。在代码开头的下一行#include“ chatblas_cuda.h”