我是博洛尼亚大学的博士后研究员,拥有电子、电信和信息技术工程博士学位。我的研究重点是高性能计算系统的设计、分析和管理。我在 MLOps、机器学习、深度学习、Python、PyTorch、PySpark、Dask、TensorFlow、预测模型、大数据、并行编程和统计数据分析方面拥有六年的行业经验和技能。我热衷于利用我的专业知识推动创新并提高我所在领域的知识。
PySpark DataFrame API中的函数mapinpandas允许将函数应用于数据框的每个分区。在使用分组数据时,GroupBy然后使用ApplionPandas是正确的方法,可以将功能应用于单独的PANDAS数据框架。但是,如果该函数应在分组数据的每个分区中应用,而不是在每个组上应用,则将使用MAPINPANDAS。由于代码段表示使用GroupBy,因此目的似乎是在每个组上都将Train_model应用于特定的,这与ApplionInpandas一致。因此,ApplionPandas是一种更好的选择,以确保GroupBy生成的每个组都通过Train_Model函数处理,并保留分区和分组完整性。