大型语言模型(LLM)的出现已经改变了各种领域的研究和实践。在计算教育研究(CER)领域,LLM引起了极大的关注,尤其是在学习过程中。在CER中,LLM的大部分工作都在应用和评估专有模型方面进行了努力。在本文中,我们评估了开源LLMS在为编程作业生成高质量反馈和判断编程反馈质量的高质量反馈方面的效率,并将结果与专有模型进行了对比。我们对学生的介绍性python编程练习的数据集进行评估表明,最先进的开源LLM与生成和评估编程反馈的过程中与亲密模型几乎相当。此外,我们证明了较小的LLM在这些任务中的效率,并向教育者和从业者突出了可访问的广泛的LLM,即使是免费的。