人工智能技术的动态特性使得测试人机交互和协作具有挑战性——尤其是在这些功能投入使用之前。这对设计师和人工智能从业者来说是一个挑战,因为在开发阶段通常无法获得迭代的早期反馈。在本文中,我们从软件开发中的集成测试概念中汲取灵感,并提出了 HINT(人机集成测试),这是一个基于人群的框架,用于测试与人类在环工作流集成的基于人工智能的体验。HINT 支持在现实用户任务的背景下对基于人工智能的功能进行早期测试,并利用连续的会话来模拟随时间演变的人工智能体验。最后,它为从业者提供报告,以评估和比较这些体验的各个方面。通过一项基于人群的研究,我们证明了需要进行随时间推移的测试,因为用户行为会在与人工智能系统交互时发生变化。我们还表明,HINT 能够使用两个基于 AI 的功能原型,在各种常见的 AI 性能模式中捕捉和揭示这些不同的用户行为模式。我们通过对 13 名从业人员进行半结构化访谈,进一步评估了 HINT 在部署前支持从业人员评估人机交互体验的潜力。