本研究使用一系列患者可能会问的典型胃肠病学问题对 ChatGPT 和 Google Bard 进行了测试。这些问题被输入到每个 AI 工具中,并以“以下问题的合适答案是什么?”作为开头。每个问题都在新的聊天会话中提出,以保持实验的完整性并防止对记忆保留产生任何影响。ChatGPT 和 Google Bard 生成的答案随后由两位独立审阅者进行细致分析,他们并不知道哪个 AI 工具产生了哪个答案。这些审阅者采用李克特量表进行评估,其中 1 分表示“差”答案,10 分表示“优秀”答案。该评分系统提供了一种标准化方法来评估 AI 生成的答案的质量。