引言过去一年见证了人工智能(AI)系统的巨大增长及其对人类创造力和生产力的前所未有的影响(Ali等,2023; Badshah等,2023)。OpenAI的开发大型语言模型(LLMS)(例如GPT-3)为创新的AI聊天机器人(例如Chatgpt-3.5)的爆炸性增长铺平了道路。但是,LLM已取得了重大进展,并超越了单峰输入方法,在这些方法中,它们仅执行特定任务,例如文本或语音识别。目前,多模式AI工具和语言模型具有与各种文本,图像,音频,视频和PDF相互交互并识别各种输入的能力。这些多模式是Chatgpt-4或Chatgpt-4V,Inworld AI,Meta ImageBind,Runway gen-2和Google DeepMind Gemini,是最常用的Gemini。本研究将Google Gemini作为多模式AI工具讨论,因为它是最新和最基于NOVTY的LLM多模式,可以同时执行多个任务。尽管是用户友好且高效的AI工具,但Gemini通过提供高级,更准确且与众不同的相关响应来彻底改变访问和与各种信息互动的方式。根据Google团队报告(Team等,2023),双子座的
主要关键词