2023 年全年,人工智能领域继续引起公众的极大兴趣,谷歌在年底向开发者和企业客户推出了新的大型语言模型 (LLM) Gemini,并因其在处理图像、视频和音频方面令人印象深刻的多模态性能而成为头条新闻。尽管谷歌后来承认了广为流传的批评,即宣传视频是“捏造或修改的”,但发布会还是引起了不小的轰动 (Edwards 2023)。视频中的演示 (2024) 似乎展示了 Gemini 在视觉数据中识别对象和关系,挑战用户进行有趣的游戏,同时解决自我即兴的场景。与此同时,公共部门广受欢迎的图像生成模型在全年仍然享受着快速增长,新的令人印象深刻的版本,如 DALL·E 3 和 Midjourney v.6 向公众发布。这两种模型都比以前的版本好得多,并且都继续以新的功能和变化令人眼花缭乱和兴奋。与此同时,Open AI 发布了 Sora 的测试版,这是一款备受吹捧但效果相当平淡的视频生成器。据 Open AI 称,如今,Sora 已提供给红队成员,以评估关键区域的危害或风险,并授予一些视觉艺术家、设计师和电影制作人的访问权限,以获得有关如何改进模型以最有效地帮助创意专业人士的反馈。2023 年对于人工智能开发者来说是多产的一年,公众不仅非常乐意尝试这些系统,而且还积极将其功能融入到他们的工作和创意生活中。人工智能领域为用户提供了大量机会,让他们可以注册一系列诱人的平台——无论是付费还是免费。