目前,有些 AI 工具的目标并不明确,这使得它们可以在各种各样的情况下使用,但也容易受到操纵或以有害的方式使用。例如,虽然大型语言模型 (LLM) 针对文本预测这一狭窄任务进行了优化,但它们在其主要的端到端应用中并没有单一的目标;因此,它们可以用于营销目的的内容生成、翻译以及大规模产生错误信息。在其他情况下,目标是已知的,并且 AI 系统针对该目标进行了优化,但结果可能会导致意想不到的伤害。例如,虽然某些 AI 系统可能以更高的点击量为目标,但它们可能会无意中导致社会两极分化。这是一个针对已知目标进行优化的 AI 工具产生意外后果的例子。随着 AI 的发展,尤其是基础模型的发展,已经提出了许多策略来在部署期间整合安全预防措施和保护护栏。然而,有大量证据表明恶意实体可以绕过这些障碍,导致基金会模型违反已制定的安全协议。因此,需要继续研究这些安全挑战。1