What are artificial intelligence (AI) hallucinations?

AI 幻觉是生成式 AI 模型给出的不正确或错误回复。

学习目标

阅读本文后,您将能够:

  • Define, and provide examples of, AI hallucinations
  • Describe some of the causes of AI hallucinations
  • Outline steps for preventing AI hallucinations

复制文章链接

What are artificial intelligence (AI) hallucinations?

人工智能 (AI) 幻觉是指生成式 AI 模型输出的虚假或不准确信息。这些错误往往隐藏在看似合乎逻辑或其他方面正确的内容中。随着生成式 AI 和大型语言模型 (LLM) 的使用越来越广泛,人们已经观察到许多 AI 幻觉的案例。

“幻觉”这个词是比喻性的,AI 模型实际上并不会像精神异常的人类那样真的产生幻觉,而是指它们会根据提示产生与现实不符的意外输出。它们可能会错误识别模式、误解上下文,或从有限或有偏见的数据中获取这些意外输出。

Some documented examples of AI hallucinations include:

  • 一个 AI 模型被要求撰写有关特斯拉季度业绩的文章,并撰写了一篇连贯的文章,但其中包含虚假的财务信息
  • 一名律师利用 LLM 为一桩法律案件提供支持材料,但该 LLM 引用了其他并不存在的法律案件
  • Google 的 Gemini 图像生成工具在 2024 年的一段时间内经常生成与历史不符的图像

虽然 AI 有许多用例和现实应用,但在许多情况下,AI 模型容易产生幻觉,这意味着不能在没有人类监督的情况下完全依赖 AI。

生成式 AI 是如何工作的?

所有 AI 模型都由训练数据和算法组成。在 AI 的语境中,算法是一组规则,规定了计算机程序应如何加权或评估某些属性。AI 算法包含数十亿个参数,即关于如何评估属性的规则。

生成式 AI 需要训练数据,因为它通过数百万(或数十亿、数万亿)个示例来学习。从这些示例中,生成式 AI 模型可以学习识别数据集中项目之间的关系——通常使用将数据存储为向量的向量数据库,使模型能够量化和测量数据项之间的关系。(“向量”是不同数据类型的数字表示,包括文字或图像等非数学类型。)

模型训练完成后,它会根据收到的提示词不断完善其输出。其开发人员还会针对更具体的用途对该模型进行微调,继续改变算法的参数,或者使用低秩适应 (LoRA) 等方法来快速调整模型以适应新的用途。

总而言之,最终将得出一个模型,它可以根据之前馈入的样本生成文本或图像,从而响应人类的提示词。

然而,人类提示词的复杂程度可能差异巨大,并会导致模型出现意外的行为,因为模型不可能为所有可能的提示词做好准备。而且,即使在大量的训练和微调之后,模型也可能会误解或曲解概念和项目之间的关系。意外的提示和对模式的错误感知可能导致 AI 产生幻觉。

什么会导致 AI 产生幻觉?

训练数据的来源:审查训练数据并非易事,因为人工智能模型需要的数据太多,人类无法审查全部。未经审查的训练数据可能不正确或在某个方向上权重过大。想象一下,一个 AI 模型被训练来写贺卡,但它的训练数据集最终主要包含生日贺卡,而开发人员对此并不知情。因此,它可能会在不适当的情境下生成快乐或有趣的信息,例如当被提示写一张“早日康复”的祝福卡时。

生成式 AI 设计的固有局限性:AI 模型利用概率来“预测”哪些文字或视觉元素可能会一起出现。统计分析可以帮助计算机创建看似合理的内容——更有可能被人类理解的内容。但统计分析是一个数学过程,可能会错过一些语言和含义的细微差别,从而导致幻觉。

缺乏对现实世界的直接体验:如今的 AI 程序无法检测在外部现实中某件事是“真”还是“假”。例如,人类可以通过实验来确定某个科学原理的对错,而 AI 目前只能在预先存在的内容上进行自我训练,而不能直接在物理宇宙中进行训练。因此,它很难区分准确和不准确的数据,尤其是在它自己的回应中。

难以理解上下文:AI 只看文字数据,可能无法理解文化或情感背景,导致产生不相关的回复和 AI 幻觉。例如,讽刺可能会让 AI 感到困惑(甚至人类也经常将讽刺与事实混淆)。

偏见:如果数据集不够广泛,所使用的训练数据可能会导致内在偏见。偏见可能会使 AI 模型倾向于给出某些类型的答案,甚至可能导致种族或性别刻板印象的传播。

针对模型的攻击:恶意者可以使用提示词注入攻击来改变生成式 AI 模型感知提示和产生结果的方式。一个广为人知的例子发生在 2016 年,当时 Microsoft 推出了聊天机器人 Tay,但由于 Twitter(现为 X)用户向其提供扭曲其反应的信息,该机器人在一天之内就开始生成种族主义和性别歧视内容。从那时起,AI 模型变得更加精密,但仍然容易受到此类攻击。

过度拟合:如果 AI 模型在其初始训练数据集上训练过多,它可能会失去概括、检测趋势或从新数据中得出准确结论的能力。它还可能检测到训练数据中实际上并不重要的模式,导致一些不太明显的错误,直到向其输入新数据才能发现这些错误。这些情况称为“过度拟合”:模型与其训练数据的拟合程度过高。举一个过度拟合的例子,在 COVID-19 疫情期间,根据医院 COVID 患者的扫描结果训练的 AI 模型开始识别不同医院使用的文本字体,并将该字体视为 COVID 诊断的预测因素。对于生成式 AI 模型,过度拟合可能会导致幻觉。

How can AI developers prevent AI hallucinations?

虽然开发人员可能无法完全消除 AI 幻觉,但他们可以采取一些具体步骤来减少幻觉和其他不准确之处。

  • 更多的数据和更好的数据:来自各种来源的大型数据集有助于消除偏见,并帮助模型学会从更多种类的数据中检测趋势和模式。
  • Avoid overfitting: Developers should try not to train an AI model too much on one data set.
  • 广泛的测试:应该在各种上下文中以及使用意料之外的提示词对 AI 模型进行测试。
  • 使用专为用例设计的模型:例如,LLM 聊天机器人可能不适合回答有关医学研究的事实查询。
  • 持续改进:即使是最精细的模型也可能存在盲点。AI 模型应该继续从收到的提示词中学习(并进行验证以帮助防止提示词注入攻击)。
  • 为生成式 AI 聊天机器人设置保护措施:检索增强生成 (RAG) 聊天机器人有权访问公司特定数据以增强响应,但它仍然可能产生幻觉。开发人员可以实施一些保护措施,例如指示聊天机器人在无法找到答案时返回“我没有足够的信息来回答该问题”,而不是编造答案。

了解 Cloudflare for AI 如何帮助开发人员在世界任何地方构建和运行 AI 模型,以及了解 Cloudflare Vectorize 如何帮助开发人员在全球分布式向量数据库中生成和存储嵌入。