AI 相关条例和法规不断增加。2024 年,白宫管理和预算办公室向美国所有联邦机构和部门发布了政策备忘录 24-10,旨在规范政府部门的 AI 使用。备忘录的重点内容包括三部分,分别是:
加强 AI 治理
推进负责任的 AI 创新
各州也采取了类似的措施,以解决人们对 AI 使用和滥用的担忧。2023 年,全美有 25 个州出台了针对 AI 某些方面的立法。其中 18 个州和波多黎各已成功颁布相关立法。一些法律侧重于要求对 AI 使用进行初始研究或评估,其他法律则致力于规范员工对 AI 的使用,或采取控制措施来减少恶意使用或意外后果。
近期的立法强调指出了政府使用 AI 的一些风险,以及给政府机构和其他公共部门组织带来的一些挑战。这些机构/组织需要采取控制措施,保护面向公众的资产免受威胁并确保合理使用 AI。
在这一波立法浪潮中,一个日益凸显的新关切点是影子 AI 的兴起 —— 即员工或部门在缺乏监管的情况下,未经批准使用公共 AI 工具及模型的行为。正如“影子 IT”之前一样,“影子 AI”引入了治理和数据泄露风险,而这些风险正是监管法规日益关注和解决的目标。
一方面,基于 AI 的爬网程序可能会为政府机构和其他公共部门组织带来合法的有益用途。在某些情况下,负责任的爬网程序和索引器可能会利用可公开访问的数据,增强公民查找相关在线服务和信息的能力。
另一方面,开发不健全或恶意的 AI 爬网程序可能会抓取内容来训练公共 AI 平台,而不顾及这些内容的隐私。如果这些数据最终用于训练 AI 模型,可能会引发诸多知识产权和隐私问题。如果不加以控制,这些机器人还会消耗合法交互的资源,从而影响可供所有用户使用的公共网站的性能。
各机构可以实施多种服务器端或应用端保护措施,帮助控制机器人与服务器之间的交互方式。例如,它们可以部署 robots.txt 文件。此文件会告知并定义爬网程序流量与网站的各个部分及其数据的交互方式。此文件部署在网站的根目录中,并且定义哪些代理(机器人)可以爬取网站,以及它们可以访问哪些资源。
但是,这种方法存在一些挑战。首先,爬网程序必须遵循 robots.txt 文件规则。虽然对于“可接受的”机器人来说,这是常规最佳做法,但并不是所有机器人都会遵守规则。还有一些非恶意的机器人可能会误解语法,因此与代理希望隐藏的元素进行交互。
简而言之,虽然这是一种常见方法,但利用 robots.txt 或类似的 .htaccess(Apache) 策略并非万无一失的保护措施。不过,它可以作为整体方法的一部分,用于管理合法机器人与应用内容交互的方式。
当今环境下, Web 应用防火墙 (WAF) 和机器人缓解解决方案对于保护公共 Web 应用安全至关重要。这些控制措施有助于企业保护其公共数字资产,使这些资产免受分布式拒绝服务 (DDoS) 攻击、影子和不安全的 API,以及其他各种与机器人相关的威胁。
当下,任何机器人缓解方案都应包含一项能力:通过编程方式识别并分类那些为 AI 数据训练而抓取内容的机器人。这种分类机制是一项关键的能力。它既可以允许合法且经过验证的 AI 爬网程序运行,也可以完全阻止 AI 爬网程序运行,直到组织确定应该如何允许这些机器人与网站交互。
选择可扩展的解决方案也很重要。2023 年,联合国秘书长安东尼奥·古特瑞斯指出,纸质书籍花了 50 多年才在欧洲各地广泛普及,而“ChatGPT 用户在短短两个月 内就达到 1 亿。”AI 平台的规模和前所未有的增长,与越来越多 AI 机器人搜索一切公开的数据集进行训练直接相关。这些平台的架构必须能够在分布式全球环境中扩展。
公共 AI 平台让用户能够加速完成撰写备忘录和编写复杂代码之类的任务。在政府内部,州和联邦机构看到了使用 AI 解决复杂社会问题的潜力,例如医疗保健挑战、公共服务可及性、食品和饮用水安全等。然而,如果缺乏对 AI 的管控,企业组织可能会无意中将受监管的数据集泄露给不安全的公共语言模型用于训练。
过去,企业利用工具来处理员工使用未经批准的云应用或“影子 IT”,同样地,企业如今需要了解内部使用“影子 AI”的情况。影子 AI 的增加逐渐成为头条新闻。The Conversation 进行的一项全球研究涉及 47 个国家的超过 3.2 万名员工,发现近 70% 的员工倾向于使用免费的公共 AI 工具,而非雇主提供的解决方案。令人震惊的是,近半数(受访者)承认将敏感的公司或客户数据上传到公共生成式 AI 平台,44% 的人承认在工作中以违反其组织政策的方式使用 AI。
也可能在不知情的情况下,在 AI 模型之间共享这些敏感数据。AI 模型越来越多地利用其他模型生成的数据进行训练,而不是传统来源的内容。
为了采用全面的方法来处理影子 AI,企业首先需要定义公共 AI 模型的可接受的用途。此外,企业还应确定哪些角色需要访问这些模型。建立这些防护措施是至关重要的第一步。关于政府机构以及更广泛的公共部门使用 AI 的新法律,经常强调指出审核机构内使用 AI 的合理用途和确定允许使用哪些 AI 模型的重要性。
确定适当的用途后,各机构必须制定控制措施来执行策略。Zero Trust 网络访问(ZTNA) 原则支持制定并实施这些策略,以限制未经批准的访问。
例如,某机构可能只允许特定管理群组中已获授权的用户访问公共 AI 模型。在允许访问这些 AI 模型之前,ZTNA 解决方案还可以进行额外的安全态势检查,例如确保公司设备已安装最新补丁,或在设备上运行已获政府批准的端点管理代理。采用 ZTNA 解决方案,机构可以强制执行并限制访问公共 AI 模型的人员。