AI 相关条例和法规不断增加。2024 年,白宫管理和预算办公室向美国所有联邦机构和部门发布了政策备忘录 24-10,旨在规范政府部门的 AI 使用。备忘录的重点内容包括三部分,分别是:
加强 AI 治理
推进负责任的 AI 创新
各州也采取了类似的措施,以解决人们对 AI 使用和滥用的担忧。2023 年,全美有 25 个州出台了针对 AI 某些方面的立法。其中 18 个州和波多黎各已成功颁布相关立法。一些法律侧重于要求对 AI 使用进行初始研究或评估,其他法律则致力于规范员工对 AI 的使用,或采取控制措施来减少恶意使用或意外后果。
近期的立法强调指出了政府使用 AI 的一些风险,以及给政府机构和其他公共部门组织带来的一些挑战。这些机构/组织需要采取控制措施,保护面向公众的资产免受威胁并确保合理使用 AI。
一方面,基于 AI 的爬网程序可能会为政府机构和其他公共部门组织带来合法的有益用途。在某些情况下,负责任的爬网程序和索引器可能会利用可公开访问的数据,增强公民查找相关在线服务和信息的能力。
另一方面,开发不健全或恶意的 AI 爬网程序可能会抓取内容来训练公共 AI 平台,而不顾及这些内容的隐私。如果这些数据最终用于训练 AI 模型,可能会引发诸多知识产权和隐私问题。如果不加以控制,这些机器人还会消耗合法交互的资源,从而影响可供所有用户使用的公共网站的性能。
各机构可以实施多种服务器端或应用端保护措施,帮助控制机器人与服务器之间的交互方式。例如,它们可以部署 robots.txt 文件。此文件会告知并定义爬网程序流量与网站的各个部分及其数据的交互方式。此文件部署在网站的根目录中,并且定义哪些代理(机器人)可以爬取网站,以及它们可以访问哪些资源。
但是,这种方法存在一些挑战。首先,爬网程序必须遵循 robots.txt 文件规则。虽然对于“可接受的”机器人来说,这是常规最佳做法,但并不是所有机器人都会遵守规则。还有一些非恶意的机器人可能会误解语法,因此与代理希望隐藏的元素进行交互。
简而言之,虽然这是一种常见方法,但利用 robots.txt 或类似的 .htaccess(Apache) 策略并非万无一失的保护措施。不过,它可以作为整体方法的一部分,用于管理合法机器人与应用内容交互的方式。
如今的 Web 应用防火墙 (WAF) 和机器人缓解解决方案对于保护公共 Web 应用安全至关重要。这些控制措施有助于企业保护公共数字资产,使这些资产免受分布式拒绝服务 (DDoS) 攻击、影子 API 和不安全 API,以及其他各种与机器人相关的威胁。
如今的机器人缓解解决方案应具备以编程方式识别并分类为 AI 数据训练服务而抓取内容的机器人的功能。这种分类机制至关重要,它既可以允许合法且经过验证的 AI 爬网程序运行,也可以完全阻止 AI 爬网程序运行,直到机构确定应该如何允许这些机器人与网站交互。
选择可扩展的解决方案也很重要。2023 年,联合国秘书长安东尼奥·古特瑞斯指出,纸质书籍花了 50 多年才在欧洲各地广泛普及,而“ChatGPT 用户在短短两个月内就达到 1 亿。”AI 平台的规模和前所未有的增长,与越来越多 AI 机器人搜索一切公开的数据集进行训练直接相关。这些平台的架构必须能够在分布式全球环境中扩展。
公共 AI 平台让用户能够加速完成撰写备忘录和编写复杂代码之类的任务。在政府内部,州和联邦机构看到了使用 AI 解决复杂社会问题的潜力,例如医疗保健挑战、公共服务可及性、食品和饮用水安全等。然而,如果没有适当的治理,企业可能会串通将受监管的数据集泄露到不安全的公共语言模型训练数据。
过去,企业利用工具来处理员工使用未经批准的云应用或“影子 IT”,同样地,企业如今需要了解内部使用“影子 AI”的范围。影子 AI 的增加逐渐成为头条新闻。3Gem 的一项针对全球超过 11,500 名员工的研究表明,57% 的员工每周在办公室至少使用一次公共生成式 AI 工具。也是在这项研究中,39% 的受访者认为,这些互动存在泄露敏感数据的风险。
也可能在不知情的情况下,在 AI 模型之间共享这些敏感数据。AI 模型越来越多地利用其他模型生成的数据进行训练,而不是传统来源的内容。
为了采用全面的方法来处理影子 AI,企业首先需要定义公共 AI 模型的可接受的用途。此外,企业还应确定哪些角色需要访问这些模型。建立这些防护措施是至关重要的第一步。关于政府机构以及更广泛的公共部门使用 AI 的新法律,经常强调指出审核机构内使用 AI 的合理用途和确定允许使用哪些 AI 模型的重要性。
确定适当的用途后,各机构必须制定控制措施来执行策略。Zero Trust 网络访问(ZTNA) 原则支持制定并实施这些策略,以限制未经批准的访问。
例如,某机构可能只允许特定管理群组中已获授权的用户访问公共 AI 模型。在允许访问这些 AI 模型之前,ZTNA 解决方案还可以进行额外的安全态势检查,例如确保公司设备已安装最新补丁,或在设备上运行已获政府批准的端点管理代理。采用 ZTNA 解决方案,机构可以强制执行并限制访问公共 AI 模型的人员。
可接受的用途并不局限于定义哪些用户可以访问 AI 平台。各机构还需要了解和控制发布或提交到 AI 平台的数据。即使是像部门备忘录这样无害的内容,也可能包含非公开或敏感数据点。一旦这些数据点提交到大型语言模型 (LLM),便存在数据泄露的风险。
数据丢失防护 (DLP) 控制措施有助于阻止不当使用敏感数据。适当的控制措施将帮助确保敏感应用代码或公民数据等专有信息不会成为 AI 平台不安全训练数据集的组成部分。
以需要与公共和私有(内部)AI 平台进行交互的 AI 开发人员团队为例。机构可能会允许同时使用公共 AI 平台(例如 ChatGPT)和专用 AI 平台(例如 AWS BedRock)。只有 AI 开发团队中已获批准的用户才能访问这些平台。普通用户将遭到阻止,无法访问这两个平台。
即使存在已获批准的 AI 开发团队用户,实施 DLP 规则也可能有益。DLP 规则可以核实发布到 AI 平台的数据,并确保将非公共的敏感数据仅发布到内部专用 AI 平台。
治理始于清晰的政策框架或使命宣言,而不是技术。为了评估 AI 的优势与风险,机构领导者应任命专门的团队,评估 AI 与机构使命的潜在交集。
随着公众利用技术来不断增加与政府的互动,将会有更大规模、更加丰富的数据集可以用于训练 AI 模型。公共部门机构可能会选择保守的方法,例如,阻止所有 AI 爬网程序,直到了解允许这些交互的实际影响为止。对于那些认为合法爬取公共资产会带来潜在优势的企业,团队必须控制只有经过验证的 AI 爬虫程序的访问权限,并防范恶意行为。
在日益严格的 AI 监管下,为了提前做好准备,团队还应确定哪些角色和任务需要访问 AI 平台。通过确定可以访问 AI 的人员和时间,以及控制发布到 AI 模型的数据种类,可以解决影子 AI 问题,且不以失去影子 AI 的实际好处为代价。
面对日益激增的 AI 应用,机器人管理和 Zero Trust 安全功能是帮助政府实体降低风险的核心。在制定缓解策略时,首要考虑因素是保护公共 Web 资产和维持对 AI 的理性使用。
在帮助解决许多复杂的社会问题方面,AI 应用前景广阔。但是,在政府和公共部门中使用 AI 也存在一些潜在的弊端。对于政府机构和其他公共部门机构来说,在探索这项新技术时,必须始终优先考虑保护用户的安全和隐私。
Cloudflare 就影响当今技术决策者的最新趋势和主题发布了系列文章,本文为其一。
阅读《Zero Trust 架构路线图》完整指南,进一步了解如何在 AI 应用激增的情况下降低随之而来的风险。
Scottie Ray - @H20nly
Cloudflare 首席解决方案架构师
阅读本文后,您将能够了解:
聚焦 AI 立法的新兴状态
AI 带来的两个主要挑战
帮助机构实现法律合规的控制措施