theNet by Cloudflare

利用 AI 的同时保护数据

AI 辅助开发的利与弊

AI 正在改变开发格局

AI 让企业能够以惊人的速度和规模构建并增强应用。软件开发的这种演变得益于 ChatGPT 和 GitHub Copilot 等生成式 AI 工具的快速普及。

AI 的众多用例包括:它可以快速生成代码(并且在很大程度上,是准确的代码),清理现有代码,确定有用的算法,快速准备软件文档,以及加速手动编码流程

简而言之,AI 可以是一种强大的开发工具:在获得特定且精心编写的脚本提示后,它可以生成高质量的输出,从而节省大量时间和人力。

但是,所有技术都有其局限性,就 AI 而言,我们已经看到了一些严重的安全和数据隐私风险,这些风险可能超过其带来的效率优势,例如从未能发现关键错误、泄露专有代码。应对这些风险的方法之一是使用数据丢失保护 (DLP) 解决方案,这有助于企业检测敏感数据的移动,遵守数据和隐私法规,以及防范数据外泄

但是,考虑到 AI 工具的新颖程度,许多传统的安全解决方案无法有效缓解其对企业数据造成的风险和未知因素。而希望在开发过程中利用 AI 的企业,可以通过实施具有 AI 韧性的数据保护策略,安全地启用这些工具。现代数据保护解决方案有助于防止机密信息泄露、数据违规、对抗性攻击,以及知识产权损失。


在编码中使用生成式 AI 的风险

AI 驱动的开发有助于企业大规模推动创新。但如果在未关注 AI 工具的局限性和潜在风险的情况下加以使用,可能会阻碍开发过程并对使用此类工具的企业造成损害。

1. AI 可能会暴露(并复制)专有代码

生成式 AI 工具会摄取为其提供的输入信息,然后利用这些数据来识别模式和结构,从而生成新内容。这些大型语言模型 (LLM) 获取的数据越多,其复杂程度和适用范围就越广。

如果涉及专有数据,这会引发严重关注和担忧。以 Samsung 为例,在一名工程师意外将内部源代码上传到 ChatGPT 工具后,该公司禁止员工使用这款工具。虽然这些数据并非以传统方式泄露,但与 AI 工具共享的数据通常存储在企业无法控制的服务器中,因此,企业失去了保护这些数据使用和分发方式的能力。

企业通常最担心的问题之一是 AI 平台收集用户数据的方式,这些数据用于进一步训练各平台的 LLM。OpenAI 和 GitHub Copilot 等热门 AI 平台,利用收到的数据训练自有 AI 模型,并且曾多次复制这些数据,为这些平台的其他用户生成输出。这引发了专有代码、敏感数据或个人可识别信息 (PII) 被公开泄露的隐私担忧。

归根结底,与 AI 平台共享数据就像与任何其他公司共享数据一样。用户信任 AI 平台会保护数据输入,但却没有意识到数据安全并不是 AI 工具的核心功能,而且随着 AI 平台积累的数据越来越多,它们越容易成为有利可图的攻击目标。

2. AI 可能会引入漏洞

许多与 AI 工具相关的数据泄露都是意外:工程师上传了本不应在内部环境之外发布的代码,或者企业发现 ChatGPT 的回复与公司机密数据非常相似

其他一些数据入侵情况则更加隐蔽。FraudGPT 和 WormGPT 是两个专门针对被盗数据进行训练的 AI 工具,唯一目的是创建网络钓鱼活动、自动化执行恶意软件,以及执行更复杂、更拟人化的社会工程学攻击。虽然大多数 AI 平台主要用于有益目的,但支撑它们的强大技术可以被训练来加速和驱动攻击。

除了利用被盗数据之外,一些相对更温和的 AI 工具也可能生成不稳定的代码。根据最近的一项研究,GitHub Copilot 生成的代码中有 40% 的代码包含 MITRE 识别的 25 个最常见漏洞中的至少一个。该研究的作者认为,问题的起因可能是 Copilot 在 GitHub 的开源存储库上进行了训练,任何用户都可以向 GitHub 存储库上传代码。

最后,AI 工具本身也可能成为攻击者的目标。在最近的一个案例中,ChatGPT 遭遇了数据泄露事件,导致超过 10 万个账户遭到入侵。姓名、电子邮件、付款地址以及信用卡信息都在此次事件中被泄露,使用该工具创建的机密聊天标题和消息也遭到泄露。

3. AI 可以会绕过数据隐私控制

AI 工具易于被操纵,这引发了人们担心的一个问题:企业在使用这些技术时,能够在多大程度上充分保护用户数据。无论是无意还是恶意,使用 AI 软件都可能会导致数据泄露,并引发广泛的合规问题。

例如,研究人员在Nvidia 的 AI 软件中发现了一个关键漏洞,该漏洞使他们能够绕过刻意设置的数据隐私和安全限制。不到一天的时间,他们就成功诱骗 AI 框架泄露了个人可识别信息 (PII)。



投资 AI,需要安全至上的心态

在保护敏感数据免受 AI 风险影响时,将 AI 视为更危险的影子 IT 类型之一可能会有所帮助。简而言之,使用第三方 AI 工具通常会导致严重缺乏对数据处理、存储以及分发方式的可见性。

由于在构建开源 AI 工具时并未考虑安全性和数据隐私,因此,企业有责任主动保护其系统、代码和用户数据免受破坏。除了完全禁止使用 AI,企业还可以采取多种策略,最大限度地降低这些风险,包括:

使用主动识别风险

在引入新的第三方 AI 工具之前,请评估 AI 的计划用例。AI 是否会用于推荐自然语言文档?开发低代码或无代码软件应用?评估并修复现有代码中的缺陷?集成到内部应用还是面向公众的产品?

在确定这些用例的优先级后,必须评估使用 AI 工具可能引入或加剧的潜在风险。由于 AI 风险广泛存在,企业需要制定明确的指南,以防范和修补出现的任何漏洞。参考与特定 AI 软件相关的现有漏洞文档也可能有所帮助。

制定 AI 使用协议

不言而喻,企业不应对 AI 提供全权访问权限,尤其是在专有信息和用户数据可能受到威胁的情况下。除了安全和数据隐私问题之外,AI 工具还引发了偏见和透明度问题,这些问题可能会进一步影响 AI 辅助开发的的优势。

因此,企业应制定第三方 AI 使用指南和协议。确定可以与 AI 工具共享哪些数据、在何种情况下共享这些数据,以及哪些 AI 工具可以访问这些数据。研究 AI 工具引入的潜在偏见,记录 AI 在企业内部的使用情况,以及制定收集的 AI 生成输出结果的质量标准。

实施并微调 AI 控制措施

AI 正在不断发展演变,因此,需要持续监测。利用 AI 模型时,应根据新用例的出现,适当调整现有协议和数据限制。通过持续评估 AI 生成的代码和函数,企业或许能够更轻松地检测潜在风险,并最大限度地降低遭受攻击的可能性。

除了内部检查之外,还应定期评估第三方 AI 工具。随着 ChatGPT、Copilot 或其他 AI 软件中出现新的漏洞,请重新考虑输入这些工具的数据类型;或者,如有必要,撤销对工具的访问权限,直至漏洞得到修补。

投资可以预测 AI 风险的数据保护技术

传统数据保护解决方案的适应性和灵活性不足,无法应对不断演变的 AI 数据风险。许多标准数据丢失防护 (DLP) 产品的设置和维护比较复杂,还会带来负面的用户体验,因此,在实践中,DLP 控制措施往往得不到充分利用或被完全绕过。无论是作为独立平台部署还是集成到其他安全服务,DLP 服务本身可能往往低效或无效,如果不进行修改,难以抵御以各种方式利用 AI 发起的攻击。

企业反而需要投资足够灵活的数据保护技术,以缓解 AI 风险,并保护专有信息和用户数据免遭滥用、破坏和攻击。在评估现代数据保护解决方案时,请选择一种架构严谨的解决方案,它不仅能够保护所有存储宝贵数据的位置的开发者代码安全,而且能够随着企业不断变化的安全和隐私需求而不断演变。


Cloudflare 帮助最大限度降低 AI 风险

企业在探索如何利用生成式 AI 方面才刚刚起步。即便在早期,AI 就已造成了数据泄露并引发了人们对隐私的担忧。如今,若要最大限度地降低风险,必须采用有效的战略方法,协调人员、流程和技术这些要素。

Cloudflare 旨在保持站在抵御现代数据风险的最前沿,例如新兴 AI 工具带来的风险。Cloudflare One 将多个数据保护单点解决方案融合到单一 SSE 平台,以简化管理并在 Web、SaaS 和私有环境中快速、一致地实施控制。所有服务均基于 Cloudflare 可编程网络构建,新功能可快速构建并部署到所有 330 个网络位置。

这种方法可以帮助企业制定数据保护策略,以便:

  • 安全团队可以简化连接,使用灵活的内联选项和基于 API 的选项,将流量发送到 Cloudflare 平台以执行数据控制,从而更有效地保护数据。

  • 员工可以提高生产力,确保可靠、一致的用户体验,且这些体验被证明比其他竞争对手更快

  • 企业可以提高敏捷性,通过快速创新,满足不断变化的数据安全和隐私需求。

Cloudflare 就影响当今技术决策者的最新趋势和主题发布了系列文章,本文为其一。



深入探讨这个话题


获取《简化我们保护 SaaS 应用的方式》白皮书,了解 Cloudflare 如何帮助组织采用 Zero Trust 方法保护应用和数据安全。



关键要点

阅读本文后,您将能够了解:

  • AI 如何使专有数据面临风险

  • 传统数据保护的不足之处

  • 最大限度减轻 AI 风险并提高生产力的策略


相关资源

接收有关最流行互联网见解的每月总结。