AI 讓組織能夠以令人驚歎的速度和規模構建和增強應用程式。軟體開發領域的這一演進,正得益於像 ChatGPT 和 GitHub Copilot 這類生成式 AI 工具的快速普及與應用。
AI 有眾多使用場景,包括快速產生程式碼(並且在很大程度上準確)、清理現有程式碼、確定有用的演算法、製作軟體文件記錄,並加速手動編碼過程。
簡而言之,AI 可以成為一種強大的開發工具:當給出具體的、精心編寫的指令碼提示時,它可以產生高品質的輸出,從而節省大量的時間和人力。
然而,所有技術都有局限性,就 AI 而言,我們已經看到一些嚴重的安全和資料隱私風險,這些風險可能超過其提供的效率優勢——從未能發現關鍵錯誤到暴露專有程式碼。應對這些風險的方法之一是使用資料丟失預防 (DLP),它可以幫助組織偵測敏感性資料的移動、遵守資料和隱私權法規,以及阻止資料外流。但是,由於 AI 工具相對較新,許多傳統的安全解決方案無法緩解它們對組織資料構成的風險和未知威脅。因此,希望在開發過程中利用 AI 的組織可以透過實施具有 AI 韌性的資料保護策略來安全地啟用這些工具。現代資料保護措施有助於防止機密資訊外洩、合規性違規、對抗性攻擊以及智慧財產權損失。
AI 支援的開發可以幫助組織大規模推 動創新。然而,如果使用時沒有考慮這些工具的固有限制和風險,它們不僅會阻礙開發過程,還會對使用它們的組織造成傷害。
生成式 AI 工具會攝取輸入給它們的資訊,然後利用這些資料來識別模式與結構,從而生成新的內容。這些大型語言模型 (LLM) 所接收的資料越多,它們的表現就越精細,應用範圍也越廣泛。
這在專有資料方面引發了重大擔憂。以 Samsung 為例,在一名工程師不慎將內部原始碼上傳至 ChatGPT 後,該公司隨即禁止員工使用 ChatGPT。雖然這起事件中的資料並未以傳統意義上的「外洩」形式被公開,但與 AI 工具分享的資料通常會儲存在企業無法掌控的伺服器上——這意味著企業無法控制這些資料將如何被使用和分發。
組織最常見的擔憂之一是 AI 平台如何收集使用者資料以進一步訓練其 LLM。OpenAI 和 GitHub Copilot 等熱門 AI 平台使用收到的資料來訓練 AI 模型,並且多次在為平台使用者產生輸出時重現另一些使用者的輸入資料。這使得專有程式碼、敏感性資料或個人識別 資訊 (PII) 面臨被公開暴露的隱私風險。
歸根結底,將資料分享給 AI 平台,其實就像將資料分享給任何其他公司一樣。使用者信任這些平台會妥善保護他們輸入的資料,卻往往沒有意識到「資料安全」並非這些平台的核心功能。而隨著它們累積的資料量越來越多,它們也變得越來越成為具有吸引力的攻擊目標。
許多與 AI 工具相關的資料外洩事件其實都是意外造成的:例如,某位工程師不慎將本不應釋出至外部環境的程式碼上傳至 AI 平台;又或者,某企業發現 ChatGPT 回應的內容與公司機密資料高度相似。
其他入侵情況則更為隱蔽。例如,FraudGPT 和 WormGPT 就是兩個專門以竊取來的資料進行訓練的 AI 工具,其唯一目的就是用於製作網路釣魚攻擊、自動執行惡意程式碼,以及執行更為精密、更具人類特徵的社交工程攻擊。雖然大多數 AI 平台主要被用於正向用途,但其底層強大的技術能力同樣可以被訓練來加速並推動各類網路攻擊。
除了可能被用來濫用竊取的資料之外,即便是相對「良性」的 AI 工具,也可能產生不穩定的程式碼。最近的一項研究顯示,在 GitHub Copilot 所產生的程式碼中,有高達 40% 至少包含 MITRE 所識別出的 25 種最常見漏洞中的其中一種。該研究的作者指出,這一現象的根源在於 Copilot 是基於 GitHub 的開放原始碼庫進行訓練的,而該程式碼庫允許任何使用者上傳程式碼。
最後,AI 工具本身也可能成為攻擊者的目標。在最近的一起事件中,ChatGPT 就遭遇了一起資料外洩事件,導致超過 10 萬個帳號遭到入侵。此次事件中,使用者的姓名、電子郵件與付款地址、信用卡資訊均遭外洩,此外,透過該工具建立的機密聊天標題與對話內容也被曝光。
AI 工具容易被操控的特性,引發了人們對於組織在使用這些技術時能否充分保護使用者資料的質疑。無論是出於無心之失還是惡意行為,使用 AI 軟體都有可能導致資料外洩,並引發大範圍的合規性問題。
舉例來說,研究人員曾在 Nvidia 的 AI 軟體中發現一個重大漏洞,該漏洞讓他們得以繞過原本設計用來保障資料隱私與安全的限制措施。在不到一天的時間內,他們就成功騙過該 AI 框架,使其洩漏了個人識別資訊 (PII)。
在保護敏感性資料免受 AI 風險影響時,將 AI 視為一種更危險的影子 IT 類型可能會有所幫助。簡而言之,使用第三方 AI 工具通常會嚴重缺乏對資料處理、儲存和分發方式的可見性。
由於開放原始碼 AI 工具在建立時並未考慮安全性和資料隱私性,因此組織有責任主動保護其系統、程式碼和使用者資料免受入侵。除了完全禁止使用 AI 之外,組織還可以採用多種策略來最大程度地降低這些風險,包括:
在導入新的第三方 AI 工具之前,企業應先評估規劃中的 AI 應用場景。這些 AI 工具將用於協助產生自然語言形式的技術文件?用於開發低程式碼或無程式碼的軟體應用程式?用來評估並修復現有程式碼中的缺陷?還是將整合進內部系統或對外公開的產品之中?
確定了這些用例的優先順序後,就必須評估可能因接觸 AI 工具而引入或加劇的潛在風險。由於 AI 風險範圍廣泛,組織需要製定明確的指南,以預防和修補任何可能出現的漏洞。參考與特定 AI 軟體相關的已知漏洞文件,也可能對風險管理有所幫助。
毋庸置疑,組織不應全權授權使用 AI,尤其是在涉及專有資訊和使用者資料的情況下。除了安全和資料隱私權問題外,AI 工具還引發了偏見和透明度問題,這可能會進一步影響 AI 增強型開發的優勢。
因此,組織應制定第三方 AI 使用的指南和規約。確定哪些資料可以與 AI 工具分享、在何種情況下可以分享這些資料,以及哪些 AI 工具可以存取這些資料。調查 AI 工具可能引入的偏見,記錄 AI 在組織內部的使用情況,並設定對 AI 產生內容品質的評估標準。
AI 技術在不斷演進,因此需要持續進行監控與評估。在使用 AI 模型的過程中,隨著新應用場景的不斷出現,組織應及時調整現有的規約與資料限制。透過持續審查 AI 產生的程式碼與功能,組織能夠更輕鬆地偵測潛在風險,並降低系統遭入侵或資料外洩的可能性。
除了內部審查機制之外,企業還應定期對第三方 AI 工具進行評估。隨著 ChatGPT、Copilot 或其他 AI 軟體中的新漏洞不斷被發現,企業應重新審視輸入這些工具的資料類型——必要時,甚至應暫時撤銷對這些工具的存取權限,直至相關漏洞被修復為止。
傳統的資料保護解決方案在面對不斷演變的 AI 資料風險時,往往缺乏足夠的適應性與靈活性。許多標準的資料丟失預防 (DLP) 產品在設定與維護上過於複雜,並可能導致不佳的使用者體驗,因此在實際中,這些 DLP 控制措施通常沒有得到充分利用,甚至完全被繞過。無論是作為獨立平台部署,還是整合進其他安全服務中,單靠 DLP 服務本身往往效率不足、效果有限,難以針對可以利用 AI 的各種方式進行有效調整。
相反,企業應該投資於專為靈活應對 AI 風險而設計的資料保護技術,以有效防止專有資訊與使用者資料遭到濫用、外洩或攻擊。在評估現代資料保護解決方案時,應選擇那些能夠跨所有存放重要資料的環境保障開發人員程式碼安全的架構設計,並能隨著企業不斷變化的安全與隱私需求而持續進化的平台。
企業對生成式 AI 的應用才剛剛起步。即使在早期階段,AI 就已經暴露了資料並帶來了隱私權風險。如今,要有效降低這些風險,需要在人員、流程和技術方面進行戰略性協調。
Cloudflare 的設計初衷,就是要在面對諸如新興 AI 工具等明顯現代化的資料風險時,始終保持技術領先地位。Cloudflare One 將多個資料保護單點解決方案整合至單一的 SSE 平台,實現更簡單的管理,並能夠在所有 Web、SaaS 及私有環境中,以快速且一致的方式強制執行控制措施。由於所有服務皆建構於 Cloudflare 可程式設計的網路之上,新功能可以迅速開發,並部署至全球 330 個網路地點。
這種方法可協助 組織製定資料保護策略,以便:
安全團隊可以透過簡化連線來更有效地保護資料,使用靈活的內聯和基於 API 的選項將流量傳送到 Cloudflare 以實施資料控制。
員工可以透過確保可靠、一致的使用者體驗來提高生產力,這種體驗已被證實比其他競爭對手更快、更高效。
組織可以透過快速創新來提高敏捷性,以滿足不斷變化的資料安全和隱私權要求。
Cloudflare 就影響當今技術決策者的最新趨勢和主題發表了一系列文章,本文為其一。
取得《簡化我們保護 SaaS 應用程式的方式》白皮書,瞭解 Cloudflare 如何透過 Zero Trust 方法幫助組織保護其應用程式和資料。
閱讀本文後,您將能夠瞭解:
AI 如何使專有資料面臨風險
傳統資料保護方法的不足之處
最小化 AI 風險的同時最大化生產力的策略