AI 相關法規和立法正在不斷增加。2024 年,白宮管理和預算辦公室向美國所有聯邦機構和部門發布了關於政府使用人工智慧的 24-10 號備忘錄 (Memorandum 24-10)。該備忘錄的重點包括三個部分:
加強 AI 治理
推進負責任的 AI 創新
各州也採取了類似的措施,以解決人們對 AI 使用和濫用的擔憂。2023 年,25 個州推出了針對 AI 某些方面的立法。其中 18 個州和波多黎各成功頒布了相關立法。有些法律著重於 AI 使用的初步研究或評估,而有些法律則致力於規範員工對 AI 的使用,或實施控制措施以減輕惡意使用或意外後果。
最近的立法強調了在政府中使用 AI 的一些危險,並給政府機構和其他公共部門組織帶來了一些挑戰。這些組織將需要採取控制措施,以保護面向公眾的資產免受威脅,並幫助確保適當使用 AI。
基於 AI 的網路爬蟲可以為政府機構和其他公共部門組織帶來合法且有益的用途。在特定情境下,負責任的網路爬蟲與索引工具能使用可公開存取的資料,強化民眾尋找線上服務與相關資訊的能力。
另一方面,開發不當或惡意的 AI 網路爬蟲可能會抓取內容來訓練公用 AI 平台,而不會考慮內容的隱私性。如果這些資料最終用於訓練模型,可能會引發諸多智慧財產權和隱私權問題。如果不加以控制,這些機器人還會因佔用正常使用者互動所需的系統資源,導致所有使用者在使用公共網站時遭遇效能下降的問題。
機構可以實作多種伺服器端或應用程式端保護,以幫助控制機器人與伺服器互動的方式。例如,他們可以部署 robots.txt 檔案。該文件可以告知並定義網路爬蟲流量如何與網站的各個部分及其資料互動。該檔案部署在網站的根目錄中,並定義哪些代理程式(機器人)可以爬行網站以及它們可以存取哪些資源。
然而,這種方法仍存在若干挑戰。首先,網路爬蟲必須遵守 robots.txt 檔案的規範。雖然這是「合規」機器人的一般最佳做法,但並非所有機器人都會遵循規則。此外,也存在一些並無惡意的機器人,它們可能只是誤解了語法規則,進而存取了政府機構希望隱藏的網頁元素。
簡而言之,雖然這是一種常見的做法,但僅依靠 robots.txt 或類似的 .htaccess (Apache) 策略並不能提供萬無一失的保護。然而,這些措施可以作為一套整體治理方案的一部分,用來規範合法機器人如何與應用程式內容進行互動。
在當今世界,Web 應用程式防火牆 (WAF) 和機器人緩解解決方案對於保護公用 Web 應用程式至關重要。這些控制措施可協助組織保護其公共數位資產免受分散式阻斷服務 (DDoS) 威脅、影子 API 和不安全 API 以及其他各種與機器人程式相關的威脅。
如今,任何機器人緩解解決方案都應具備以程式化方式識別與分類那些為了 AI 資料訓練而抓取網站內容的機器人的能力。這種分類機制至關重要。它可以允許合法且經過驗證的 AI 網路爬蟲執行,也可以完全封鎖它們,直到機構確定應如何允許這些機器人程式與網站互動。
選擇可擴展的解決方案同樣至關重要。2023 年,聯合國秘書長安東尼奧・古特雷斯 (António Guterres) 曾指出:「雖然印刷書籍歷經超過 50 年才得以在歐洲普及,但 ChatGPT 卻僅在短短兩個月內就累積了 1 億名使用者。」AI 平台所展現的規模與前所未有的成長速度,直接導致越來越多 AI 機器人瘋狂搜尋任何公開暴露的資料集進行訓練。這些平台的架構設計,必須能夠適應分散式全球環境的擴展需求。
公用 AI 平台支援使用者加速完成從撰寫備忘錄到撰寫複雜程式碼等多樣任務。在政府部門中,州級與聯邦機構皆看見運用 AI 解決複雜社會議題的潛力,包括醫療照護挑戰、公民服務取得、食安與水質安全等重大課題。然而若缺乏適當治理機制,各組織可能在不自覺的情況下,將受規範管制的資料集洩漏至安全性不足的公開語言模型訓練資料中。
正如組織利用工具來控制未經批准的雲端應用程式(或稱為「影子 IT」)的使用一樣,他們現在需要瞭解組織內部「影子 AI」的使用範圍。影子 AI 的增加正成為頭條新聞。3Gem 對全球超過 11500 名員工進行的一項研究表明,57% 的員工每週至少在辦公室使用一次公用生成式 AI 工具。在同一研究中,39% 的受訪者認為這些互動存在敏感性資料外洩的風險。
這些敏感性資料也可能在不知情的情況下在 AI 模型之間共用。AI 模型越來越多地使用其他模型產生的資料(而非傳統來源的內容)進行訓練。
為了全面應對影子 AI,組織首先需要定義公用 AI 模型的可接受用途。此外,他們還應確定哪些角色需要存取這些模型。建立這些防護措施是至關重要的第一步。近期針對政府部門(以及更廣泛的公共部門)所頒布的新興 AI 法規,經常強調機構內部審查 AI 適當使用方式的重要性,並要求決定哪些模型應被允許使用。
確定了適當的用途後,各機構就必須制定執行政策的控制措施。Zero Trust 網路存取 (ZTNA) 原則有助於制定和執行這些政策,以限制未經批准的存取。
例如,某個機構可能只允許特定管理群組中的授權使用者存取公用 AI 模型。在允許存取這些模型之前,ZTNA 解決方案還可以進行額外的狀態檢查,例如確保公司裝置已安裝最新修補程式,或裝置執行政府核准的端點管理代理程式。借助 ZTNA,該機構可以在操作政府資產時強制執行並限制哪些人可以存取這些公用 AI 模型。
「可接受使用範圍」不僅限於界定哪些使用者可以存取 AI 平台。機構還需瞭解並控管哪些資料被發佈或提交至這些平台。即使是看似無害的部門備忘錄,也可能包含非公開或敏感性資料點。一旦這些資料點被提交至大型語言模型 (LLM),就存在資料外洩的風險。
資料丟失預防 (DLP) 控制可以幫助阻止不當使用敏感性資料。適當的控制將有助於確保專有資訊(例如敏感性應 用程式碼甚至公民資料)不會成為 AI 平台不安全訓練資料集的一部分。
以一個需要與公共和私有(內部)AI 平台互動的 AI 開發團隊為例。機構可以允許使用公共(例如 ChatGPT)和私有(例如 AWS BedRock)AI 平台。只有 AI 開發團隊中經過批准的使用者才能存取這些平台。普通使用者將被禁止存取這兩個平台。
即使擁有一個經過批准的 AI 開發使用者群組,實施 DLP 規則也會大有裨益。DLP 規則可以審查發佈到 AI 平台的資料,並確保非公開敏感性資料僅發佈到內部私人 AI 平台。
治理應該始於政策或使命,而非技術。為了評估 AI 的益處和風險,機構領導者應指定專門團隊,評估 AI 與機構使命的潛在交集。
隨著公眾繼續透過技術增加與政府的接觸,將會有更大、更豐富的資料集可用於訓練 AI 模型。公共部門組織可能會選擇一種保守的方法,例如封鎖所有 AI 網路爬蟲,直到瞭解允許這些互動的影響為止。對於那些認為合法爬行公共財產可能帶來好處的組織而言,團隊必須能夠控制經過驗證的 AI 網路爬蟲的存取權限,並防範惡意行為。
為因應日趨嚴格的 AI 監管趨勢,相關團隊應事先釐清哪些職務角色與工作任務需要存取 AI 平台。透過明確規範「誰可以在何時存取」以及「允許提交哪些類型的資料至 AI 模型」,組織既能有效抑制影子 AI 風險,又不致犧牲這項技術帶來的實質效益。
機器人管理和 Zero Trust 安全功能是幫助政府實體在 AI 使用激增的情況下降低風險的核心。在製定緩解策略時,應將保護公用 Web 資產和負責任地使用 AI 放在首位。
AI 在幫助解決許多複雜的社會問題方面有著巨大的潛力。然而,在政府和公共部門使用 AI 也存在一些潛在的缺點。對於政府機構和其他公共部門組織來說,在探索這項新技術時,保護其選民必須永遠放在第一位。
Cloudflare 就影響當今技術決策者的最新趨勢和主題發表了一系列文章,本文為其一。
閱讀完整指南《Zero Trust 架構路線圖》,進一步瞭解 Zero Trust 如何在 AI 使用激增的情況下降低風險。
Scottie Ray — @H20nly
Cloudflare 首席解決方案架構師
閱讀本文後,您將能夠瞭解:
聚焦於 AI 的立法正處於興起階段
AI 帶來的兩大挑戰
協助機構實現立法合規性的控制措施