客戶資料可以送進 AI API 嗎?企業最在意的個資與合約問題一次看
- 2天前
- 讀畢需時 9 分鐘

客戶資料不是完全不能送進 AI API,但原始個資、可重新識別的資料與受合約限制的內容,不能在沒有去識別化、條款確認與內部治理的情況下直接送進去。
OpenAI、Anthropic 與 Google 都有各自不同的資料使用、保留與分享規則;台灣《個人資料保護法》與 GDPR 也都要求個資處理必須有合法基礎、特定目的與必要範圍,不能因為「只是丟給 AI 幫忙整理」就自動變成低風險。
很多企業卡住的其實不是技術,而是這句話:客戶資料到底能不能送進 AI API?
這篇文章的重點不是教你怎麼寫程式,而是直接幫你把企業最在意的幾件事拆開來看:哪些資料最危險、為什麼會碰到個資與合約風險、什麼情況可以做、什麼情況一定要先處理、以及比較穩的落地路徑是什麼。
你原本這篇的方向是對的,我這版幫你收斂成 「客戶資料 × 個資 × 合約 × 去識別化 × 導入流程」 這條主線,不去撞你已經有的「企業內部資料可不可以用 AI API」「台灣公司法律責任」「資料會不會被拿去訓練」那些文章。
先講結論:企業真正該問的不是能不能用,而是怎麼合法、安全地用
客戶資料能不能送進 AI API,答案不是單純的可以或不可以,而是要先看三件事:
第一,這是不是個資或可識別資料
台灣《個人資料保護法》把可以直接或間接識別特定個人的資料都納入保護範圍;GDPR 也用類似邏輯看待個人資料與可識別性。也就是說,不是只有姓名、電話、Email 才算風險,只要資料組合後有機會識別出特定人,就不能太早把它當成安全資料。
第二,你的客戶合約有沒有禁止或限制第三方處理
很多 B2B 合約、NDA、客服委外條款、資料處理協議,都會規定哪些資料不能轉交第三方、哪些需要事前同意、哪些必須落在指定區域或指定安全等級。這一塊不是 AI 特例,而是合約責任本來就存在。這也是為什麼企業導入 AI API 時,法務常常不是反對技術,而是要求先把責任邊界釐清。這一點屬於法律與合約的一般性判斷,需依企業實際合約內容檢查。
第三,供應商條款與資料保留規則你能不能接受
OpenAI 對 API 與商業資料預設不拿來訓練模型;Anthropic 對商業產品與 API 也維持預設不訓練;Gemini API 對 billing-enabled projects 的 logs 預設會保留 55 天,且預設不拿來做產品改進或訓練,但若你主動把 logs 放進 datasets 或選擇分享,資料就可能依未付費服務條款用於產品改進與模型訓練。這三家的規則已經不一樣,所以企業不應用「反正都是 AI API」來看待。
哪些資料最不適合直接送進 AI API
明確個資
最直接的高風險資料,通常包括:
姓名
手機或電話
身分證、護照、駕照號碼
地址
客戶帳號識別碼
可追蹤裝置或 IP 與帳號綁定資訊
這些資料本身就很容易指向特定自然人,放進外部 AI API 時,等同把個資交給第三方處理。台灣個資法與 GDPR 都不會因為你是拿去「摘要」或「分類」就自動排除風險。
這類資料最常出現在什麼場景
客服對話
CRM 匯出
訂單紀錄
客訴內容
會員後台資料
法務往來紀錄
也就是說,企業最容易覺得「只是文字資料」的東西,常常其實就是最敏感的資料來源。
看起來不敏感,但很容易重新識別的資料
這類資料最危險,因為很多人會誤判它們「沒有名字,所以安全」。實際上,像這些內容都很容易在組合後重新識別出客戶:
客服對話紀錄
訂單時間與金額
使用行為
問題描述
客戶代碼
部門、職稱、地區與產品線的組合
為什麼這類資料特別危險
因為單一欄位不一定能識別個人,但多個欄位一起出現時,重新識別風險就會變高。所以企業不能只做表面遮罩,例如把姓名拿掉,卻保留大量可交叉定位的欄位,這樣很可能還是屬於高風險資料處理。
相對安全、比較適合先進 AI API 的資料
比較低風險的通常是:
匿名統計資料
FAQ
商品資訊
不含客戶識別欄位的知識文件
去識別化後的摘要片段
不含個資的行銷、SEO、內容生產需求
這些內容比較適合當作企業 AI API 的第一階段導入場景。你原稿裡把「內容生成 → 資料清洗 → RAG → 客服 / CRM」排成導入順序,這個方向是對的,我保留這個邏輯。
為什麼會有法律風險?因為 AI API 本質上是第三方處理者
企業把客戶資料送進 AI API,本質上不是「自己內部多一個工具」,而是把資料送去外部服務供應商處理。這件事會立刻牽動三種風險:個資法風險、合約責任風險、跨境傳輸風險。OpenAI、Anthropic、Google 都有各自的資料處理與保留政策,這本身就證明供應商不是「透明通道」,而是有自己規則的第三方平台。
個資法風險:你必須能說明處理目的與必要性
GDPR 要求個資處理必須有 lawful basis、purpose limitation、data minimisation;台灣個資法也要求蒐集與利用要有特定目的與必要範圍。換句話說,企業不能只是因為「AI 很方便」就把客戶資料整包送出去。你至少要回答:
為什麼一定要處理這些資料
為什麼一定要送到外部 AI API
為什麼不能只送去識別化後版本
送出去的範圍是不是最小必要
這些問題若答不出來,法律風險就很高。
合約責任風險:B2B 關係裡常常早就寫了不能亂送
很多企業真正出問題,不是因為法律條文本身,而是因為客戶合約早就寫了:
不可轉交第三方
不可離開指定地區
必須依指定安全等級處理
敏感資料需先經書面同意
只能由特定委外商或子處理者接觸
所以「客戶資料可以送進 AI API 嗎」這題,不能只看供應商條款,還要倒回去看你和客戶怎麼約定。這也是為什麼企業導入時,法務一定要先進場。
跨境資料風險:不是只有訓練問題,資料去哪裡也很重要
OpenAI 提供符合資格客戶 API 資料的在地儲存與可選擇的資料處理區域;Google Cloud 也有資料治理與區域性考量;Anthropic 也有自己的保留與處理規則。
這代表企業不能只問「會不會訓練」,還要問:
資料會去哪個地區
儲存在哪裡
是否有資料駐留選項
是否符合客戶或產業規範
對某些產業來說,跨境本身就是主要風險。
企業最常踩的 5 個錯誤
第一,直接把客服對話整包丟給 AI
客服對話很常包含姓名、電話、訂單資訊、地址、投訴細節,這些都很容易直接或間接識別個人。這是最常見也最危險的錯誤之一。
第二,沒看 API 條款就先開始測
OpenAI、Anthropic、Gemini API 的資料使用與保留規則都不完全一樣。企業如果先測再補看條款,常常會發現前面的測試流程本身就不合規。
第三,以為只要拿掉名字就安全
只去掉姓名,不代表資料真的匿名。訂單編號、地區、職稱、產品、時間戳、客訴內容組合起來,還是可能重新識別個人。
第四,內部測試直接用真資料
PoC 最容易踩雷,因為大家都覺得「只是內部測試」。但對法規與合約來說,測試環境不會自動變成低風險環境。
第五,用免費或一般聊天版做商業資料測試
這類情況最容易把聊天版條款、商業 API 條款和企業版條款混在一起。企業做正式導入,應優先看 API 或企業級服務的資料條款,不要把一般消費版邏輯直接套進來。
客戶資料要怎麼合法、安全地用?比較穩的做法是這 4 件事
做法一:先做去識別化,不要直接送原始資料
你原稿這一段是對的,而且要更強調。比較穩的做法不是問「能不能直接送」,而是先問「可不可以先去識別化再送」。
原始資料不要這樣送
原始:王小明,訂單 12345 延遲,電話 09xx-xxx-xxx,住台北內湖。
比較穩的做法
處理後:客戶 ID_789,某筆訂單延遲,需回覆物流問題。
AI 仍然能處理問題,但資料的可識別性已經大幅下降。
做法二:只送必要資訊,不要整包 CRM 或對話都進去
GDPR 的 data minimisation 原則很適合直接用在這裡:只送必要資訊。
不要送:
全部對話
全部 CRM
全部訂單
全部客服欄位
只送:
問題片段
去識別化摘要
真的與當前任務有關的最小資訊
這樣不只比較安全,也通常比較省 AI Token。
做法三:用 RAG 或檢索式設計,避免 AI 直接吃原始資料庫
RAG 不是法律免死金牌,但它確實是企業比較穩的常見做法之一。因為你可以把資料留在內部資料庫,只把檢索後、過濾後、去識別化後的必要片段送去模型。
這樣做的好處
降低原始資料外送範圍
降低 AI Token 成本
降低重新識別風險
讓資料控管更容易落地
做法四:正式導入前,先選對供應商與正確條款
選 AI API 供應商時,至少要問清楚:
是否預設不拿資料訓練
logs 保留多久
有沒有企業級資料控制
有沒有資料駐留或區域選項
有沒有 DPA / 企業條款 / 安全與合規文件
OpenAI、Anthropic、Google 在這幾塊的規則都不完全一樣,所以企業不能只比模型效果。
導入前 Checklist:照這 5 步做,比較不容易踩雷
第一步:資料分類
先分清楚:
個資
非個資
內部敏感資料
可公開資料
沒有這一步,後面根本沒辦法決定哪些資料可以進 AI API。
第二步:建立去識別化機制
至少要有:
masking
tokenization
ID mapping
可逆與不可逆規則
第三步:條款審查
先看供應商是否訓練、是否儲存、是否跨境、是否有企業級控制,不要直接跳過。
第四步:合約檢查
回頭看客戶合約、委託處理約定、NDA、DPA。有些資料不是法規禁止,而是合約本來就不允許。
第五步:技術架構確認
至少要先確認:
是否用 proxy
是否用 RAG
是否限制哪些欄位能進 AI
是否有 AI Token 上限與異常告警
哪些應用相對安全,哪些屬於高風險
相對安全
行銷文案
SEO 文章
商品描述
FAQ
不含客戶識別資訊的知識內容
中風險
客服摘要
訂單分析
用戶意見分類
這類通常不是完全不能做,但必須先去識別化。
高風險
CRM 全資料分析
醫療資料
金融資料
含個資客服對話原文
合約或法務往來原文中含客戶識別資訊的內容
這些資料若要進 AI API,前置治理與條款審查一定要更完整。
一句話總結
客戶資料不是完全不能送進 AI API,但原始個資、可重新識別的資料與受合約限制的內容,不能在沒有去識別化、條款確認與治理設計的情況下直接送進去。
企業真正該做的,不是賭供應商很安全,而是先把資料分級、把必要性縮小、把條款看清楚,再決定哪些資料可以怎麼用。OpenAI、Anthropic、Google 的官方文件都已經告訴你:資料訓練、保留、logs、分享與專案治理規則本來就不同,所以企業不能用「反正都是 AI API」這種方式處理。
FAQ
客戶同意就可以把資料送進 AI API 嗎?
不一定。即使客戶同意,也還要看同意範圍、使用目的、記錄留存方式,以及你和供應商的資料處理條款是不是能支撐這種使用。
去掉名字就安全嗎?
不一定。只去掉姓名,仍可能透過其他欄位重新識別個人,所以真正要做的是降低整體可識別性,而不是只遮一個欄位。
API 會不會偷拿資料去訓練?
不同供應商規則不同。OpenAI 與 Anthropic 對 API/商業產品預設不訓練;Gemini API 對 billing-enabled projects 的 logs 預設不拿來做產品改進或訓練,但若你主動分享 datasets 或 feedback,情況會不同。
用 proxy 就安全了嗎?
不是。proxy 能降低 key 外洩與治理風險,但不能自動解決法規與合約問題。它是技術保護措施,不是法律免責。
小公司也需要管這些嗎?
需要。違規風險不會因公司小就消失,只是損失形式不同。中小企業更需要先把資料邊界與條款看清楚。
資料來源與可信度聲明
本文根據 OpenAI、Anthropic、Google 官方資料使用、保留與記錄政策,以及台灣《個人資料保護法》與 GDPR 的公開法規原則整理撰寫,主要參考以下官方來源:
內容以「官方資料處理規則 × 個資與合約風險 × 企業可落地做法」三層方式整理,目的是幫助企業在面對客戶資料是否能送進 AI API 時,不靠猜測,而是先用可執行的風險框架判斷。
想先看懂 企業 AI 導入與資料安全 這條主題線,建議先從這篇開始企業內部資料可以用 AI API 嗎?導入前先看懂風險與邊界
本篇文章屬於《企業 AI 導入與資料安全》分類。
此分類主要整理企業在導入 AI API、AI 工具與模型平台前,最常碰到的資料治理、法務條款、採購風險、台灣企業實務問題與內部資料邊界,幫助法務、資訊、採購與管理層用同一套語言評估風險,而不是等到上線後才補漏洞。




留言