AI Token 成本計算怎麼做?從輸入輸出分開看最清楚
- 3月31日
- 讀畢需時 7 分鐘
已更新:4月21日

很多人一開始碰 AI API,最常以為成本計算很簡單:不就是把 token 數量乘上價格嗎?
這句話不算錯,但少了最重要的一步。真正比較準的算法,不是把所有 token 混成一包去算,而是先把 input 和 output 分開,再各自乘上單價。
因為現在主流平台幾乎都把輸入與輸出拆開計價,而且 output 往往比 input 更貴。OpenAI 的 API Pricing 頁明確列出 GPT-5.4 mini 的 input 是每 1M tokens 0.75 美元、cached input 是 0.075 美元、output 是 4.50 美元;Anthropic 的 Claude 定價頁也把 Claude Haiku 4.5 列為 input 1 美元 / MTok、output 2 美元 / MTok;Google Gemini 的官方定價頁則明確把 input、output、context caching 分開列價,甚至部分模型在 prompts 超過 200k tokens 後還會跳到更高費率。
所以這篇文章不重講 AI Token 是什麼,也不重講價格頁怎麼看,而是直接回答一個更實際的問題:AI Token 成本到底要怎麼算?
先講最短答案:AI Token 成本計算,先拆 input 和 output
真正最實用的算法,其實很簡單:
Input 成本 = input tokens ÷ 1,000,000 × input 單價Output 成本 = output tokens ÷ 1,000,000 × output 單價總成本 = input 成本 + output 成本
如果還有 cache、Batch、工具費、長上下文加價、區域處理加價,就再另外加進去。
這個邏輯和 OpenAI、Anthropic、Google 的官方 pricing 結構完全一致,因為三家主流平台現在都是把 input 和 output 拆開報價,而不是只給你一個總平均價格。
第一步:先知道 input 和 output 各是多少
你要先知道這次請求到底用了多少 input token、多少 output token。不同平台通常會在 usage 資訊裡提供這些數字。
OpenAI 官方說明中提到,API response metadata 會包含 input tokens、output tokens、cached tokens 等資訊,並直接用於 billing 和 usage tracking。Anthropic 的 pricing 文件也明確提到 usage 相關欄位會包含 input、cache write、cache read、output 這類計量;Google Gemini 則提供 count tokens 文件與 usage metadata,用來幫你估 token 數量和實際用量。
也就是說,成本計算的第一步,不是先找最便宜模型,而是先知道:這次請求到底用了多少 input,模型又回了多少 output。
第二步:查該模型的 input / output 單價
不要只看模型名字,要看你實際用的是哪個模型、哪個模式、哪個平台。
因為同一家平台裡,可能同時存在:
標準價
Batch 價
長上下文價
區域處理價
快取價
OpenAI 的價格頁就不是只有 Standard,還另外列出 Batch API 可節省 50%,並寫明 Data residency and Regional Processing 端點對 2026 年 3 月 5 日後發布的模型加收 10%。
Anthropic 的官方文件則同時有 standard pricing、Batch processing、prompt caching、long context pricing,而且還明講這些 modifiers 可以疊加;Google Gemini 的定價頁則同時列出 Free / Paid、不同模型在 200k tokens 上下的跳價,以及 context caching storage price。
所以第二步的重點不是「查模型名」,而是「查這次請求實際適用的 input / output 單價」。
第三步:把 input 和 output 分別乘上單價,再加總
這一步其實最簡單,但也是最容易被很多人偷懶忽略的一步。
很多人會直接抓一個 total tokens,再乘一個自己腦中的平均價格。這樣做最大問題是:不準。
因為 output 常常比 input 更貴,而 cache、Batch、long context 又可能只影響某一側。你如果把它們全部平均掉,通常就會低估或高估實際成本。
一個最簡單的試算例子
假設你今天用的是 OpenAI GPT-5.4 mini。OpenAI 官方目前列價是:
Input:0.75 美元 / 1M tokens
Cached input:0.075 美元 / 1M tokens
Output:4.50 美元 / 1M tokens
如果這次請求用了:
20,000 個 input tokens
5,000 個 output tokens
那計算方式就是:
Input 成本 = 20,000 ÷ 1,000,000 × 0.75 = 0.015 美元Output 成本 = 5,000 ÷ 1,000,000 × 4.50 = 0.0225 美元總成本 = 0.0375 美元
你會發現,雖然 output token 比 input token 少很多,但因為 output 單價高,兩邊最後的成本其實非常接近。這就是為什麼很多內容生成型任務,真正昂貴的往往不是你丟進去多少,而是模型回出來多少。
再看一個例子:不同模型,算法一樣,結果差很多
假設還是這組用量:
Input:20,000 tokens
Output:5,000 tokens
如果你改用 Claude Haiku 4.5,Anthropic 官方列價是:
Input:1 美元 / MTok
Output:2 美元 / MTok
那成本就是:
Input = 20,000 ÷ 1,000,000 × 1 = 0.02 美元Output = 5,000 ÷ 1,000,000 × 2 = 0.01 美元總成本 = 0.03 美元
如果你改看 Google Gemini 某個在 200k tokens 內的價位段,例如頁面中某模型區段顯示:
Input:2 美元 / 1M tokens
Output:12 美元 / 1M tokens
那同樣的量就會變成:
Input = 20,000 ÷ 1,000,000 × 2 = 0.04 美元Output = 5,000 ÷ 1,000,000 × 12 = 0.06 美元總成本 = 0.10 美元
所以真正該比的,不是只看「誰比較便宜」,而是:你的任務結構碰上這個模型的 input / output 單價後,最後會長成什麼樣子。
為什麼很多人明明有看價格表,還是算錯成本
最常見有四個原因。
只看 input,不看 output
但很多平台 output 本來就比較貴。OpenAI、Anthropic、Google 都能在官方定價頁上直接看到這種差距。
只看標準價,不看 cache、Batch 或長上下文
OpenAI 的 Batch API 可省 50%;Anthropic 的 Batch 也是 input / output 各半價,而且 prompt caching 的 cache hit 讀取成本大約是標準 input 的 10%。Google 也把 context caching 與 storage price 分開列出。
忽略長上下文會跳價
Google Gemini 官方定價頁明確寫出:某些模型在 prompts 超過 200k tokens 後,input、output、context caching 都會提高。OpenAI 官方則說標準費率反映的是 context lengths under 270K。
沒把工具費和附加費算進去
OpenAI 的定價頁另外列了 Web search、Containers 等工具項目,不是只靠 token 單價就能算完整帳單。
企業如果想把 AI 成本算準,該先拆哪三件事
企業最不該做的,就是只盯著「每百萬 token 單價」。
真正該看的,是每一類任務的結構:
這個任務平均會送多少 input token
像內部知識問答、長文件檢索、RAG 類應用,通常 input 很大,因為會帶入文件片段、上下文與歷史對話。
這個任務平均會產出多少 output token
像內容生成、報告撰寫、分析整理,通常 output 很大,因為模型要回很長。
有沒有 cache、Batch、長上下文、工具費或區域處理加成
如果這幾個因素沒拆開,你看到的就只會是「總帳單」,而不是能拿來優化的成本結構。
新手最實用的省錢思路:先控輸入,再控輸出
如果你現在是新手,最簡單的成本管理方式,其實不是背完整張價格表,而是先記住兩句話:
input 太長,成本會被上下文拖高
output 太長,成本會被回覆內容拖高
OpenAI 官方也特別提醒,非英文文本通常會有更高的 token-to-character ratio。
這代表中文使用者在做長文本、長規則、多輪對話時,更應該注意 input 累積。
實務上,最有效的優化通常是:
把重複背景改成 cache
能走 Batch 的任務就不要全都即時跑
先要摘要,再決定要不要展開完整答案
不要每次都把整份文件原文丟進去
一句話總結
如果你只想先記住一句最重要的話,那就是:
AI Token 成本計算最怕的,不是公式太難,而是把所有 token 混在一起看。
你只要記住一件事,整件事就會清楚很多:先把輸入和輸出拆開,再去算。
因為今天真正決定你帳單高低的,往往不是單純「用了多少 token」,而是:
有多少是 input
有多少是 output
有多少可以 cache
有多少能走 Batch
有沒有長上下文或工具費
常見問題 FAQ
AI Token 成本是不是只看總 token 數?
不是。主流平台大多把 input 和 output 分開計費,還可能另外算 cached tokens、storage、工具費或長上下文費率。
Output Token 為什麼常常比 Input Token 貴?
因為很多平台的定價本來就把 output 設得比 input 高。像 OpenAI GPT-5.4 mini、Claude Haiku 4.5 都能直接看到這種差距。
怎麼最快估算一個請求大概多少錢?
先抓三個數字:input tokens、output tokens、模型單價。然後用這個公式:(Input ÷ 1,000,000 × input 單價)+(Output ÷ 1,000,000 × output 單價)如果有 cache、Batch、搜尋工具、長上下文,再把那一段加進去。
Batch API 真的能省很多嗎?
很多情況下是。OpenAI 和 Anthropic 官方都明確寫明,Batch API 可讓 input 與 output 成本打五折。
長上下文會不會讓成本變高?
有些平台會。Google Gemini 的某些模型在 prompts 超過 200k tokens 後就會跳價;OpenAI 也明講標準費率適用於 context lengths under 270K。
資料來源與可信度聲明
本文根據主流 AI 平台的官方定價頁與官方說明整理撰寫,重點參考以下來源:
本文以「成本公式 × 平台差異 × 實際試算」三個角度整理,目的是讓第一次接觸 AI API 的讀者,不只知道價格頁上的數字代表什麼,也真的能算出一個請求大概會花多少。你原稿的重點就在這條線上,我這版只是把它整理成更完整、可直接上站的費用型文章。
如果你已經理解 AI Token 成本計算 的基本方向,接下來更值得看的是 AI Token 價格怎麼看,把不同模型的 input / output 費率與價格頁讀法一次搞懂。
想更完整了解相關內容,可以回到 AI Token 繼續閱讀。
本篇文章屬於《AI Token 費用》分類
此分類主要整理 AI Token 價格、AI Token 費用、AI 成本試算、模型計價方式、平台成本差異與預算判讀邏輯,適合剛開始接觸 AI API、模型平台與企業導入評估的讀者閱讀。很多人一開始會把成本問題想得太簡單,但真正影響帳單的,通常是 input、output、cache、Batch、長上下文與工具費的組合。




留言