AI Token 成本計算怎麼做？從輸入輸出分開看最清楚

3月31日
讀畢需時 7 分鐘

已更新：4月21日

AI Token 成本計算公式與計費邏輯圖解：詳細拆解 API 總成本是由輸入 (Input) 與輸出 (Output) 分別以『Token 數量 ÷ 一百萬 × 單價』計算後相加而成，協助開發者精準估算費用

很多人一開始碰 AI API，最常以為成本計算很簡單：不就是把 token 數量乘上價格嗎？

這句話不算錯，但少了最重要的一步。真正比較準的算法，不是把所有 token 混成一包去算，而是先把 input 和 output 分開，再各自乘上單價。

因為現在主流平台幾乎都把輸入與輸出拆開計價，而且 output 往往比 input 更貴。OpenAI 的 API Pricing 頁明確列出 GPT-5.4 mini 的 input 是每 1M tokens 0.75 美元、cached input 是 0.075 美元、output 是 4.50 美元；Anthropic 的 Claude 定價頁也把 Claude Haiku 4.5 列為 input 1 美元 / MTok、output 2 美元 / MTok；Google Gemini 的官方定價頁則明確把 input、output、context caching 分開列價，甚至部分模型在 prompts 超過 200k tokens 後還會跳到更高費率。

所以這篇文章不重講 AI Token 是什麼，也不重講價格頁怎麼看，而是直接回答一個更實際的問題：AI Token 成本到底要怎麼算？

先講最短答案：AI Token 成本計算，先拆 input 和 output

真正最實用的算法，其實很簡單：

Input 成本 = input tokens ÷ 1,000,000 × input 單價Output 成本 = output tokens ÷ 1,000,000 × output 單價總成本 = input 成本 + output 成本

如果還有 cache、Batch、工具費、長上下文加價、區域處理加價，就再另外加進去。

這個邏輯和 OpenAI、Anthropic、Google 的官方 pricing 結構完全一致，因為三家主流平台現在都是把 input 和 output 拆開報價，而不是只給你一個總平均價格。

第一步：先知道 input 和 output 各是多少

你要先知道這次請求到底用了多少 input token、多少 output token。不同平台通常會在 usage 資訊裡提供這些數字。

OpenAI 官方說明中提到，API response metadata 會包含 input tokens、output tokens、cached tokens 等資訊，並直接用於 billing 和 usage tracking。Anthropic 的 pricing 文件也明確提到 usage 相關欄位會包含 input、cache write、cache read、output 這類計量；Google Gemini 則提供 count tokens 文件與 usage metadata，用來幫你估 token 數量和實際用量。

也就是說，成本計算的第一步，不是先找最便宜模型，而是先知道：這次請求到底用了多少 input，模型又回了多少 output。

第二步：查該模型的 input / output 單價

不要只看模型名字，要看你實際用的是哪個模型、哪個模式、哪個平台。

因為同一家平台裡，可能同時存在：

標準價

Batch 價

長上下文價

區域處理價

快取價

OpenAI 的價格頁就不是只有 Standard，還另外列出 Batch API 可節省 50%，並寫明 Data residency and Regional Processing 端點對 2026 年 3 月 5 日後發布的模型加收 10%。

Anthropic 的官方文件則同時有 standard pricing、Batch processing、prompt caching、long context pricing，而且還明講這些 modifiers 可以疊加；Google Gemini 的定價頁則同時列出 Free / Paid、不同模型在 200k tokens 上下的跳價，以及 context caching storage price。

所以第二步的重點不是「查模型名」，而是「查這次請求實際適用的 input / output 單價」。

第三步：把 input 和 output 分別乘上單價，再加總

這一步其實最簡單，但也是最容易被很多人偷懶忽略的一步。

很多人會直接抓一個 total tokens，再乘一個自己腦中的平均價格。這樣做最大問題是：不準。

因為 output 常常比 input 更貴，而 cache、Batch、long context 又可能只影響某一側。你如果把它們全部平均掉，通常就會低估或高估實際成本。

一個最簡單的試算例子

假設你今天用的是 OpenAI GPT-5.4 mini。OpenAI 官方目前列價是：

Input：0.75 美元 / 1M tokens

Cached input：0.075 美元 / 1M tokens

Output：4.50 美元 / 1M tokens

如果這次請求用了：

20,000 個 input tokens

5,000 個 output tokens

那計算方式就是：

Input 成本 = 20,000 ÷ 1,000,000 × 0.75 = 0.015 美元Output 成本 = 5,000 ÷ 1,000,000 × 4.50 = 0.0225 美元總成本 = 0.0375 美元

你會發現，雖然 output token 比 input token 少很多，但因為 output 單價高，兩邊最後的成本其實非常接近。這就是為什麼很多內容生成型任務，真正昂貴的往往不是你丟進去多少，而是模型回出來多少。

再看一個例子：不同模型，算法一樣，結果差很多

假設還是這組用量：

Input：20,000 tokens

Output：5,000 tokens

如果你改用 Claude Haiku 4.5，Anthropic 官方列價是：

Input：1 美元 / MTok

Output：2 美元 / MTok

那成本就是：

Input = 20,000 ÷ 1,000,000 × 1 = 0.02 美元Output = 5,000 ÷ 1,000,000 × 2 = 0.01 美元總成本 = 0.03 美元

如果你改看 Google Gemini 某個在 200k tokens 內的價位段，例如頁面中某模型區段顯示：

Input：2 美元 / 1M tokens

Output：12 美元 / 1M tokens

那同樣的量就會變成：

Input = 20,000 ÷ 1,000,000 × 2 = 0.04 美元Output = 5,000 ÷ 1,000,000 × 12 = 0.06 美元總成本 = 0.10 美元

所以真正該比的，不是只看「誰比較便宜」，而是：你的任務結構碰上這個模型的 input / output 單價後，最後會長成什麼樣子。

為什麼很多人明明有看價格表，還是算錯成本

最常見有四個原因。

只看 input，不看 output

但很多平台 output 本來就比較貴。OpenAI、Anthropic、Google 都能在官方定價頁上直接看到這種差距。

只看標準價，不看 cache、Batch 或長上下文

OpenAI 的 Batch API 可省 50%；Anthropic 的 Batch 也是 input / output 各半價，而且 prompt caching 的 cache hit 讀取成本大約是標準 input 的 10%。Google 也把 context caching 與 storage price 分開列出。

忽略長上下文會跳價

Google Gemini 官方定價頁明確寫出：某些模型在 prompts 超過 200k tokens 後，input、output、context caching 都會提高。OpenAI 官方則說標準費率反映的是 context lengths under 270K。

沒把工具費和附加費算進去

OpenAI 的定價頁另外列了 Web search、Containers 等工具項目，不是只靠 token 單價就能算完整帳單。

企業如果想把 AI 成本算準，該先拆哪三件事

企業最不該做的，就是只盯著「每百萬 token 單價」。

真正該看的，是每一類任務的結構：

這個任務平均會送多少 input token

像內部知識問答、長文件檢索、RAG 類應用，通常 input 很大，因為會帶入文件片段、上下文與歷史對話。

這個任務平均會產出多少 output token

像內容生成、報告撰寫、分析整理，通常 output 很大，因為模型要回很長。

有沒有 cache、Batch、長上下文、工具費或區域處理加成

如果這幾個因素沒拆開，你看到的就只會是「總帳單」，而不是能拿來優化的成本結構。

新手最實用的省錢思路：先控輸入，再控輸出

如果你現在是新手，最簡單的成本管理方式，其實不是背完整張價格表，而是先記住兩句話：

input 太長，成本會被上下文拖高

output 太長，成本會被回覆內容拖高

OpenAI 官方也特別提醒，非英文文本通常會有更高的 token-to-character ratio。

這代表中文使用者在做長文本、長規則、多輪對話時，更應該注意 input 累積。

實務上，最有效的優化通常是：

把重複背景改成 cache

能走 Batch 的任務就不要全都即時跑

先要摘要，再決定要不要展開完整答案

不要每次都把整份文件原文丟進去

一句話總結

如果你只想先記住一句最重要的話，那就是：

AI Token 成本計算最怕的，不是公式太難，而是把所有 token 混在一起看。

你只要記住一件事，整件事就會清楚很多：先把輸入和輸出拆開，再去算。

因為今天真正決定你帳單高低的，往往不是單純「用了多少 token」，而是：

有多少是 input

有多少是 output

有多少可以 cache

有多少能走 Batch

有沒有長上下文或工具費

常見問題 FAQ

AI Token 成本是不是只看總 token 數？

不是。主流平台大多把 input 和 output 分開計費，還可能另外算 cached tokens、storage、工具費或長上下文費率。

Output Token 為什麼常常比 Input Token 貴？

因為很多平台的定價本來就把 output 設得比 input 高。像 OpenAI GPT-5.4 mini、Claude Haiku 4.5 都能直接看到這種差距。

怎麼最快估算一個請求大概多少錢？

先抓三個數字：input tokens、output tokens、模型單價。然後用這個公式：（Input ÷ 1,000,000 × input 單價）+（Output ÷ 1,000,000 × output 單價）如果有 cache、Batch、搜尋工具、長上下文，再把那一段加進去。

Batch API 真的能省很多嗎？

很多情況下是。OpenAI 和 Anthropic 官方都明確寫明，Batch API 可讓 input 與 output 成本打五折。

長上下文會不會讓成本變高？

有些平台會。Google Gemini 的某些模型在 prompts 超過 200k tokens 後就會跳價；OpenAI 也明講標準費率適用於 context lengths under 270K。

資料來源與可信度聲明

本文根據主流 AI 平台的官方定價頁與官方說明整理撰寫，重點參考以下來源：

OpenAI｜API Pricing

OpenAI｜What are tokens and how to count them?

Anthropic｜Pricing

Google AI for Developers｜Gemini API pricing

本文以「成本公式 × 平台差異 × 實際試算」三個角度整理，目的是讓第一次接觸 AI API 的讀者，不只知道價格頁上的數字代表什麼，也真的能算出一個請求大概會花多少。你原稿的重點就在這條線上，我這版只是把它整理成更完整、可直接上站的費用型文章。

如果你已經理解 AI Token 成本計算 的基本方向，接下來更值得看的是 AI Token 價格怎麼看，把不同模型的 input / output 費率與價格頁讀法一次搞懂。

想更完整了解相關內容，可以回到 AI Token 繼續閱讀。

本篇文章屬於《AI Token 費用》分類

此分類主要整理 AI Token 價格、AI Token 費用、AI 成本試算、模型計價方式、平台成本差異與預算判讀邏輯，適合剛開始接觸 AI API、模型平台與企業導入評估的讀者閱讀。很多人一開始會把成本問題想得太簡單，但真正影響帳單的，通常是 input、output、cache、Batch、長上下文與工具費的組合。

延伸閱讀

AI Token 怎麼算？新手看懂最基本的計算方式

Input Token 跟 Output Token 差別是什麼？

AI Token 價格怎麼看？新手先搞懂費用是怎麼來的