top of page

AI 模型價格比較怎麼看?不是只看每百萬 Token

  • 3天前
  • 讀畢需時 8 分鐘
AI 模型價格比較與真實總成本解析:圖解打破『每百萬 Token 單價』的計費迷思,統整輸入輸出價差、快取折扣、長上下文跳價、工具額外收費與區域溢價等隱藏的 API 成本陷阱

很多人一開始比較 AI 模型價格時,第一眼只看一個數字:每百萬 Token 幾美元。這樣看不能說錯,但很容易看錯重點。因為現在主流平台的定價,早就不只是「每 1M Token 單價」這麼簡單。


OpenAI 會把 input、cached input、output、short context、long context、Batch、Flex 與 regional processing 分開列價;Anthropic 會把 base input、prompt caching、batch、long context、fast mode 與 regional pricing 分開說明;Google Gemini 也把 input、output、context caching、storage、Grounding with Google Search/Maps、Batch 分開列在同一份定價頁。


所以如果你真的想看懂「哪個模型比較划算」,正確問題不是「每百萬 Token 誰最便宜」,而是:在你的用途下,最終帳單到底會由哪些項目組成。 這也是你原始草稿真正想講的核心方向。


先講結論:價格比較至少要看 6 件事

真正實用的比較方式,至少要把這 6 件事拆開看:

第一,input 跟 output 是否分開計價。

第二,是否有 cache 價格。

第三,是否有 Batch 折扣。

第四,長上下文會不會跳到更高費率。

第五,搜尋、Grounding、工具或多模態是不是另外收費。

第六,不同端點、區域、模式或第三方平台有沒有加價。這些都不是推測,而是現在官方定價頁已經明列的結構。


每百萬 Token 單價只是入口,不是結論

如果你只看入口,通常會低估真實成本。因為很多帳單真正拉高的地方,不是標準 input 單價,而是 output、cache、長上下文、搜尋或區域溢價。


第一件事:先看 input 跟 output,不要只看一個單價

現在主流模型幾乎都把 input 和 output 分開計價,而且 output 往往比 input 貴很多。


OpenAI 官方價格頁顯示,GPT-5.4 mini 的標準價格是 input 0.75 美元、cached input 0.075 美元、output 4.50 美元;GPT-5.4 nano 則是 input 0.20 美元、cached input 0.02 美元、output 1.25 美元。


Anthropic 的 Claude 定價也一樣分開列,Claude Sonnet 4.5 為 input 3 美元、output 15 美元;Claude Haiku 4.5 為 input 1 美元、output 5 美元。Google Gemini Developer API 定價頁也明確把 input 與 output 分開列價,例如 Gemini 3.1 Flash-Lite Preview 的 paid tier 是 input 0.25 美元、output 1.50 美元。


如果你做長文生成,真正該先看 output

如果你的應用是長文生成、報告撰寫、程式碼產出,output 單價往往比 input 更重要。因為真正把帳單拉高的,常常不是你送進去多少,而是模型吐回來多少。


如果你做摘要、RAG、知識庫問答,input 結構更關鍵

反過來說,如果你的場景是大段文件摘要、RAG、知識庫問答、多輪上下文,input 與 cached input 的結構會更關鍵。這也是為什麼只看一個「每百萬 Token」數字,最後很容易比錯。


第二件事:Cache 價格會直接改變有效單價

很多人比較價格時,完全沒把 cache 算進去,但這其實很可能是帳單差異最大的地方之一。OpenAI 官方文件寫明,Prompt Caching 最多可讓 input token 成本降到原本的 10%,也就是最多降低 90%。


Anthropic 則把 prompt caching 的價格倍率寫得更細,cache write 與 cache read 都有不同費率,而且還能與其他 pricing modifiers 疊加。Google Gemini 則把 context caching 拆成 caching token 價格和 storage 價格兩部分。


有重複大 prompt 的應用,不能只看標準 input 單價

如果你的任務會反覆帶入同一份 system prompt、固定規則、大型文件或長背景,那 cache 幾乎一定會影響有效成本。這時候,真正要比的不是標準 input 單價,而是「有 cache 之後的實際單價」。


不把 cache 算進去,常常會把模型比錯

表面看起來較貴的模型,如果 cache 結構更有利,最後可能反而更省。這也是很多企業在正式導入時,帳單和試算差很多的原因。


第三件事:Batch 折扣不是小差異,很多時候是直接半價

如果你的任務不是即時客服,而是離線處理、夜間跑批、批量摘要或大規模評估,那 Batch 價格通常要單獨比較。


OpenAI 的 Batch API 文件與價格頁都寫明,Batch 可比標準即時 API 便宜 50%。Google Gemini 的 Batch API 文件也明寫是標準互動式 API 成本的 50%。

Anthropic 的定價頁則列出 Batch 價格低於標準價格。


即時價格和離線價格,不一定是同一個世界

同一個模型,因為互動式與 Batch 模式不同,實際有效價格就可能差一倍。所以如果你的流程根本可以接受非同步,就不能只用標準 API 的價格去比。


對高頻處理任務來說,Batch 常常才是真正該看的價格

像是資料前處理、大量摘要、內容生成、評估、分類,這些任務如果能接受較慢完成時間,Batch 的影響通常非常明顯。


第四件事:長上下文不是免費送的,有些模型會跳價

模型支援長上下文,不代表長上下文永遠照原價。OpenAI 的官方價格頁把 GPT-5.4 的 short context 與 long context 分開列價,long context 下 input 與 output 都更高。


Anthropic 定價頁也明寫,某些 Claude 模型在 1M context beta 或超過特定 input tokens 條件下,會套用 premium long context pricing。Google Gemini 的價格頁同樣列出不同 prompt 長度下的價格差異,例如超過 200k tokens 後,部分模型的 input、output 和 context caching 都會提高。


長上下文是能力,也是價格維度

所以如果你的工作流是 RAG、長文件摘要、法務文件分析、大型知識庫對話,上下文長度本身就是價格維度,不能只把它當成能力指標。


很多新手看見「支援超長 context」就以為不加價

這是很常見的誤解。真正成熟的比較方式,是先確認長上下文之後價格有沒有跳。


第五件事:工具、搜尋、Grounding,可能比 Token 本身更容易被忽略

很多人只盯著 token 單價,卻忘了某些應用根本不只收 token 費。Google 的 Gemini Developer API 定價頁直接把 Grounding with Google Search 和 Grounding with Google Maps 列成獨立收費項目,超過免費額度後按每 1,000 search queries 收費。OpenAI 模型頁與價格頁也明說,某些 tool-specific models 會按工具呼叫另外計費,而不只是一般 text tokens。


如果你做搜尋型助理,只看 token 幾乎一定不夠

因為當搜尋、Grounding、外部工具變成工作流的一部分後,帳單來源就不只一種。這種情況下,你只盯著每百萬 Token 幾美元,反而會忽略真正大的成本來源。


多模態場景更不能只用文字 token 邏輯比較

有些模型還把音訊、圖片、影片另外列價。這時候你連比較單位都可能不同,更不能只用「每百萬 Token」一個欄位當結論。


第六件事:端點、區域、模式、第三方平台,都可能再加一層價格差

就算是同一個模型,也可能因為端點、區域或模式不同而變貴。OpenAI 官方價格頁直接寫明,regional processing endpoints 對部分 GPT-5.4 系列模型會加收 10% uplift。


Anthropic 的定價頁也提到 fast mode、data residency 與其他 pricing modifiers 可以疊加,而 Google Cloud Vertex AI 的價格頁則說 partner models on Vertex AI 會有各自的 managed API pricing。


同名模型,不一定就是同價模型

你在比價格時,一定要先確認自己比的是不是同一種接法。原廠 API、雲平台代管、區域端點、Priority/Fast 模式,不一定是同一個價。


很多企業誤差,就是出在比了不同接入方式

表面上模型名字一樣,但因為走的區域、平台、模式不同,實際價格可能已經不是同一個東西。


企業還要看 throughput 與限制,不只是每次請求單價

如果你是企業或高流量產品,價格表之外還要看能不能跑得動。Anthropic 的 rate limits 文件指出,限制是按 RPM、ITPM、OTPM 管理,且 usage tiers 會隨 spend thresholds 調整;cached input 在某些情況下也會影響 rate limits 計算方式。這代表就算兩個模型單價差不多,如果其中一個在你的流量型態下更容易利用 cache、較不容易撞限制,它的商業價值就可能完全不同。


單價接近,不代表實際吞吐量接近

對高流量產品來說,穩定擴量、限制結構、cache 能不能幫你撐 throughput,有時候比單次請求便宜幾毛更重要。


真正成熟的比較方式,是把價格和可擴展性一起看

因為企業不是只買一個請求,而是買一整套可持續跑的能力。


新手最不容易出錯的比較方法

最簡單、也最不容易錯的做法,是先把自己的任務分成三類。


高頻、標準化任務

像分類、摘要、標題生成,先看 input、output、cache 和 Batch。因為這類任務最容易靠 cache 或 Batch 拉低有效成本。


長文生成、程式碼、報告

先看 output 單價。因為真正把帳單拉高的通常不是輸入,而是長輸出。


RAG、搜尋型助理、長上下文分析

一定要把 long context、Grounding/Search、context caching、storage 一起算進去。否則你看到的只會是理想價格,不是實際價格。


一句話總結

AI 模型價格比較,真的不是只看每百萬 Token。你至少要同時看 input 和 output 怎麼算、cache 有沒有便宜、Batch 能不能半價、長上下文會不會跳價、工具或搜尋是不是另計、端點與模式有沒有 premium。只少看其中一項,最後得到的很可能不是最便宜的模型,而是看起來便宜、實際上不一定省的模型。這個核心方向,和你提供的原始草稿是一致的。


常見問題

為什麼不能只看每百萬 Token 單價?

因為現在主流模型的計費通常至少會拆成 input、cached input、output,有些還會再加上 long context、Batch、Grounding 或 regional pricing。


哪一種任務最該先看 output 單價?

長文生成、報告、程式碼產出這類任務通常最該先看 output,因為模型回給你的內容越多,output 成本通常越容易成為主支出。


為什麼 cache 會影響有效價格?

因為有些平台會把重複輸入的大 prompt 用較低價格計費,OpenAI 與 Anthropic 都明確提供這類機制,Google 也把 context caching 與 storage 分開列價。


什麼情況下 Batch 特別重要?

當你的任務可以接受非同步,例如夜間跑批、批量摘要、資料前處理、大量評估時,Batch 通常會直接把有效成本拉低很多。


長上下文是不是模型支援就照原價?

不一定。OpenAI、Anthropic 和 Google 都有在特定長度以上提高價格的規則,所以長上下文本身就是價格維度。


這篇和「哪個模型比較便宜」有什麼不同?

那篇偏新手用途導向,重點是先分用途再選模型;這篇則更聚焦在「價格表到底怎麼看」,主題是計費結構,而不是模型選型。


資料來源與可信度聲明

本文依據主流模型供應商的官方定價與功能文件整理撰寫,重點參考 OpenAI API PricingOpenAI Pricing DocsAnthropic Claude PricingAnthropic Prompt CachingGemini Developer API Pricing 與 Gemini Batch API。內容聚焦在「AI 模型價格比較怎麼看」這個問題,從 input/output、cache、Batch、長上下文、Grounding 與區域加價六個面向整理,幫助讀者把價格表看成完整帳單邏輯,而不是只盯著單一欄位。你提供的原始草稿重點已納入這次重寫。


想把基礎觀念與延伸主題一起串起來看,可以回到 AI Token


本篇文章屬於《AI 模型比較》分類

此分類聚焦在不同 AI 模型之間的能力、價格、用途與接法差異,內容包含模型怎麼選、價格怎麼看、平台怎麼接,以及新手最常遇到的比較問題,幫助讀者把每一篇模型比較文的角度拆清楚,避免不同文章之間主題互打。


延伸閱讀

留言


bottom of page