AI 模型分類總覽
這頁整理目前常見的文字、圖片與影片模型,幫助你快速了解不同模型類型通常能做 什麼,以及第一次接觸時可以先從哪一類開始看。
文字模型
文字模型最常用於文章生成、客服回覆、翻譯、摘要、問答與程式輔助,也是大多數人最先接觸的 AI 模型類型。
gpt-5.4:適合複雜推理、長文整理、進階問答與程式輔助。
gpt-5-nano:適合客服回覆、輕量問答、低成本大量任務與快速輸出。
gpt-5.3-chat:適合一般聊天、日常文字互動與對話型應用。
gpt-5.3-codex:適合程式撰寫、除錯、重構與開發輔助。
claude-opus-4.6:適合高品質長文寫作、深度分析與複雜推理。
claude-sonnet-4.6:適合長文本整理、分析寫作、文件處理與知識問答。
deepseek-v3.2:適合一般生成、推理任務、內容整理與高性價比文字工作。
doubao-seed-2-0-pro:適合綜合文字任務、一般問答與文案生成。
doubao-seed-2.0-code:適合程式輔助、代碼生成與工程相關任務。
doubao-seed-2.0-lite:適合短文生成、快速回覆與輕量文字任務。
doubao-seed-2.0-mini:適合基礎問答、簡單客服與短內容輸出。
gemini 3 pro:適合多模態理解、綜合問答、創意整理與進階任務。
gemini-3-flash-preview:適合快速多模態任務與輕量輸出。
gemini-3.1-pro-preview:適合進階推理、綜合任務與長內容整理。
GLM-4.7:適合一般文字任務、問答與資料整理。
GLM-5:適合綜合型問答、生成與理解任務。
grok4.2:適合一般文字問答與綜合型任務。
Kimi-K2.5:適合長文整理、閱讀理解與資料濃縮。
MiniMax-M2.5:適合一般生成、內容整理與日常問答。
MiniMax-M2.7:適合綜合問答、內容生成與資料整理。
qwen3-max:適合綜合內容生成、文件理解、一般推理與內容工作。
qwen3-vl-flash:適合圖文理解、視覺輸入任務與輕量多模態情境。
qwen3-vl-plus:適合圖文整合任務與進階視覺理解。
qwen3.5:適合一般文字任務、內容生成與綜合問答。
qwen3.5-flash:適合快速輸出、低成本問答與輕量內容生成。
qwen3.5-plus:適合綜合生成、內容整理與一般任務。
seed-2-0-mini:適合輕量問答、簡單整理與短回應。
圖片模型
圖片模型主要用於插圖、社群素材、設計草圖、封面圖與視覺內容生成,適合需要快速產出視覺素材的人。
imagen 4 fast:適合快速生成視覺草圖、素材概念圖與社群圖片。
kling-image-o1:適合圖像生成、創意視覺與設計草圖。
kling-v3-omni-image:適合綜合圖像生成與多用途視覺內容。
nano banana2:適合輕量圖片生成與快速素材輸出。
qwen-image-2.0:適合一般插圖、社群素材與視覺草圖。
qwen-image-2.0-pro:適合設計提案、較高品質插圖與進階素材。
qwen-image-max:適合高品質主視覺、社群素材與插圖生成。
qwen-image-plus:適合綜合圖片生成與一般設計需求。
seedream-4.5:適合插圖、品牌視覺、社群素材與創意圖像。
seedream-5.0-lite:適合快速圖片草圖、輕量素材與概念視覺。
wan2.6-t2i:適合文字生成圖片、概念圖與素材圖。
影片模型
影片模型主要用於文字轉影片、圖片轉影片、短影音素材與動態內容製作,適合需要影音內容的人。
kling-v3:適合影片生成、動態內容與短影音素材。
seedance-1-5-pro:適合文生影片、短影音素材與動態廣告內容。
seedance-2.0:適合進階影片生成與動態內容製作。
veo 3.1:適合高規格影片生成與視覺內容製作。
wan2.5-i2v-preview:適合圖片轉影片、讓靜態畫面動起來。
wan2.6-i2v-flash:適合快速圖片轉影片與短影音素材生成。
wan2.6-r2v-flash:適合影片相關轉換與動態輸出任務。
wan2.6-t2v:適合文字轉影片、短影音與腳本視覺化。
模型分類常見問題
1. 我第一次接觸 AI 模型,應該先看哪一類?
如果你是第一次接觸 AI 模型,通常可以先從自己的需求出發,而不是先記模型名稱。想寫文章、做客服、整理資料、翻譯或寫程式,可以先看 文字模型;想做插圖、社群素材、封面圖或設計草圖,可以先看 圖片模型;想做短影音、文字轉影片或圖片轉影片,則可以先看 影片模型。先看懂類型,再回頭看代表模型,通常會更容易入門。
2. 文字模型、圖片模型、影片模型差在哪裡?
三種模型最大的差別,在於它們主要處理的內容形式不同。文字模型 主要處理文字輸入與文字輸出,常見於問答、摘要、翻譯、客服與程式輔助;圖片模型 主要用來生成插圖、素材與視覺內容;影片模型 則偏向文字轉影片、圖片轉影片與短影音內容製作。選模型時,先看自己要處理的是文字、圖片還是影片,通常會比先比品牌更有效率。
3. 模型越多是不是越難選?
不一定。模型多,代表你可以依照不同需求去分工,不一定要所有工作都只用同一個模型。真正的重點不是把所有模型都記住,而是先知道自己最常做的是哪一類任務,再從該類型裡看 2 到 3 個代表模型就好。對新手來說,先從用途分類開始,比直接看一大串模型名單更容易理解。
4. 我只想做內容創作,先看哪些模型就好?
如果你的需求主要是文章草稿、文案編修、標題發想、SEO 內容整理或社群貼文,建議先從 文字模型 開始看。這類任務通常會重視輸出自然度、長文穩定性與成本平衡,所以不需要一次看完所有模型,先挑幾個代表模型了解用途差異即可。先看懂哪一類模型適合內容輸出,比直接追最新型號更有幫助。
5. 看模型時一定要先懂價格和成本嗎?
不一定要一開始就研究很細,但至少要先有基本概念。因為不同模型不只能力不同,輸入與輸出的計費方式、長文處理需求與回應長度,也會影響整體使用成本。你可以先看懂模型類型和用途,再慢慢延伸到價格與 AI Token 成本,這樣會比一開始只盯著價格表更容易做出適合自己的選擇。
6. 我可以同時使用文字模型、圖片模型和影片模型嗎?
可以,而且很多實際工作流程本來就 會把不同模型搭配使用。例如先用文字模型整理腳本,再用圖片模型做視覺素材,最後再用影片模型產出短影音內容。模型分類不是要把用途分死,而是幫你先看懂每一類模型最擅長的事情,之後再依需求組合使用。
