AI 模型分類總覽

這頁整理目前常見的文字、圖片與影片模型，幫助你快速了解不同模型類型通常能做什麼，以及第一次接觸時可以先從哪一類開始看。

如果你還不確定自己該先看哪一類，可以先從這裡判斷

文字模型

適合文章撰寫、客服問答與文件整理

查看文字模型

圖片模型

適合插圖生成、社群素材與視覺設計

查看圖片模型

影片模型

適合短影音製作、文生影片與圖生影片

查看影片模型

文字模型

文字模型最常用於文章生成、客服回覆、翻譯、摘要、問答與程式輔助，也是大多數人最先接觸的 AI 模型類型。

gpt-5.4：適合複雜推理、長文整理、進階問答與程式輔助。
gpt-5-nano：適合客服回覆、輕量問答、低成本大量任務與快速輸出。
gpt-5.3-chat：適合一般聊天、日常文字互動與對話型應用。
gpt-5.3-codex：適合程式撰寫、除錯、重構與開發輔助。
claude-opus-4.6：適合高品質長文寫作、深度分析與複雜推理。
claude-sonnet-4.6：適合長文本整理、分析寫作、文件處理與知識問答。
deepseek-v3.2：適合一般生成、推理任務、內容整理與高性價比文字工作。
doubao-seed-2-0-pro：適合綜合文字任務、一般問答與文案生成。
doubao-seed-2.0-code：適合程式輔助、代碼生成與工程相關任務。
doubao-seed-2.0-lite：適合短文生成、快速回覆與輕量文字任務。
doubao-seed-2.0-mini：適合基礎問答、簡單客服與短內容輸出。
gemini 3 pro：適合多模態理解、綜合問答、創意整理與進階任務。
gemini-3-flash-preview：適合快速多模態任務與輕量輸出。
gemini-3.1-pro-preview：適合進階推理、綜合任務與長內容整理。
GLM-4.7：適合一般文字任務、問答與資料整理。
GLM-5：適合綜合型問答、生成與理解任務。
grok4.2：適合一般文字問答與綜合型任務。
Kimi-K2.5：適合長文整理、閱讀理解與資料濃縮。
MiniMax-M2.5：適合一般生成、內容整理與日常問答。
MiniMax-M2.7：適合綜合問答、內容生成與資料整理。
qwen3-max：適合綜合內容生成、文件理解、一般推理與內容工作。
qwen3-vl-flash：適合圖文理解、視覺輸入任務與輕量多模態情境。
qwen3-vl-plus：適合圖文整合任務與進階視覺理解。
qwen3.5：適合一般文字任務、內容生成與綜合問答。
qwen3.5-flash：適合快速輸出、低成本問答與輕量內容生成。
qwen3.5-plus：適合綜合生成、內容整理與一般任務。
seed-2-0-mini：適合輕量問答、簡單整理與短回應。

圖片模型

圖片模型主要用於插圖、社群素材、設計草圖、封面圖與視覺內容生成，適合需要快速產出視覺素材的人。

imagen 4 fast：適合快速生成視覺草圖、素材概念圖與社群圖片。
kling-image-o1：適合圖像生成、創意視覺與設計草圖。
kling-v3-omni-image：適合綜合圖像生成與多用途視覺內容。
nano banana2：適合輕量圖片生成與快速素材輸出。
qwen-image-2.0：適合一般插圖、社群素材與視覺草圖。
qwen-image-2.0-pro：適合設計提案、較高品質插圖與進階素材。
qwen-image-max：適合高品質主視覺、社群素材與插圖生成。
qwen-image-plus：適合綜合圖片生成與一般設計需求。
seedream-4.5：適合插圖、品牌視覺、社群素材與創意圖像。
seedream-5.0-lite：適合快速圖片草圖、輕量素材與概念視覺。
wan2.6-t2i：適合文字生成圖片、概念圖與素材圖。

影片模型

影片模型主要用於文字轉影片、圖片轉影片、短影音素材與動態內容製作，適合需要影音內容的人。

kling-v3：適合影片生成、動態內容與短影音素材。
seedance-1-5-pro：適合文生影片、短影音素材與動態廣告內容。
seedance-2.0：適合進階影片生成與動態內容製作。
veo 3.1：適合高規格影片生成與視覺內容製作。
wan2.5-i2v-preview：適合圖片轉影片、讓靜態畫面動起來。
wan2.6-i2v-flash：適合快速圖片轉影片與短影音素材生成。
wan2.6-r2v-flash：適合影片相關轉換與動態輸出任務。
wan2.6-t2v：適合文字轉影片、短影音與腳本視覺化。

模型分類常見問題

1. 我第一次接觸 AI 模型，應該先看哪一類？

如果你是第一次接觸 AI 模型，通常可以先從自己的需求出發，而不是先記模型名稱。想寫文章、做客服、整理資料、翻譯或寫程式，可以先看文字模型；想做插圖、社群素材、封面圖或設計草圖，可以先看圖片模型；想做短影音、文字轉影片或圖片轉影片，則可以先看影片模型。先看懂類型，再回頭看代表模型，通常會更容易入門。

2. 文字模型、圖片模型、影片模型差在哪裡？

三種模型最大的差別，在於它們主要處理的內容形式不同。文字模型主要處理文字輸入與文字輸出，常見於問答、摘要、翻譯、客服與程式輔助；圖片模型主要用來生成插圖、素材與視覺內容；影片模型則偏向文字轉影片、圖片轉影片與短影音內容製作。選模型時，先看自己要處理的是文字、圖片還是影片，通常會比先比品牌更有效率。

3. 模型越多是不是越難選？

不一定。模型多，代表你可以依照不同需求去分工，不一定要所有工作都只用同一個模型。真正的重點不是把所有模型都記住，而是先知道自己最常做的是哪一類任務，再從該類型裡看 2 到 3 個代表模型就好。對新手來說，先從用途分類開始，比直接看一大串模型名單更容易理解。

4. 我只想做內容創作，先看哪些模型就好？

如果你的需求主要是文章草稿、文案編修、標題發想、SEO 內容整理或社群貼文，建議先從文字模型開始看。這類任務通常會重視輸出自然度、長文穩定性與成本平衡，所以不需要一次看完所有模型，先挑幾個代表模型了解用途差異即可。先看懂哪一類模型適合內容輸出，比直接追最新型號更有幫助。

5. 看模型時一定要先懂價格和成本嗎？

不一定要一開始就研究很細，但至少要先有基本概念。因為不同模型不只能力不同，輸入與輸出的計費方式、長文處理需求與回應長度，也會影響整體使用成本。你可以先看懂模型類型和用途，再慢慢延伸到價格與 AI Token 成本，這樣會比一開始只盯著價格表更容易做出適合自己的選擇。

6. 我可以同時使用文字模型、圖片模型和影片模型嗎？

可以，而且很多實際工作流程本來就會把不同模型搭配使用。例如先用文字模型整理腳本，再用圖片模型做視覺素材，最後再用影片模型產出短影音內容。模型分類不是要把用途分死，而是幫你先看懂每一類模型最擅長的事情，之後再依需求組合使用。