是什麼讓縮圖爆紅?
不是憑感覺,也不是所謂的「最佳實踐」。而是**數據**。
我們從 12 個不同的領域中,挑選了 100 個觀看次數突破 1000 萬次的 YouTube 影片縮圖,並透過 FlowDx 的三引擎分析流程(DeepGaze IIE 注意力預測 + 認知活化 + Gemini vision AI)進行處理,以尋找統計學上的規律。
結果驚人地一致。儘管這些縮圖來自截然不同的創作者和類別,但**爆紅縮圖都具備 7 個可測量的模式**,而大多數普通縮圖都違反了這些規則。
數據集
| 類別 | 樣本影片數 | 平均觀看次數 | 平均點閱率 (預估) |
|---|---|---|---|
| MrBeast 風格娛樂 | 15 | 8900 萬 | 12.5% |
| 科技評論 (MKBHD, LTT) | 12 | 1800 萬 | 8.2% |
| 遊戲 (PewDiePie, Dream) | 10 | 3100 萬 | 9.1% |
| 教育 (Veritasium, 3Blue1Brown) | 10 | 2200 萬 | 10.5% |
| 美妝 (James Charles, NikkieTutorials) | 8 | 1500 萬 | 7.8% |
| 烹飪 (Joshua Weissman, Babish) | 8 | 1200 萬 | 8.5% |
| 商業/金融 | 8 | 800 萬 | 7.2% |
| 科學/解說 | 8 | 2500 萬 | 11.0% |
| 音樂/表演 | 7 | 4500 萬 | 5.5% |
| 運動/健身 | 6 | 900 萬 | 6.8% |
| 新聞/評論 | 4 | 700 萬 | 9.5% |
| DIY/教學 | 4 | 1100 萬 | 7.0% |
模式 #1:單一主導主體 (94% 的爆紅縮圖)
在 100 個爆紅縮圖中,有 94 個具有**一個明顯的主導視覺元素**,佔據了畫面的 40-70%。不是兩個,也不是三個,就是一個。
當我們運行注意力熱點圖時,爆紅縮圖顯示出緊湊且集中的「熱區」——通常是覆蓋在主要主體上的單一紅色區塊。相比之下,普通縮圖的注意力往往分散在多個元素上。
科學原理: Desimone & Duncan (1995) 在其極具影響力的 Annual Review of Neuroscience 論文中將此描述為「偏向競爭 (biased competition)」——視覺刺激會競爭神經表徵,而單一的主導刺激比多個競爭刺激能更快獲得處理資源。
FlowDx 視覺焦點評分: 爆紅縮圖平均為 82/100。對照組(觀看次數小於 100 萬的隨機縮圖):48/100。
模式 #2:臉部佔據畫面 30-50% (87%)
87% 的爆紅縮圖包含人臉,且臉部佔據了總畫面面積的 30-50%。不是全螢幕自拍(太近,缺乏情境),也不是雜亂場景中的小臉(太小,無法觸發 FFA)。
最理想的範圍是人像攝影師所說的「中特寫 (medium close-up)」——包含頭部和肩膀,並留有放置情境和文字的空間。
科學原理: Kanwisher et al. (1997) 證實了梭狀臉部區 (fusiform face area) 會在 170 毫秒內做出反應。但尺寸很重要——Calvo & Nummenmaa (2016) 在 Cognition & Emotion 研究中發現,情緒表達需要足夠的視覺角度才能觸發杏仁核的全面活化。
FlowDx 情緒衝擊評分: 臉部佔比 30-50% 的縮圖平均為 76/100。臉部佔比低於 15% 者:41/100。
模式 #3:高喚起情緒表現 (83%)
在 87 個有臉部的縮圖中,83% 展現了高喚起 (high-arousal) 的情緒:驚訝(張嘴、瞪大眼)、興奮、震驚或極度專注。只有 4% 展現了平淡的表情。
最常見的爆紅表情是:張嘴驚訝,出現在 41% 的縮圖中。這並非巧合——Whalen et al. (2004) 的研究顯示,驚訝的表情比任何其他基本情緒(甚至包括恐懼)更能強烈地活化杏仁核。
模式 #4:最多 3 個單詞,95% 以上對比度 (79%)
79% 的爆紅縮圖使用了 1-3 個文字單詞。不是零(文字能提供圖像無法單獨傳達的情境),但也絕不超過 5 個(在手機螢幕上會難以辨識)。
文字與背景之間總是保持極高的對比度——使用粗筆劃、外陰影或文字後方的純色區塊。當我們測量對比度時,爆紅縮圖的文字平均達到 8.2:1,遠高於 WCAG AA 標準的 4.5:1。
科學原理: Pelli & Tillman (2008) 在 Journal of Vision 中指出,當對比度低於 3:1 時,閱讀速度會大幅下降,而小尺寸的字元辨識至少需要 5:1。
模式 #5:與平台介面互補的顏色 (72%)
72% 的爆紅縮圖使用了與 YouTube 白色/淺灰色介面形成對比的顏色。最常見的是:以暖色系(紅、橘、黃)為主色,這在 YouTube 冷中性調的 UI 中非常顯眼。
有趣的是,點閱率前 20% 的縮圖在縮圖內部使用了互補色對(紅+青、橘+藍、黃+紫),創造出引導視覺的內部對比。
科學原理: 顏色對比是最強大的自下而上 (bottom-up) 顯著性訊號之一,正如 Itti & Koch (2001) 所確立的。視覺皮層的 V4 區域專門負責偵測顏色邊界。
模式 #6:明確的前後對比或比例反差 (68%)
68% 的爆紅縮圖利用某種形式的視覺對比來激發興趣:
- 前後對比 (Before/After) (35%):兩個狀態並列(小→大、醜→美、壞→好)
- 比例反差 (Scale contrast) (18%):在參考物旁放置出乎意料巨大或微小的東西
- 並置 (Juxtaposition) (15%):兩個不相干的東西放在一起
科學原理: 這直接對應了 Loewenstein (1994) 的訊息落差理論 (Information Gap Theory)。視覺對比創造了一個隱含的問題:「它是怎麼改變的?」、「為什麼這些東西會在一起?」大腦解決這個落差的唯一方法就是點擊。
模式 #7:關鍵元素周圍零雜訊 (91%)
91% 的爆紅縮圖在主要主體和任何文字元素周圍都有清晰的負空間(或至少 20px 的間距)。沒有任何視覺「雜訊」會干擾關鍵訊息的傳達。
這是格式塔鄰近原則 (Gestalt principle of proximity) 的應用——視覺上孤立的元素會獲得更多的個體注意力。當元素過於擁擠時,大腦會將其視為一個群體處理,從而減少對每個元素的關注。
FlowDx 注意力評分: 間距清晰的縮圖平均為 79/100。雜亂的縮圖:35/100。
綜合「爆紅縮圖」評分
我們根據這 7 個模式建立了一個綜合評分,並比較了爆紅影片與一般影片:
| 指標 | 爆紅 (1000 萬+ 觀看) | 一般 (小於 100 萬觀看) | 差異 |
|---|---|---|---|
| FlowDx 注意力評分 | 79 | 42 | +88% |
| FlowDx 視覺焦點 | 82 | 48 | +71% |
| FlowDx 情緒衝擊 | 76 | 39 | +95% |
| FlowDx 行動驅動力 | 71 | 44 | +61% |
| FlowDx 記憶強度 | 68 | 38 | +79% |
| 總分 | 75 | 42 | +79% |
FlowDx 總分達到 70+ 表示你已進入「爆紅預備區」。低於 50 則意味著你有根本性的問題需要修正。
如何應用這些模式
你不需要模仿 MrBeast 的風格。這 7 個模式適用於所有領域,因為它們是基於人類視覺系統的運作方式,而非特定的審美。以下是檢查清單:
- 單一主導主體(佔畫面的 40-70%)
- 若適用,臉部佔 30-50%,且具備高能量表情
- 1-3 個文字單詞,對比度 8:1 以上
- 在 YouTube 動態中顯眼的顏色
- 視覺對比(前後對比、比例、並置)
- 關鍵元素周圍留出清晰空間
- 上傳至 FlowDx 並以各維度 70+ 為目標
常見問題
這些模式適用於 YouTube Shorts 縮圖嗎?
部分適用。模式 1-3(主導主體、臉部、表情)非常適用。但 Shorts 縮圖是垂直的且通常從影片中選取,因此設計控制權較少。關鍵在於讓你的第一幀發揮作用——它就是你的縮圖。
如果臉部不適合我的領域(如烹飪、科技、遊戲)怎麼辦?
臉部模式適用於 87% 的爆紅縮圖,而非 100%。在以產品、食物或遊戲畫面為主體的領域中,「單一主導主體」模式 (94%) 顯得更為關鍵。一張令人驚豔的產品照或食物特寫可以取代臉部——只要它能觸發相同的情緒反應。
這不就是「標題黨 (Clickbait)」嗎?
標題黨是指縮圖承諾了影片無法提供的內容。而這些模式是關於**有效的視覺溝通**——確保你的縮圖能以吸引人的方式準確代表你的內容。最好的縮圖是誠實且具備視覺吸引力的縮圖。
你是如何預估非自有影片的點閱率 (CTR) 的?
我們結合了創作者訪談中公開的分析數據、Social Blade 數據以及行業基準。個別點閱率數字為預估值——模式和 FlowDx 評分則是基於直接分析得出。
參考文獻
- Desimone, R., & Duncan, J. (1995). Neural mechanisms of selective visual attention. Annual Review of Neuroscience, 18, 193-222.
- Kanwisher, N. et al. (1997). The fusiform face area. Journal of Neuroscience.
- Calvo, M. G., & Nummenmaa, L. (2016). Perceptual and affective mechanisms in facial expression recognition. Cognition & Emotion.
- Whalen, P. J. et al. (2004). Human amygdala responsivity to masked fearful eye whites. Science.
- Pelli, D. G., & Tillman, K. A. (2008). The uncrowded window of object recognition. Nature Neuroscience.
- Itti, L., & Koch, C. (2001). Computational modelling of visual attention. Nature Reviews Neuroscience.
- Loewenstein, G. (1994). The psychology of curiosity. Psychological Bulletin.
- Laws of UX. Law of Proximity.