和它們各自傳達的(諷刺)訊息
「嘿,我做了一個迴歸唷。」
模型:簡單線性迴歸 (Simple Linear Regression)。
方程式: Y = β₀ + β₁X + ε
說明:最基礎的模型,假設自變數 X 和應變數 Y 之間存在直線關係。擬合方法通常是普通最小平方法 (OLS),目標是找到一條線,使所有點到線的垂直距離(殘差)的平方和最小。
標題的幽默在於,這像是統計學的「Hello, World!」。它暗示使用者可能只會這一招,無論數據型態如何,都先套用線性迴歸。
「我想要一條曲線,所以用數學做了一條。」
模型:多項式迴歸 (Polynomial Regression)。
方程式: Y = β₀ + β₁X + β₂X² + ε
說明:當 X 與 Y 的關係呈現 U 型或倒 U 型時,加入 X 的平方項。這在數學上仍被視為「線性模型」,因為它是關於參數 β 的線性組合。
標題諷刺了使用者並非基於理論或數據探索來決定模型,而是出於「我就是想要一條曲線」的主觀願望,隨意添加了二次項。
「看,它逐漸趨緩了!」
模型:對數模型 (Logarithmic Model)。
方程式: Y = β₀ + β₁log(X) + ε
說明:Y 隨 X 增加而增加,但增加的「速率」遞減。完美地描述了邊際報酬遞減 (Diminishing Marginal Returns) 的現象,例如學習曲線。
標題在這裡準確地描述了模型的數學特性,常用於描述飽和效應。
「看,它失控地爬升了!」
模型:指數模型 (Exponential Model)。
方程式: Y = β₀eβ₁X + ε
說明:Y 的「成長率」是固定的,導致 Y 的「絕對成長量」隨 Y 本身變大而加速。常用於描述病毒傳播初期、複利效應等。
標題「失控地爬升」生動地描繪了指數成長的特性。
「我很有品味,不像那些亂用多項式的人。」
模型:LOESS (Locally Estimated Scatterplot Smoothing)。
說明:一種非參數 (Non-parametric) 迴歸。它不假定全域的數學方程式,而是在 $X$ 軸的每一個點周圍取一個「局部鄰域」,然後對鄰域內的點進行加權迴歸,最後將結果連起來。
標題諷刺了使用者自以為是地使用更複雜的方法來顯得「有品味」,但如果參數(如 Span)設定不當,結果可能比簡單模型更糟,只是在擬合雜訊。
「我在畫散佈圖,但我並不想要。」
模型:線性迴歸的虛無假設 (Null Hypothesis) 為真。
方程式: Y = β₀ + ε (因為 β₁ ≈ 0)
說明:當斜率 β₁ 在統計上不顯著(p-value 很高),表示 X 與 Y 之間沒有線性關係。Y 的最佳預測值就是 Y 的平均數,即一條水平線。
標題的無奈感,來自於研究者期望發現 X 和Y 之間的顯著關係,但數據顯示兩者毫無關聯。
「我需要連接這兩條線,但我的第一個構想不夠數學。」
模型:羅吉斯特成長模型 (Logistic Growth Model)。
方程式: Y = L / (1 + e-k(X - X₀))
說明:描述一種 S 型曲線。起初緩慢成長,中間快速成長,最後又趨緩並接近上限 L (承載容量)。常用於人口成長、市場滲透率等有容量限制的情境。
標題暗示使用者可能只是因為看到數據有兩個「平台」(初期和後期),就硬套用這個 S 型曲線,而不是基於實際的生長機制。
「看我多謹慎,我還加上了不確定性。」
模型:線性迴歸 + 信賴區間 (Confidence Interval)。
說明:信賴區間代表「我們對『迴歸線的真實位置』的不確定性」。這通常比預測區間(Prediction Interval)還窄。
標題諷刺了使用者在添加信賴區間後,就認為自己的分析變得「嚴謹」了。然而,模型選擇錯誤(比如忽略曲線趨勢)時,信賴區間只是對「錯誤模型」的不確定性估計,毫無意義。
「哇!這是一個『結構性變化』!」
模型:分段迴歸 (Piecewise Regression)。
說明:在不同的 X 值範圍使用不同的方程式。適用於有「斷點」(Breakpoint/Knot) 的情況,例如政策改變前後。
標題的諷刺在於,數據本身可能只是隨機雜訊,使用者卻宣稱找到了「結構性變化」的證據,並用分段模型強行解釋。這在社會科學中經常被誤用。
「這就是 Excel 在『加入趨勢線』時做的事,對吧?」
模型:無 (這不是迴歸,只是視覺化)。
說明:單純將數據點按 X 軸順序連起來。這不是統計模型,也不能進行推論或預測。
標題諷刺了對工具的誤解。Excel 的「加入趨勢線」功能會進行真正的迴歸,但有些人誤以為它只是「連點成線」,導致對結果的錯誤理解。此外,逐點連接也是「過度擬合」的極端例子。
「這些離群值妨礙了我想說的故事。」
模型:任意標準 (Arbitrary Criteria)。
說明:在沒有充分理論或先驗理由的情況下,移除「不符合預期」的數據點。這可能嚴重扭曲結果,違反統計推論的基本原則。
標題暴露了一種常見的學術不端:p-hacking 和 數據挑選 (Cherry-picking)。這種作法讓「統計顯著」變得毫無意義,因為結論是被刻意製造的,而非從數據中客觀得出。
「刪掉那個點,整個模型就垮了。」
模型:由高槓桿點 (High Leverage Point) 驅動的迴歸。
說明:槓桿點是指 X 值遠離其他數據點的觀察值。如果這個點同時也是離群值(殘差很大),它就會不成比例地「拉扯」迴歸線,成為「有影響力的點」(Influential Point)。
標題「紙牌屋」形象地描述了這類模型的脆弱性:刪除一個點就會導致結論完全改變。這在統計上是不穩健 (Not Robust) 的,也凸顯了在擬合前進行數據探索和診斷檢查的重要性。