曲線擬合的陷阱

和它們各自傳達的(諷刺)訊息

1. 線性 (Linear)

「嘿,我做了一個迴歸唷。」

數學意義:

模型:簡單線性迴歸 (Simple Linear Regression)。

方程式: Y = β₀ + β₁X + ε

說明:最基礎的模型,假設自變數 X 和應變數 Y 之間存在直線關係。擬合方法通常是普通最小平方法 (OLS),目標是找到一條線,使所有點到線的垂直距離(殘差)的平方和最小。

分析:

標題的幽默在於,這像是統計學的「Hello, World!」。它暗示使用者可能只會這一招,無論數據型態如何,都先套用線性迴歸。

2. 二次曲線 (Quadratic)

「我想要一條曲線,所以用數學做了一條。」

數學意義:

模型:多項式迴歸 (Polynomial Regression)。

方程式: Y = β₀ + β₁X + β₂X² + ε

說明:當 X 與 Y 的關係呈現 U 型或倒 U 型時,加入 X 的平方項。這在數學上仍被視為「線性模型」,因為它是關於參數 β 的線性組合。

分析:

標題諷刺了使用者並非基於理論或數據探索來決定模型,而是出於「我就是想要一條曲線」的主觀願望,隨意添加了二次項。

3. 對數 (Logarithmic)

「看,它逐漸趨緩了!」

數學意義:

模型:對數模型 (Logarithmic Model)。

方程式: Y = β₀ + β₁log(X) + ε

說明:Y 隨 X 增加而增加,但增加的「速率」遞減。完美地描述了邊際報酬遞減 (Diminishing Marginal Returns) 的現象,例如學習曲線。

分析:

標題在這裡準確地描述了模型的數學特性,常用於描述飽和效應。

4. 指數 (Exponential)

「看,它失控地爬升了!」

數學意義:

模型:指數模型 (Exponential Model)。

方程式: Y = β₀eβ₁X + ε

說明:Y 的「成長率」是固定的,導致 Y 的「絕對成長量」隨 Y 本身變大而加速。常用於描述病毒傳播初期、複利效應等。

分析:

標題「失控地爬升」生動地描繪了指數成長的特性。

5. LOESS (局部加權)

「我很有品味,不像那些亂用多項式的人。」

數學意義:

模型:LOESS (Locally Estimated Scatterplot Smoothing)。

說明:一種非參數 (Non-parametric) 迴歸。它不假定全域的數學方程式,而是在 $X$ 軸的每一個點周圍取一個「局部鄰域」,然後對鄰域內的點進行加權迴歸,最後將結果連起來。

分析:

標題諷刺了使用者自以為是地使用更複雜的方法來顯得「有品味」,但如果參數(如 Span)設定不當,結果可能比簡單模型更糟,只是在擬合雜訊。

6. 線性,斜率為零

「我在畫散佈圖,但我並不想要。」

數學意義:

模型:線性迴歸的虛無假設 (Null Hypothesis) 為真。

方程式: Y = β₀ + ε (因為 β₁ ≈ 0)

說明:當斜率 β₁ 在統計上不顯著(p-value 很高),表示 X 與 Y 之間沒有線性關係。Y 的最佳預測值就是 Y 的平均數,即一條水平線。

分析:

標題的無奈感,來自於研究者期望發現 X 和Y 之間的顯著關係,但數據顯示兩者毫無關聯。

7. 羅吉斯特 (Logistic)

「我需要連接這兩條線,但我的第一個構想不夠數學。」

數學意義:

模型:羅吉斯特成長模型 (Logistic Growth Model)。

方程式: Y = L / (1 + e-k(X - X₀))

說明:描述一種 S 型曲線。起初緩慢成長,中間快速成長,最後又趨緩並接近上限 L (承載容量)。常用於人口成長、市場滲透率等有容量限制的情境。

分析:

標題暗示使用者可能只是因為看到數據有兩個「平台」(初期和後期),就硬套用這個 S 型曲線,而不是基於實際的生長機制。

8. 線性 + 信賴區間

「看我多謹慎,我還加上了不確定性。」

數學意義:

模型:線性迴歸 + 信賴區間 (Confidence Interval)。

說明:信賴區間代表「我們對『迴歸線的真實位置』的不確定性」。這通常比預測區間(Prediction Interval)還窄。

分析:

標題諷刺了使用者在添加信賴區間後,就認為自己的分析變得「嚴謹」了。然而,模型選擇錯誤(比如忽略曲線趨勢)時,信賴區間只是對「錯誤模型」的不確定性估計,毫無意義。

9. 分段 (Piecewise)

「哇!這是一個『結構性變化』!」

數學意義:

模型:分段迴歸 (Piecewise Regression)。

說明:在不同的 X 值範圍使用不同的方程式。適用於有「斷點」(Breakpoint/Knot) 的情況,例如政策改變前後。

分析:

標題的諷刺在於,數據本身可能只是隨機雜訊,使用者卻宣稱找到了「結構性變化」的證據,並用分段模型強行解釋。這在社會科學中經常被誤用。

10. 點連接 (Connect the Dots)

「這就是 Excel 在『加入趨勢線』時做的事,對吧?」

數學意義:

模型:無 (這不是迴歸,只是視覺化)。

說明:單純將數據點按 X 軸順序連起來。這不是統計模型,也不能進行推論或預測。

分析:

標題諷刺了對工具的誤解。Excel 的「加入趨勢線」功能會進行真正的迴歸,但有些人誤以為它只是「連點成線」,導致對結果的錯誤理解。此外,逐點連接也是「過度擬合」的極端例子。

11. 臨時過濾 (Ad-hoc Filtering)

「這些離群值妨礙了我想說的故事。」

數學意義:

模型:任意標準 (Arbitrary Criteria)。

說明:在沒有充分理論或先驗理由的情況下,移除「不符合預期」的數據點。這可能嚴重扭曲結果,違反統計推論的基本原則。

分析:

標題暴露了一種常見的學術不端:p-hacking數據挑選 (Cherry-picking)。這種作法讓「統計顯著」變得毫無意義,因為結論是被刻意製造的,而非從數據中客觀得出。

12. 紙牌屋 (House of Cards)

「刪掉那個點,整個模型就垮了。」

數學意義:

模型:由高槓桿點 (High Leverage Point) 驅動的迴歸。

說明:槓桿點是指 X 值遠離其他數據點的觀察值。如果這個點同時也是離群值(殘差很大),它就會不成比例地「拉扯」迴歸線,成為「有影響力的點」(Influential Point)。

分析:

標題「紙牌屋」形象地描述了這類模型的脆弱性:刪除一個點就會導致結論完全改變。這在統計上是不穩健 (Not Robust) 的,也凸顯了在擬合前進行數據探索和診斷檢查的重要性。