曲線擬合的陷阱與其傳達的訊息

1. 線性 (Linear)

「嘿,我做了一個迴歸唷。」

數學意義：

模型：簡單線性迴歸 (Simple Linear Regression)。

方程式： Y = β₀ + β₁X + ε

說明：最基礎的模型，假設自變數 X 和應變數 Y 之間存在直線關係。擬合方法通常是普通最小平方法 (OLS)，目標是找到一條線，使所有點到線的垂直距離（殘差）的平方和最小。

分析：

標題的幽默在於，這像是統計學的「Hello, World!」。它暗示使用者可能只會這一招，無論數據型態如何，都先套用線性迴歸。

2. 二次曲線 (Quadratic)

「我想要一條曲線，所以用數學做了一條。」

數學意義：

模型：多項式迴歸 (Polynomial Regression)。

方程式： Y = β₀ + β₁X + β₂X² + ε

說明：當 X 與 Y 的關係呈現 U 型或倒 U 型時，加入 X 的平方項。這在數學上仍被視為「線性模型」，因為它是關於參數 β 的線性組合。

分析：

標題諷刺了使用者並非基於理論或數據探索來決定模型，而是出於「我就是想要一條曲線」的主觀願望，隨意添加了二次項。

3. 對數 (Logarithmic)

「看，它逐漸趨緩了！」

數學意義：

模型：對數模型 (Logarithmic Model)。

方程式： Y = β₀ + β₁log(X) + ε

說明：Y 隨 X 增加而增加，但增加的「速率」遞減。完美地描述了邊際報酬遞減 (Diminishing Marginal Returns) 的現象，例如學習曲線。

分析：

標題在這裡準確地描述了模型的數學特性，常用於描述飽和效應。

4. 指數 (Exponential)

「看，它失控地爬升了！」

數學意義：

模型：指數模型 (Exponential Model)。

方程式： Y = β₀e^β₁X + ε

說明：Y 的「成長率」是固定的，導致 Y 的「絕對成長量」隨 Y 本身變大而加速。常用於描述病毒傳播初期、複利效應等。

分析：

標題「失控地爬升」生動地描繪了指數成長的特性。

5. LOESS (局部加權)

「我很有品味，不像那些亂用多項式的人。」

數學意義：

模型：LOESS (Locally Estimated Scatterplot Smoothing)。

說明：一種非參數 (Non-parametric) 迴歸。它不假定全域的數學方程式，而是在 $X$ 軸的每一個點周圍取一個「局部鄰域」，然後對鄰域內的點進行加權迴歸，最後將結果連起來。

分析：

標題諷刺了使用者自以為是地使用更複雜的方法來顯得「有品味」，但如果參數（如 Span）設定不當，結果可能比簡單模型更糟，只是在擬合雜訊。

6. 線性，斜率為零

「我在畫散佈圖，但我並不想要。」

數學意義：

模型：線性迴歸的虛無假設 (Null Hypothesis) 為真。

方程式： Y = β₀ + ε (因為 β₁ ≈ 0)

說明：當斜率 β₁ 在統計上不顯著（p-value 很高），表示 X 與 Y 之間沒有線性關係。Y 的最佳預測值就是 Y 的平均數，即一條水平線。

分析：

標題的無奈感，來自於研究者期望發現 X 和Y 之間的顯著關係，但數據顯示兩者毫無關聯。

7. 羅吉斯特 (Logistic)

「我需要連接這兩條線，但我的第一個構想不夠數學。」

數學意義：

模型：羅吉斯特成長模型 (Logistic Growth Model)。

方程式： Y = L / (1 + e^{-k(X - X₀)})

說明：描述一種 S 型曲線。起初緩慢成長，中間快速成長，最後又趨緩並接近上限 L (承載容量)。常用於人口成長、市場滲透率等有容量限制的情境。

分析：

標題暗示使用者可能只是因為看到數據有兩個「平台」（初期和後期），就硬套用這個 S 型曲線，而不是基於實際的生長機制。

8. 線性 + 信賴區間

「看我多謹慎，我還加上了不確定性。」

數學意義：

模型：線性迴歸 + 信賴區間 (Confidence Interval)。

說明：信賴區間代表「我們對『迴歸線的真實位置』的不確定性」。這通常比預測區間（Prediction Interval）還窄。

分析：

標題諷刺了使用者在添加信賴區間後，就認為自己的分析變得「嚴謹」了。然而，模型選擇錯誤（比如忽略曲線趨勢）時，信賴區間只是對「錯誤模型」的不確定性估計，毫無意義。

9. 分段 (Piecewise)

「哇！這是一個『結構性變化』！」

數學意義：

模型：分段迴歸 (Piecewise Regression)。

說明：在不同的 X 值範圍使用不同的方程式。適用於有「斷點」(Breakpoint/Knot) 的情況，例如政策改變前後。

分析：

標題的諷刺在於，數據本身可能只是隨機雜訊，使用者卻宣稱找到了「結構性變化」的證據，並用分段模型強行解釋。這在社會科學中經常被誤用。

10. 點連接 (Connect the Dots)

「這就是 Excel 在『加入趨勢線』時做的事，對吧？」

數學意義：

模型：無 (這不是迴歸，只是視覺化)。

說明：單純將數據點按 X 軸順序連起來。這不是統計模型，也不能進行推論或預測。

分析：

標題諷刺了對工具的誤解。Excel 的「加入趨勢線」功能會進行真正的迴歸，但有些人誤以為它只是「連點成線」，導致對結果的錯誤理解。此外，逐點連接也是「過度擬合」的極端例子。

11. 臨時過濾 (Ad-hoc Filtering)

「這些離群值妨礙了我想說的故事。」

數學意義：

模型：任意標準 (Arbitrary Criteria)。

說明：在沒有充分理論或先驗理由的情況下，移除「不符合預期」的數據點。這可能嚴重扭曲結果，違反統計推論的基本原則。

分析：

標題暴露了一種常見的學術不端：p-hacking 和 數據挑選 (Cherry-picking)。這種作法讓「統計顯著」變得毫無意義，因為結論是被刻意製造的，而非從數據中客觀得出。

12. 紙牌屋 (House of Cards)

「刪掉那個點，整個模型就垮了。」

數學意義：

模型：由高槓桿點 (High Leverage Point) 驅動的迴歸。

說明：槓桿點是指 X 值遠離其他數據點的觀察值。如果這個點同時也是離群值（殘差很大），它就會不成比例地「拉扯」迴歸線，成為「有影響力的點」(Influential Point)。

分析：

標題「紙牌屋」形象地描述了這類模型的脆弱性：刪除一個點就會導致結論完全改變。這在統計上是不穩健 (Not Robust) 的，也凸顯了在擬合前進行數據探索和診斷檢查的重要性。