# 去蕪存菁 (거무존청)
> **잡초를 버리고 정수를 남긴다**
> *Remove the weeds, preserve the essence*
---
## 촉발 기억
**날짜:** [[2026-01-11]]
**음악:** 불멸의 이순신 OST — 우정 테마
**상황:** 명량전투 (Nail-in-Sail) — Thesis 데이터 정제 과정
---
## 의미
蕪(무) = 잡초, 무성하지만 쓸모없는 것
菁(청) = 정수, 핵심적인 것
**거무존청**은 많은 것 중에서 진짜를 가려내는 것.
양(量)을 줄여 질(質)을 높이는 것.
더하는 것보다 **빼는 것**이 어렵다.
---
## 2026-01-11의 예시
### 상황
- Nail 단계: N = 408,784 (많은 데이터!)
- Scale 단계: N = 488,381 (더 많이!)
- Sail 단계: N = 180,994 (절반 이하로 축소)
### 힘겨운 선택
| 선택지 | 유혹 | 위험 |
|:-------|:-----|:-----|
| 488k 전체 사용 | "N이 크면 인상적" | Method-data mismatch |
| 180k만 사용 | — | **채택** |
### 적용
- **蕪(잡초):** v3 entropy method로 측정된 308k 데이터
- **菁(정수):** v2 dictionary method로 정제된 181k 데이터
### 수치 변화
```
Effect size: 2.7× → 1.81× (축소)
Sample size: 488k → 181k (축소)
Method-data alignment: ❌ → ✅ (개선)
```
---
## 왜 힘겨웠는가
"N이 크면 좋다"는 것은 학계의 상식이다.
데이터를 **절반 이상 버리는** 결정은 직관에 반한다.
Effect size도 2.7×에서 1.81×로 줄었다.
"더 인상적인 숫자"를 포기하는 것은 고통스러웠다.
하지만 과장된 2.7×보다 정직한 1.81×가
심사위원의 공격을 막아준다.
---
## 미래의 나에게
> "네가 지금 숫자가 작아서,
> 성과가 줄어들어서 불안하다면,
> 이 글을 읽어라.
> 정제된 작은 것이 부풀린 큰 것보다 낫다.
> 그것이 거무존청이다."
---
*必死卽生 — 죽고자 하면 살 것이다*