# 去蕪存菁 (거무존청) > **잡초를 버리고 정수를 남긴다** > *Remove the weeds, preserve the essence* --- ## 촉발 기억 **날짜:** [[2026-01-11]] **음악:** 불멸의 이순신 OST — 우정 테마 **상황:** 명량전투 (Nail-in-Sail) — Thesis 데이터 정제 과정 --- ## 의미 蕪(무) = 잡초, 무성하지만 쓸모없는 것 菁(청) = 정수, 핵심적인 것 **거무존청**은 많은 것 중에서 진짜를 가려내는 것. 양(量)을 줄여 질(質)을 높이는 것. 더하는 것보다 **빼는 것**이 어렵다. --- ## 2026-01-11의 예시 ### 상황 - Nail 단계: N = 408,784 (많은 데이터!) - Scale 단계: N = 488,381 (더 많이!) - Sail 단계: N = 180,994 (절반 이하로 축소) ### 힘겨운 선택 | 선택지 | 유혹 | 위험 | |:-------|:-----|:-----| | 488k 전체 사용 | "N이 크면 인상적" | Method-data mismatch | | 180k만 사용 | — | **채택** | ### 적용 - **蕪(잡초):** v3 entropy method로 측정된 308k 데이터 - **菁(정수):** v2 dictionary method로 정제된 181k 데이터 ### 수치 변화 ``` Effect size: 2.7× → 1.81× (축소) Sample size: 488k → 181k (축소) Method-data alignment: ❌ → ✅ (개선) ``` --- ## 왜 힘겨웠는가 "N이 크면 좋다"는 것은 학계의 상식이다. 데이터를 **절반 이상 버리는** 결정은 직관에 반한다. Effect size도 2.7×에서 1.81×로 줄었다. "더 인상적인 숫자"를 포기하는 것은 고통스러웠다. 하지만 과장된 2.7×보다 정직한 1.81×가 심사위원의 공격을 막아준다. --- ## 미래의 나에게 > "네가 지금 숫자가 작아서, > 성과가 줄어들어서 불안하다면, > 이 글을 읽어라. > 정제된 작은 것이 부풀린 큰 것보다 낫다. > 그것이 거무존청이다." --- *必死卽生 — 죽고자 하면 살 것이다*