← Tier.SC 메인

Feature Importance

마지막 수정: 2026-04-22 18:48 KST

Feature Importance 그래프는 모델이 무엇을 기준으로 판단하는지의 가장 직관적 요약이다. 지표 수치(AUC, LogLoss)가 "얼마나 잘 맞혔는가"라면, Importance는 "어떤 근거로 맞혔는가"를 보여준다는 점에서 같이 읽어야 의미가 살아난다.

각 피처가 트리 분할에 사용될 때마다 감소시킨 손실(gain)의 총합을 누적해, 학습 전반에서 그 피처의 기여도를 집계한다.

피처 이름 간단 참조

그래프의 Top 20 레이블은 표기 일관성을 위해 축약되었다. 주요 키는 아래와 같다.

계열 설명
BT_* Bradley-Terry 기반 기대승률·실력차 파생
h2h_* 양 선수 간 과거 상대 전적
recent_* 최근 N경기 승률·경기 수·휴식일
map_* 맵별 종족·선수 적합도
race_* 종족 상성 파생 지표

그래프

Feature Importance (Top 20)

  • 가로축: 전체 gain 대비 비중 (%)
  • 세로축: 피처 이름 (Top 20)
  • 막대 끝 주석: <비중>% · <분할 횟수>

해석 가이드

  • BT 기반 기대승률 계열이 상위권: 선수 실력 + 종족 상성 + 맵 효과를 종합한 BT 피처가 gain의 큰 몫을 차지한다. 이는 모델이 먼저 "실력 차이가 명확한 매치"를 걸러내고, 그 위에 맥락 보정을 얹는 구조임을 뒷받침한다.
  • 최근 폼·H2H·맵 승률 등 파생 피처: 중간 구간에 분포. 단독 기여는 크지 않지만 BT가 놓치는 변동을 흡수한다.
  • 분할 횟수(splits): gain이 비슷하더라도 split 수가 많으면 "여러 구간에 걸쳐 자주 쓰이는" 피처이고, split 수가 적은데 gain이 높으면 "특정 조건에서 강한 결정력을 갖는" 피처다.

Gain과 SHAP이 다른 상위를 지목할 때

두 지표가 서로 다른 피처를 맨 위에 올리면 해석이 달라진다.

  • Gain은 크고 SHAP은 작다 → 분할 기준으로는 유용하지만 개별 예측 방향성에 크게 기여하지 않음. 주로 "데이터 정렬용"으로 쓰이는 피처일 수 있다.
  • Gain은 작고 SHAP은 크다 → 특정 샘플 군에서 강하게 밀어내는 피처. 전체 평균으로 묻히지만 엣지 케이스에서 중요한 역할.

상세한 방향성 해석은 SHAP 분석 참조.

한계 — Gain 기반의 편향

  • 상관된 피처는 서로 Gain을 나눠 가진다. 실제로는 한 피처가 충분했을 수 있는데, 유사 피처 여러 개에 Gain이 분산되면 개별 순위가 낮아 보인다.
  • 절대 비교보다 상대 비교로 읽어야 한다. "A가 B보다 약 2배 중요"는 어느 정도 믿을 수 있지만, "A의 gain이 X%니까 모델 성능의 X%를 설명한다"는 해석은 성립하지 않는다.
  • 학습 데이터에 국한된 지표다. 새 시즌(버전)에서 분포가 바뀌면 순위도 바뀔 수 있다. 순위 안정성은 시즌(버전) 경계를 지난 뒤 재측정이 필요하다.