이론 문서 (PDF)

Tier.SC 평가 알고리즘의 수학적 배경을 별도 PDF로 정리해 두었다. 온라인에서 바로 읽거나 다운로드할 수 있다.

대상: 모델 설계·수식 유도에 관심 있는 독자
포맷: PDF (영문, 수식·증명 포함)
갱신: 모델 구조가 변경될 때만 개정

문서가 다루는 범위

본 문서는 단순한 실력 추정(latent skill estimation) 알고리즘의 설명서가 아니라, 폐쇄된 리그 환경에서 요구되는 운영 제약을 점수 합성(score synthesis) 문제로 재정의한 뒤, 이를 풀어내는 수학적 프레임워크 전반을 다룬다. 본문 8개 섹션과 부록 2개로 구성된다.

1. Introduction — 비-강등(non-demotion) 규범, 폐쇄 인구의 드리프트, 맥락 비대칭이라는 세 요구사항이 고전적 Elo·Glicko·Bradley–Terry와 구조적으로 충돌하는 이유
2. Pairwise Comparison Objective under Policy Constraints — Bradley–Terry 스타일 손실 위에 정책 정규화항(비강등 barrier·앵커 pull)을 결합한 목적함수 J(θ,β,ρ) = L_data − λ_demotion R_demotion − λ_anchor R_anchor
3. System Architecture and Optimization — "업데이트 생성"과 "행동 해석"을 구조적으로 분리, Diagonal-Hessian Newton step에 정책력(Policy Force)을 가법적으로 주입하는 Hybrid Dynamics
4. Graph-Theoretic Anchoring as Soft Gauge — 최근 30일 대진 그래프에서 PageRank 상위 k% 플레이어를 동적 앵커로 선정해 내부 스케일을 고정(μ_ref = 16.0), 사후 정규화(post-hoc normalization)와 구별되는 soft gauge fixing 관점에서 해석
5. Contextual Inference and Bias — 실력(θ)·전역 바이어스(β: 맵 승률 등)·상호작용항(ρ: 선수-맥락 적합도)의 가법적 GLM 구조, RMSProp + Meta-Cyclic Decay로 비정상성(non-stationarity)에 적응, Race matchup은 zero-sum 제약 하 baseline-preserving
6. Barrier-Mediated Non-Demotion — Dynamic Hard-Soft Ratchet 메커니즘으로 바닥 근처에서는 비대칭 로그 장벽이 강해지다가 임계 근접 시 Hard Saturation(F_max = 50)에 고정, Momentum-Modulated Gain + Veteran Breakout Protocol
7. The Metrics Engine: Behavioral Topology — 본 레이팅과는 분리된 사후 해석층. Entropy 기반 반-게이밍(anti-gaming) 필터, Momentum Index, Performance over Expectation (PoE), Stability Index, Clutch(Beta(2,2) 수축), All-round Power(Quadratic Diversity Factor 보정)
8. Conclusion — "Constraint-Regularized, Context-Aware, Multi-Objective Architecture"로서의 총괄
Appendix A — 5가지 설계 트레이드오프 (적응성 vs 안정성, MAP 효율성, 제약의 prior 재해석, 생태계 안정성, 해석 한계)
Appendix B — shift-mode 억제·PoE 불편성 등 수학적 안정성 증명

문서 핵심요약

1. 근본적 재프레이밍: "실력 추정"이 아닌 "정책 제약 하 점수 합성"

문서의 가장 중요한 주장은, 본 시스템을 latent skill의 통계적 추정기로 보지 않는다는 것이다. 대신 "폐쇄된 생태계 안에서 역사적 결과를 안정적 점수로 변환하는 정책 제약 합성기"로 정의한다. 이 재정의가 이후 모든 수식 선택의 공통 근거다 — Elo·Glicko류가 symmetric한 상·하 이동을 전제로 하는 반면, 본 시스템은 비대칭 업데이트 저항을 설계 시작점에 둔다.

2. Hybrid Update: "구조적 안정"과 "단기 반응성"의 분리

Riemannian 관점의 Diagonal-Hessian Newton step을 통계적 축으로 두고, 비강등 장벽과 앵커 pull을 정책적 축의 가법적 force로 주입한다. 여기에 Momentum-Modulated Scheduling으로 게인 k_dyn(t)을 동적으로 조정한다. 결과적으로 "점수 체계가 한쪽 축으로 쏠려 붕괴하지 않으면서도, 최근 폼의 변화에는 반응" 하는 이중 구조가 확보된다.

3. Soft Gauge: PageRank 기반 앵커링으로 드리프트 제어

소규모 폐쇄 인구에서는 상위권 일부가 이탈만 해도 전체 스케일이 크게 흔들린다. 문서는 최근 대진 그래프의 PageRank 중심성으로 구조적 "다리(bridge)" 역할을 하는 플레이어를 동적 앵커로 뽑고, 이들의 평균 점수를 μ_ref = 16.0에 부드럽게 당기는 정규화항으로 드리프트를 흡수한다. 사후에 평균을 강제로 맞추는 방식이 아니라 최적화 과정 자체에 gauge를 심는 접근이라는 점이 차별화 포인트다.

4. Asymmetric Barrier: 규범을 미분 가능한 사전분포로

"한번 오른 티어는 좀처럼 떨어지지 않아야 한다"는 커뮤니티 규범을, ad-hoc한 if-then 규칙이 아니라 비대칭 로그 장벽 + Hard-Soft Ratchet으로 구현한다. 바닥에 가까워질수록 반발력이 지수적으로 커지고, 임계 근접 시 Hard Saturation(F_max = 50)에 고정된다. 이는 베이지안 관점에서 강한 사전분포(prior) 와 정확히 같은 역할을 하며, 규범이 결과에 영향을 주는 경로를 수식으로 투명하게 노출한다.

5. 맥락 분리: 실력(θ)·맵(β)·상호작용(ρ)의 GLM

한 선수의 점수에 "그냥 강하다"와 "특정 맵·종족에서만 강하다"가 섞이면 해석이 무너진다. 문서는 이를 가법적 GLM logit(p) = Δθ + Δβ + Δρ 로 풀고, 각 파라미터 군에 서로 다른 학습 스케줄(RMSProp·Meta-Cyclic Decay)을 적용한다. Race matchup항 ρ는 zero-sum 제약 하에서 학습되어, 종족 간 상성이 baseline을 훼손하지 않는다.

6. Metrics Engine: 레이팅과 해석의 구조적 분리

Entropy로 상대 분포의 편향을 탐지해 게이밍(특정 상대만 골라 점수 펌핑) 시도를 필터링하고, Momentum/Stability/Clutch/PoE/AP 같은 해석 지표는 레이팅 업데이트 경로와 완전히 분리된 사후층(post-hoc layer)에서 계산된다. Clutch에는 Beta(2,2) 사전분포를 통한 베이지안 수축(shrinkage)을 적용해 저샘플 과적합을 막고, AP는 Quadratic Diversity Factor로 다각성을 반영한다.

7. 설계 트레이드오프 명시 (Appendix A)

문서는 다음 다섯 가지를 의도적 타협점으로 명시한다. (a) 적응성 vs 안정성, (b) MAP 추정의 계산 효율과 완전 베이지안 사이의 균형, (c) 제약을 loss항이 아닌 prior로 재해석하는 관점, (d) 폐쇄 생태계에서의 규범적 안정성 확보, (e) 해석의 경계 — 점수가 실제 latent skill이 아니라, 규범·맥락·결과를 함께 합성한 운영 지표임을 강조.

실무 수치(AUC·LogLoss·ECE 등)는 PDF가 아닌 위키 각 페이지의 최신 결과를 우선 참조할 것. PDF는 구조·수식·수렴 논리를 담당하고, 위키 본문은 현재 모델의 수치 상태를 담당한다.