콘텐츠로 바로가기

Fine-Tuning & Model Alignment

사전 학습된 모델의 지능을 특정 도메인에 수리적으로 최적화하고, 인간의 가치관이나 지시사항에 물리적으로 부합하도록 교정(Alignment)하는 고강도 적응 물리학을 다룹니다.

sys.entry
M

Me

hyunyoun's Blog

posts7 min read

1. Overview

미세 조정 및 모델 정렬(Fine-Tuning & Model Alignment, FMA)은 거대한 '사전 학습 지능'의 원형을 유지하면서, 특정 물리 영역에서의 전문 수리 감각을 예리하게 다듬고 인간의 의도와 물리적으로 충돌하지 않게 조율하는 '지능 정밀 가공 물리학'입니다.

학습자는 전체 수치 파라미터를 수정하는 대신 핵심적인 일부만 물리적으로 변경하는 **효율적 미세 조정(PEFT/LoRA)**의 기제와, 인간의 선호도 수치를 통해 보상을 결정하는 **RLHF(Reinforcement Learning from Human Feedback)**의 물리적 수순을 배웁니다. 특히, 모델이 위험한 답을 피하게 만드는 **정렬(Alignment)**의 수리적 경계를 익힙니다. 이를 통해 단순히 똑똑한 AI를 넘어, 안전하고 신뢰할 수 있는 하이엔드 AI 아키텍처를 물리적으로 설계하는 거버넌스 역량을 확보합니다.

2. Scope & Boundaries

In-Scope

  • Instruction Tuning: 자연어 지시문을 따르도록 모델의 수리적 반응성을 물리 강화
  • Parameter-Efficient Tuning (PEFT): LoRA 등을 통한 하드웨어 자원 절약 및 수치 튜닝 기제
  • Preference Learning: 정답 간의 수리적 우열을 가려 인간의 의도에 물리 동화시키는 법
  • Alignment Techniques: RLHF, DPO 등을 통한 가치관 반영 및 수리적 필터링
  • Catastrophic Forgetting: 새로운 수치 학습 시 기존의 물리적 일반화 능력이 붕괴되는 현상 제어

Out-of-Scope

  • 데이터로부터 최초의 수리 지도를 그리는 사전 학습 공정 (11-03-01 LTP 영역에서 분담)
  • 학습 없이 프롬프트 기술로만 제어하는 기법 (11-03-02 PRM 영역에서 분담)

Boundaries

  • FMA vs. Pre-training: 사전 학습이 언어의 '물리적 통계'를 배우는 것이라면, FMA는 그 지식을 어떻게 '인간답게 수리적으로 활용'할 것인가라는 태도 교정에 집중하여 구분합니다.

3. Counterexample

  • 단순히 "학습을 조금 더 하기"라 설명하는 것은 FMA 학습이 아닙니다. 왜 전체 파라미터 수치를 업데이트하면 하드웨어 비용이 수리적으로 파산하게 되는지 증명할 수 있어야 하며, LoRA가 왜 원래 가중치를 건드리지 않고 '저차원 행렬'의 물리적 덧셈만으로 동일한 수리 효과를 내는지 논증하지 못한다면 미세 조정의 본질을 이해하지 못한 것입니다.

4. Prerequisites

  • LLM Foundations & Token Physics (Basic): 11-03-01의 임베딩 및 확률 수치 이해가 필수입니다.
  • Optimization Logic & Gradient Descent (Basic): 11-01-04의 손실 함수 및 가중치 업데이트 기초 이해가 필수입니다.

5. Learning Map

  1. Sharpening the Tool: 범용적인 지능을 특정 수리 도메인(법률, 코드 등)에 물리적으로 예리하게 깎습니다.
  2. Resource Efficiency: 수조 개의 파라미터 중 단 1%1\%의 수치만으로도 하이엔드 성능을 도출하는 법을 배웁니다.
  3. The Human Mirror: 인간의 선호를 수치화하여 보상(Reward) 모델로 변환하고 모델의 태도를 물리 교정합니다.
  4. Principled Intelligence: 인간의 가치와 물리적으로 공명하여 신뢰할 수 있는 지능 체계를 완성합니다.

6. Learning Topics

Basic

Core: 지시 미세 조정과 전이 (Instruction Physics)

  • Why to Learn: 모델이 "질문에 대답하는 법"을 수치적으로 학습하지 못하면, 단순히 다음 문장만 읊는 수리적 기계에 머물기 때문입니다.
  • What to Learn:
    • Instruction datasets (Alpaca, Dolly): 인간의 부탁과 모델의 대답 수치 쌍으로 구성된 데이터셋
    • Domain Adaptation: 범용 지능의 물리적 무게중심을 특정 전문 수리 영역으로 이동시키는 법
    • Transfer Learning in LLMs: 거대 모델의 수치적 '상식'을 특정 물리적 태스크로 이전하는 공정
  • How to Learn:
    • 공개된 지시어 데이터셋을 사용하여, 모델이 명령어를 무시하던 초기 수리 상태에서 물리적 복종 상태로 변하는 과정 확인 실습
    • 학습률(η\eta) 수치를 사전 학습 때보다 100배 낮게 설정하여 기존 수리적 가중치를 물리적으로 보존하는 기전 연구
  • Implement: 질문-응답 데이터셋을 모델이 읽을 수 있는 물리 포맷으로 변환하는 기초 Dataset_Formatter

Core: 효율적 미세 조정과 LoRA (PEFT Mechanics)

  • Why to Learn: 단 한 대의 GPU 하드웨어로도 수십억 개의 파라미터를 가진 거대 모델을 수리적으로 개인화하기 위함입니다.
  • What to Learn:
    • Low-Rank Adaptation (LoRA): 수리적 가중치의 변화량을 저차원 평면으로 물리 투영하여 저장하는 법
    • Weights Freezing: 주요 레이어의 수치를 그대로 물리 고정하고 특정 레이어만 수리 수정
    • Adapter Modules: 기존 신경망 사이사이에 작은 수치 레이어를 물리 끼워 넣는 공정
  • How to Learn:
    • PEFT 라이브러리를 사용하여 LoRA를 수리 적용하고, 물리적 메모리 사용 수치가 90%90\% 이상 절감되는 현상 대조 실습
    • Rank (rr) 수치가 늘어남에 따라 모델의 표현력이 수리적으로 어떻게 풍부해지는지 물리적 상관관계 훈련
  • Implement: 기존 모델 위에 LoRA 레이어를 물리 수치로 얹는 기초 LoRA_Binder

Practical

Core: 인간 피드백 기반 강화 학습 (RLHF Dynamics)

  • Why to Learn: 단순히 '말이 되는지'를 넘어 '도움이 되는지(Helpful)'의 주관적 물리 가치를 수리적 보상으로 치환하기 위해서입니다.
  • What to Learn:
    • Reward Modeling: 인간이 매긴 우선순위 수치로부터 지능의 등급을 매기는 물리적 평가 엔진 구축
    • PPO (Proximal Policy Optimization): 모델의 행동이 수리적으로 너무 튀지 않게 물리적으로 억제하며 강화 학습
    • Preference pairs (A vs B): 두 대답 중 더 물리적으로 타당한 것을 수리적으로 투표하는 기제
  • How to Learn:
    • 직접 모델의 답변 두 개를 보고 수리적 순위를 매겨, 하드웨어가 내 취향을 물리적으로 어떻게 복제하는지 확인 실습
    • 보상 수치가 왜곡되어 모델이 시스템을 기만하는 **보상 해킹(Reward Hacking)**의 수리적 징후 분석
  • Implement: 인간의 선호를 수치화하여 보상값으로 출력하는 기초 Reward_Ametist

Advanced

Core: 정렬 이론과 직접 선호 최적화 (Alignment Theory)

  • Why to Learn: 복잡한 RLHF 과정 없이도 수리적으로 간결하게 인간의 가치를 물리 고정하는 하이엔드 기술을 확보하기 위함입니다.
  • What to Learn:
    • DPO (Direct Preference Optimization): RL 과정 없이 데이터셋의 수치 관계만으로 직접 물리 정렬 수행
    • Constitutional AI: 모델에게 '헌법'이라는 수리적 규칙을 주고 스스로를 물리 검열하게 하는 기제
    • Robustness to Jailbreaking: 프롬프트 해킹으로 수리 보안이 뚫리는 것을 물리적으로 방어하는 수순
  • How to Learn:
    • DPO 기법을 적용했을 때 RLHF 대비 하드웨어 학습 안정성 수치가 얼마나 물리적으로 개선되는지 연구
    • 모델의 내부 수치 거부 반응(Refusal)을 수리적으로 분석하여 물리적 '안전 가이드라인'의 작동 상 확인 훈련
  • Implement: 특정 규칙(헌법)에 어긋나는 수리 출력을 필터링하는 Ethics_Gate

7. Terminology

Term (EN / ko, abbr) 1문장 정의 단계(기본/권장/실무/심화) 역할/맥락 관련 개념 유사/대비/함께 사용 오해 포인트 Evidence(Primary/Secondary/Industry) Flags(core)
Fine-tuning 특정 작업을 잘 수행하도록 이미 사전 학습된 모델의 수리적 가중치를 추가 데이터로 물리 수정하는 공정입니다. 기본 지능 최적화 Training / Layer Pre-training 전체 재학습과는 다름 P4:DSBOK core
LoRA 모델의 가중치 데이터(WW)를 직접 고치지 않고, 그 수리적 차이를 나타내는 가벼운 행렬을 물리적으로 학습시키는 기법입니다. 추천 하드웨어 효율 PEFT / Rank Adapter 성능 손실이 거의 없음 Industry core
RLHF 모델의 출력 결과물에 대해 인간이 매긴 수리적 보상을 바탕으로 모델의 지능적 행동을 물리 정렬하는 강화 학습입니다. 실무 가치 정렬 Reward / PPO SFT 보상 모델이 핵심임 P1:CS2023 core
DPO 별도의 보상 수치 모델 없이, 선호하는 데이터와 싫어하는 데이터 사이의 수리적 수렴만으로 직접 물리 정렬하는 최신 기법입니다. 심화 수리 최적화 Alignment / Loss RLHF 안정성이 매우 높음 Industry core

8. References

Primary

Secondary

  • [Instruction Tuning for LLMs] Research Paper Summary - Evolution of FMA.
  • [RLHF: Reinforcement Learning from Human Feedback] OpenAI Technical insights.

Industry

  • [Hugging Face Documentation: PEFT library] — Implementation of LoRA.
  • [DeepSpeed-Chat: Practical RLHF training] — Tooling for large scale alignment.

9. Final Checklist

Primary

  • '미세 조정' 과정에서 발생하는 '데이터 오염' 수치가 모델의 실제 물리적 성능을 어떻게 기만하는지 설명 가능한가? (P4)
  • '카타스트로픽 포게팅' 현상이 기존 수리적 '일반 지능'을 물리적으로 어떻게 휘발시키는지 기술할 수 있는 가? (P1)

Secondary

  • 'LoRA' 가중치 병합(MergeMerge) 수순이 실제 하드웨어 추론 속도(LatencyLatency)를 물리적으로 왜 늘리지 않는지 소통 가능한가?
  • RLHF에서 '보상 모델'의 수치적 정확도가 최종 지능의 '사회적 타당성'으로 전이되는 과정을 논증할 수 있는 가?

Industry

  • 실무 도메인 데이터셋 확보 시, 전체 학습 대신 8bit QLoRA 수치 압축을 써야 하는 물리적 시점을 제안할 수 있는 가? (SFIA)
  • DPO 적용 시 손실 함수 값의 수리적 수렴 여부를 통해 모델의 물리적 '정체성 편향' 수치를 분석할 수 있는 가?