LLM Embedding Spaces
단어(토큰)를 고차원 실수 벡터로 매핑하여 의미적 관계를 수치적 거리로 표현하는 공간. 벡터 공간에서 단어 관계가 방향과 크기로 인코딩됨. 문장 전체를 단일 벡터로 압축(Sentence Transformers 등). 이 벡터를 벡터 DB에 저장하여 시맨틱 검색 가...
sys.entry
M
Me
hyunyoun's Blog
machine-learning-ai1 min read
LLM Embedding Spaces
단어(토큰)를 고차원 실수 벡터로 매핑하여 의미적 관계를 수치적 거리로 표현하는 공간.
핵심 개념
임베딩 행렬: 크기 V × d_model (어휘집 크기 × 모델 차원수). 각 토큰 ID가 d_model 차원 벡터로 조회됨.
의미 산술:
CODE
vec("왕") - vec("남자") + vec("여자") ≈ vec("여왕")
벡터 공간에서 단어 관계가 방향과 크기로 인코딩됨.
Cosine Similarity: 두 벡터의 각도로 의미 유사도 측정. 크기가 아닌 방향만 비교하므로 문장 길이 불변.
확장: 문장·문단 임베딩
문장 전체를 단일 벡터로 압축(Sentence Transformers 등). 이 벡터를 벡터 DB에 저장하여 시맨틱 검색 가능 → RAG의 Retrieval 단계 기반.
연결 노트
- ZK-LLM-Tokenization — 토큰 ID가 임베딩 조회의 입력
- ZK-LLM-Next-Token-Prediction — 임베딩을 입력받아 다음 토큰 확률을 계산
- ZK-RAG-Architecture — 문서 임베딩을 인덱싱하여 관련 청크를 검색하는 기반 기술
- ZK-ReAct-Pattern — 에이전트가 관련 메모리를 임베딩 유사도로 검색