콘텐츠로 바로가기

LLM Embedding Spaces

단어(토큰)를 고차원 실수 벡터로 매핑하여 의미적 관계를 수치적 거리로 표현하는 공간. 벡터 공간에서 단어 관계가 방향과 크기로 인코딩됨. 문장 전체를 단일 벡터로 압축(Sentence Transformers 등). 이 벡터를 벡터 DB에 저장하여 시맨틱 검색 가...

sys.entry
M

Me

hyunyoun's Blog

machine-learning-ai1 min read

LLM Embedding Spaces

단어(토큰)를 고차원 실수 벡터로 매핑하여 의미적 관계를 수치적 거리로 표현하는 공간.

핵심 개념

임베딩 행렬: 크기 V × d_model (어휘집 크기 × 모델 차원수). 각 토큰 ID가 d_model 차원 벡터로 조회됨.

의미 산술:

CODE
vec("왕") - vec("남자") + vec("여자") ≈ vec("여왕")

벡터 공간에서 단어 관계가 방향과 크기로 인코딩됨.

Cosine Similarity: 두 벡터의 각도로 의미 유사도 측정. 크기가 아닌 방향만 비교하므로 문장 길이 불변.

확장: 문장·문단 임베딩

문장 전체를 단일 벡터로 압축(Sentence Transformers 등). 이 벡터를 벡터 DB에 저장하여 시맨틱 검색 가능 → RAG의 Retrieval 단계 기반.

연결 노트