LLM Embedding Spaces

단어(토큰)를 고차원 실수 벡터로 매핑하여 의미적 관계를 수치적 거리로 표현하는 공간. 벡터 공간에서 단어 관계가 방향과 크기로 인코딩됨. 문장 전체를 단일 벡터로 압축(Sentence Transformers 등). 이 벡터를 벡터 DB에 저장하여 시맨틱 검색 가...

LLM Embedding Spaces

단어(토큰)를 고차원 실수 벡터로 매핑하여 의미적 관계를 수치적 거리로 표현하는 공간.

핵심 개념

임베딩 행렬: 크기 V × d_model (어휘집 크기 × 모델 차원수). 각 토큰 ID가 d_model 차원 벡터로 조회됨.

의미 산술:

CODE

vec("왕") - vec("남자") + vec("여자") ≈ vec("여왕")

벡터 공간에서 단어 관계가 방향과 크기로 인코딩됨.

Cosine Similarity: 두 벡터의 각도로 의미 유사도 측정. 크기가 아닌 방향만 비교하므로 문장 길이 불변.

확장: 문장·문단 임베딩

문장 전체를 단일 벡터로 압축(Sentence Transformers 등). 이 벡터를 벡터 DB에 저장하여 시맨틱 검색 가능 → RAG의 Retrieval 단계 기반.

연결 노트

ZK-LLM-Tokenization — 토큰 ID가 임베딩 조회의 입력
ZK-LLM-Next-Token-Prediction — 임베딩을 입력받아 다음 토큰 확률을 계산
ZK-RAG-Architecture — 문서 임베딩을 인덱싱하여 관련 청크를 검색하는 기반 기술
ZK-ReAct-Pattern — 에이전트가 관련 메모리를 임베딩 유사도로 검색

LLM Embedding Spaces

핵심 개념

확장: 문장·문단 임베딩

연결 노트

Concepts & Tags