Home » 기록하고 기억하고 활용하자. » Data Structures and Algorithms » Data Structures » 배열 (Array)

Suffix Array vs Suffix Tree vs Trie

Suffix Array, Suffix Tree, 그리고 Trie는 모두 문자열 처리와 패턴 매칭을 위한 데이터 구조로, 각각 고유한 특성과 용도를 가지고 있다.

October 12, 2024 · 2 min · Me | Suggest Changes

Table of Contents

Suffix Array vs. Suffix Tree vs. Trie

Suffix Array, Suffix Tree, 그리고 Trie는 모두 문자열 처리와 패턴 매칭을 위한 데이터 구조로, 각각 고유한 특성과 용도를 가지고 있다.

특성	Suffix Array	Suffix Tree	Trie
기본 구조	모든 접미사를 정렬하여 저장하는 1차원 배열	모든 접미사를 트리 형태로 저장하는 압축된 트리 구조	문자열을 문자 단위로 저장하는 트리 구조
메모리 효율성	O(n), 매우 효율적	O(n), 하지만 실제로는 4n 정도로 큼	O(ALPHABET_SIZE key_length n), 매우 큼
구축 시간	O(n log n)	O(n) (Ukkonen’s Algorithm 사용 시)	O(n * key_length)
검색 시간	O(m log n + occ), m은 패턴 길이	O(m + occ), m은 패턴 길이	O(m), m은 검색할 문자열 길이
구현 난이도	비교적 간단	매우 복잡	비교적 간단
LCP 계산	추가 배열 필요	트리 구조에서 직접 계산 가능	해당 없음
패턴 매칭	이진 검색 이용	트리 순회로 직접 검색	트리 순회로 직접 검색
공간 지역성	매우 좋음 (연속된 메모리)	보통 (포인터로 인한 흩어짐)	나쁨 (노드가 메모리에 흩어짐)
주요 응용	텍스트 검색, DNA 분석	문자열 처리, 바이오인포매틱스	사전 구현, 자동 완성
동적 업데이트	어려움	가능하나 복잡	쉬움
접두사 검색	어려움	가능하나 비효율적	매우 효율적
최장 공통 접두사	추가 작업 필요	직접 계산 가능	직접 계산 가능
최장 공통 부분 문자열	LCP 배열 필요	직접 계산 가능	부적합
압축 가능성	제한적	매우 좋음	있음 (압축 트라이)
캐시 성능	매우 좋음	보통	나쁨
실제 사용 사례	대용량 문자열 검색 시스템	생물정보학, 문자열 처리	자동 완성, 사전 검색

추가적인 중요 고려사항:

메모리 사용 패턴:
- Suffix Array: 연속된 메모리 공간 사용으로 캐시 효율성 높음
- Suffix Tree: 포인터 기반 구조로 메모리 사용이 분산됨
- Trie: 노드별 메모리 할당으로 가장 분산된 사용 패턴
성능 트레이드오프:
- Suffix Array: 공간 효율성 vs 검색 속도
- Suffix Tree: 구현 복잡성 vs 기능성
- Trie: 메모리 사용량 vs 검색 단순성
적합한 사용 시나리오:
- Suffix Array: 메모리 제약이 있는 대규모 문자열 처리
- Suffix Tree: 복잡한 문자열 처리가 필요한 고성능 응용
- Trie: 접두사 기반 검색이 중요한 응용

참고 및 출처