성능 테스트 (Performance Test)

성능 테스트란 서비스 및 서비스 시스템의 성능을 확인하기 위해 실제 사용 환경과 비슷한 환경에서 테스트를 진행하는 것을 말한다.
이는 소프트웨어가 특정 상황에서 얼마나 잘 작동하는지 확인하기 위한 테스트이다.

웹 애플리케이션의 성능 테스트 예시:

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
import locust
from locust import HttpUser, task, between

class WebsiteUser(HttpUser):
    # 사용자들은 1~5초 간격으로 작업을 수행
    wait_time = between(1, 5)
    
    @task(2)
    def view_products(self):
        """상품 목록 페이지 조회 테스트"""
        # 상품 목록 페이지 접속
        response = self.client.get("/products")
        
        # 응답 시간이 1초 이내인지 확인
        assert response.elapsed.total_seconds() < 1.0
        
    @task(4)
    def view_product_details(self):
        """상품 상세 페이지 조회 테스트"""
        # 임의의 상품 상세 페이지 접속
        product_id = random.randint(1, 1000)
        response = self.client.get(f"/products/{product_id}")
        
        # 응답 시간이 0.5초 이내인지 확인
        assert response.elapsed.total_seconds() < 0.5

    @task(1)
    def add_to_cart(self):
        """장바구니 담기 테스트"""
        product_id = random.randint(1, 1000)
        response = self.client.post("/cart", json={
            "product_id": product_id,
            "quantity": 1
        })
        
        # 응답 시간이 0.3초 이내인지 확인
        assert response.elapsed.total_seconds() < 0.3

특징과 목적

성능 테스트의 주요 특징과 목적은 다음과 같다:

시스템의 한계와 필요한 리소스 파악
오픈 후 부하 상황에 대한 대비
고객과 합의한 성능 목표(기준)의 충족 여부 판단
다양한 사용 환경에 따른 시스템 최대 처리량 확인
주요 성능 병목/결함 조기 발견 및 해결

테스트 범위

성능 테스트는 다음과 같은 범위를 포함한다:

사용자 인터페이스 (UI)
백엔드 서비스
데이터베이스
네트워크
외부 시스템과의 통합

수행 시점

성능 테스트는 일반적으로 시스템 테스트와 인수 테스트 레벨에서 진행된다.

검증 대상

주요 검증 대상은 다음과 같다:

평균 응답 시간
평균 소요 시간
평균 처리량
평균 프로세서 사용률
평균 메모리 사용률
사용자 액세스 용량

성능 테스트의 주요 측정 지표

응답 시간(Response Time): 사용자의 요청부터 응답까지 걸리는 시간

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
def measure_response_time():
    start_time = time.time()
    response = requests.get("https://example.com/api/products")
    end_time = time.time()

    response_time = end_time - start_time
    return {
        "total_time": response_time,
        "ttfb": response.elapsed.total_seconds(),  # Time to First Byte
        "processing_time": response_time - response.elapsed.total_seconds()
    }

처리량(Throughput): 단위 시간당 처리할 수 있는 작업의 양

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
def measure_throughput():
    """초당 처리량 측정"""
    start_time = time.time()
    request_count = 0

    while time.time() - start_time < 60:  # 1분간 측정
        requests.get("https://example.com/api/products")
        request_count += 1

    return request_count / 60  # 초당 처리량

자원 사용률: CPU, 메모리, 디스크, 네트워크 등의 사용량

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
def monitor_resource_usage():
    """시스템 자원 사용률 모니터링"""
    while True:
        metrics = {
            "cpu_usage": psutil.cpu_percent(),
            "memory_usage": psutil.virtual_memory().percent,
            "disk_io": psutil.disk_io_counters(),
            "network_io": psutil.net_io_counters()
        }
        log_metrics(metrics)
        time.sleep(1)

에러율: 요청 대비 오류 발생 비율

성능 테스트의 종류

비교 항목	Load Testing	Stress Testing	Endurance Testing	Scalability Testing	Spike Testing	Volume Testing
정의	예상되는 일반적인 부하 상황에서의 시스템 성능을 검증	시스템의 한계점을 찾기 위해 극한 부하를 가함	장시간 동안 지속적인 부하 상태에서의 시스템 안정성 검증	시스템의 확장성과 성능 변화를 검증	갑작스러운 부하 증가에 대한 시스템의 대응을 검증	대용량 데이터 처리 능력을 검증
주요 목적	일상적인 사용 환경에서의 성능 보장	시스템의 장애 지점과 복구 능력 파악	메모리 누수, 자원 고갈 등 장기적 문제 발견	시스템 확장에 따른 성능 변화 예측	급격한 부하 변화에 대한 대응력 검증	대규모 데이터 처리의 정확성과 효율성 검증
테스트 기간	중간 (수 시간)	짧음 (수분~수시간)	길음 (수일~수주)	중간 (수 시간)	매우 짧음 (수분)	중간 (수 시간)
부하 패턴	점진적 증가	임계점까지 지속적 증가	일정한 부하 유지	단계적 증가	급격한 증가와 감소	대용량 데이터 처리
성공 기준	응답 시간, 처리량이 목표치 내 유지	장애 발생 지점 식별 및 복구 여부	장시간 안정적 운영	선형적인 성능 확장	급격한 부하 처리 및 복구	대용량 데이터 정확한 처리
모니터링 지표	응답 시간, 처리량, 자원 사용률	CPU, 메모리 사용률, 오류율	메모리 누수, 성능 저하율	확장에 따른 성능 변화율	응답 시간, 오류율, 복구 시간	데이터 처리 속도, 정확성
사용 사례	웹사이트 일상 운영	재해 복구 계획 검증	장기 운영 시스템	클라우드 서비스	이벤트 기간 대비	빅데이터 처리 시스템
위험도	낮음	높음	중간	중간	높음	중간
리소스 요구사항	중간	높음	높음	높음	중간	높음
자동화 수준	높음	중간	높음	높음	중간	높음
결과 분석 복잡도	중간	높음	높음	높음	높음	중간
테스트 환경 요구사항	프로덕션 유사 환경	격리된 테스트 환경	프로덕션 유사 환경	확장 가능한 환경	격리된 테스트 환경	대용량 데이터 처리 가능 환경
테스트 준비 시간	중간	긴 편	매우 긴 편	긴 편	중간	긴 편
비용 효율성	높음	중간	낮음	중간	높음	중간

이러한 테스트들은 서로 보완적인 관계에 있으며, 시스템의 전반적인 성능과 안정성을 보장하기 위해서는 여러 유형의 테스트를 적절히 조합하여 수행하는 것이 중요하다.
특히 현대의 복잡한 시스템에서는 이러한 다각적인 성능 테스트가 더욱 중요해지고 있다.

진행 방식

성능 테스트는 다음과 같은 단계로 진행된다:

테스트 계획 수립
테스트 케이스 작성
테스트 환경 구축
테스트 실행
결과 분석 및 보고

예시

온라인 쇼핑몰 애플리케이션의 성능 테스트를 예로 들어보자:

목표 설정: 최대 동시 접속자 10,000명, 평균 응답 시간 2초 이내
테스트 시나리오 작성: 상품 검색, 장바구니 추가, 결제 프로세스 등
테스트 도구 선택: Apache JMeter 사용
테스트 실행: 가상 사용자를 점진적으로 증가시키며 테스트 수행
결과 분석: 응답 시간, 처리량, 서버 리소스 사용률 등 확인
개선 사항 도출: 병목 지점 식별 및 최적화 방안 제시

성능 테스트 수행 시 주의사항

테스트 환경 구성

실제 환경과 유사한 조건 구성
외부 요인의 영향 최소화
충분한 테스트 데이터 준비

단계적 부하 증가

기본 부하에서 시작하여 점진적 증가
각 단계별 시스템 상태 모니터링
임계점 발견 시 즉시 대응

지속적인 모니터링

실시간 성능 지표 수집
이상 징후 즉시 감지
장애 발생 시 원인 분석

주요 성능 테스트 도구

도구명	유형	주요 기능	특징	지원 프로토콜	라이선스	적합한 사용 사례
Apache JMeter	부하/성능 테스트	- 웹 애플리케이션 부하 테스트 - 데이터베이스 서버 테스트 FTP/REST/SOAP 서비스 테스트 - 결과 분석 및 리포팅	- Java 기반 GUI 인터페이스 제공 - 플러그인 확장 가능 - 분산 테스팅 지원	HTTP, HTTPS, FTP, JDBC, LDAP, SMTP, TCP	Apache License 2.0	- 웹 애플리케이션 부하 테스트 - API 성능 테스트 - 데이터베이스 성능 측정
K6	부하 테스트	- 현대적인 부하 테스트 - 클라우드 통합 CI/CD 파이프라인 통합	- JavaScript 기반 - 개발자 친화적 - 확장성 높음 - 낮은 리소스 사용	HTTP, WebSocket, gRPC	AGPL-3.0/상용	- 마이크로서비스 테스트 - CI/CD 통합 - 클라우드 네이티브 애플리케이션
Gatling	부하/성능 테스트	- 고성능 부하 테스트 - 실시간 모니터링 - 상세한 리포트 생성	- Scala 기반 - 코드형 테스트 작성 - 높은 성능	HTTP, WebSocket, JMS	Apache License 2.0	- 대규모 웹 애플리케이션 - 실시간 분석 필요 시 - 지속적 성능 테스트
Locust	부하 테스트	- 사용자 행동 시뮬레이션 - 분산 부하 생성 - 실시간 웹 UI	- Python 기반 - 코드형 테스트 - 확장 용이	HTTP/REST	MIT	- 사용자 시나리오 테스트 - 분산 부하 테스트 - 실시간 모니터링
Apache Benchmark (ab)	벤치마킹	- 웹 서버 벤치마킹 - 간단한 부하 테스트	- 경량화 - 커맨드 라인 도구 - 빠른 실행	HTTP	Apache License 2.0	- 간단한 웹 서버 테스트 - 빠른 성능 체크
Artillery	부하/성능 테스트	- 시나리오 기반 테스트 - 클라우드 통합 - 플러그인 시스템	- Node.js 기반 YAML 설정 - 현대적 아키텍처 지원	HTTP, WebSocket, Socket.io	MPL-2.0	- 마이크로서비스 테스트 - 실시간 애플리케이션 - 클라우드 서비스
WebLoad	엔터프라이즈 부하 테스트	- 종합적인 테스트 솔루션 - 고급 분석 도구 - 상세 리포팅	- JavaScript 스크립팅 - 엔터프라이즈급 기능 - 전문적 지원	HTTP, HTTPS, WebSocket, Oracle, SAP	상용/무료 버전	- 엔터프라이즈 애플리케이션 - 복잡한 비즈니스 프로세스 - 대규모 시스템
Siege	벤치마킹/부하 테스트	- HTTP/HTTPS 부하 테스트 - 동시성 테스트	- Unix/Linux 기반 - 간단한 사용법 - 상세한 통계	HTTP, HTTPS	GPL	- 웹 서버 벤치마킹 URL 부하 테스트
Tsung	분산 부하 테스트	- 대규모 분산 테스트 - 다중 프로토콜 지원 - 클러스터 지원	- Erlang 기반 - 높은 확장성 XML 설정	HTTP, WebSocket, XMPP, LDAP, MySQL	GPL	- 대규모 분산 시스템 - 복잡한 프로토콜 테스트
NeoLoad	엔터프라이즈 성능 테스트	- AI 기반 성능 테스트 - 자동화된 테스트 설계 - 고급 모니터링	- GUI 기반 설계 CI/CD 통합 - 클라우드 지원	HTTP, SAP, Oracle, Citrix	상용	- 엔터프라이즈 애플리케이션 DevOps 환경 - 복잡한 아키텍처

도구 선택 시 고려해야 할 주요 요소들은 다음과 같다:

프로젝트 규모와 복잡성:
작은 프로젝트의 경우 Apache Benchmark나 Siege와 같은 간단한 도구로 충분할 수 있지만, 대규모 엔터프라이즈 프로젝트의 경우 JMeter나 NeoLoad와 같은 종합적인 도구가 필요할 수 있다.
기술 스택:
개발팀이 사용하는 프로그래밍 언어와 기술 스택에 맞는 도구를 선택하면 학습 곡선을 줄일 수 있다. 예를 들어, Python 개발팀은 Locust를, JavaScript 개발팀은 K6를 선호할 수 있다.
테스트 유형:
필요한 테스트 유형(부하 테스트, 스트레스 테스트, 확장성 테스트 등)을 지원하는 도구를 선택해야 한다.
예산:
오픈소스 도구와 상용 도구 중에서 선택할 때는 프로젝트 예산을 고려해야 한다. 상용 도구는 더 많은 기능과 지원을 제공하지만, 오픈소스 도구도 대부분의 요구사항을 충족할 수 있다.
통합 요구사항:
CI/CD 파이프라인, 모니터링 도구, 클라우드 서비스 등과의 통합이 필요한 경우, 이러한 통합을 지원하는 도구를 선택해야 한다.

참고 및 출처

부하 테스트(Load Testing)

부하 테스트(Load Testing) 부하 테스트는 소프트웨어 시스템이 예상되는 사용자 부하 하에서 어떻게 동작하는지 확인하는 성능 테스트의 한 유형이다. 이는 실제 사용 환경과 유사한 조건에서 시스템의 성능을 평가한다. 특징과 목적 시스템의 최대 운영 용량 파악 성능 병목 현상 식별 확장성 및 안정성 검증 사용자 경험 개선 테스트 범위 부하 테스트는 다음과 같은 범위를 포함한다: 웹 애플리케이션 데이터베이스 시스템 네트워크 인프라 서버 리소스 (CPU, 메모리, 디스크 I/O) 수행 시점 부하 테스트는 주로 다음 시점에 수행된다: ...

스트레스 테스트 (Stress Testing)

스트레스 테스트 (Stress Testing) 스트레스 테스트는 소프트웨어 시스템을 극한의 조건에서 테스트하여 그 한계를 파악하는 성능 테스트의 한 유형이다. 이는 시스템이 정상적인 운영 범위를 넘어선 상황에서 어떻게 동작하는지를 평가한다. 웹 애플리케이션의 스트레스 테스트 예시: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 import time from locust import HttpUser, task, between class StressTestUser(HttpUser): wait_time = between(0.1, 0.5) # 매우 짧은 대기 시간 @task def stress_test_scenario(self): """극한 상황 시뮬레이션""" # 대용량 데이터 요청 with self.client.get("/api/products", params={"page_size": 1000}, catch_response=True) as response: # 응답 검증 if response.elapsed.total_seconds() > 5.0: response.failure("응답 시간 초과") elif response.status_code != 200: response.failure(f"에러 발생: {response.status_code}") # 시스템 복구 능력 테스트 time.sleep(0.1) # 잠시 대기 # 후속 요청으로 시스템 회복 확인 recovery_response = self.client.get("/api/health") assert recovery_response.status_code == 200 특징과 목적 스트레스 테스트의 주요 특징과 목적은 다음과 같다: ...

용량 테스트 (Volume Test)

용량 테스트 (Volume Test) 용량 테스트는 소프트웨어 시스템이 대량의 데이터를 처리할 때 어떻게 동작하는지 확인하는 성능 테스트의 한 유형이다. 이는 시스템이 대규모 데이터를 효율적으로 처리할 수 있는지 검증하는 과정이다. 데이터베이스 시스템의 용량 테스트 예시: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 import time from database import DatabaseConnection from data_generator import DataGenerator class VolumeTest: def __init__(self): self.db = DatabaseConnection() self.data_generator = DataGenerator() self.metrics = [] def test_large_data_handling(self): """대용량 데이터 처리 테스트""" print("대용량 데이터 처리 테스트 시작…") # 테스트 데이터 생성 test_data = self.data_generator.generate_large_dataset( records=1000000, # 백만 건의 레코드 size_per_record="2KB" # 레코드당 2KB ) start_time = time.time() try: # 데이터 삽입 테스트 print("데이터 삽입 테스트 중…") self.test_bulk_insert(test_data) # 데이터 조회 테스트 print("데이터 조회 테스트 중…") self.test_data_retrieval() # 데이터 집계 테스트 print("데이터 집계 테스트 중…") self.test_data_aggregation() finally: execution_time = time.time() - start_time print(f"전체 테스트 소요 시간: {execution_time:f}초") def test_bulk_insert(self, data): """대량 데이터 삽입 성능 테스트""" batch_size = 10000 # 배치 크기 for i in range(0, len(data), batch_size): batch = data[i:i + batch_size] # 삽입 시간 측정 start_time = time.time() self.db.bulk_insert(batch) insert_time = time.time() - start_time # 성능 메트릭 기록 self.metrics.append({ 'operation': 'bulk_insert', 'batch_size': len(batch), 'execution_time': insert_time, 'records_per_second': len(batch) / insert_time }) 특징과 목적 용량 테스트의 주요 특징과 목적은 다음과 같다: ...

확장성 테스트 (Scalability Test)

확장성 테스트 (Scalability Test) 확장성 테스트는 소프트웨어 시스템이 증가하는 부하나 규모에 얼마나 잘 대응할 수 있는지를 평가하는 성능 테스트의 한 유형이다. 이는 시스템의 확장 능력을 측정하고 검증하는 과정이다. 웹 서비스의 확장성 테스트 예시 코드: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 import time from concurrent.futures import ThreadPoolExecutor from monitoring import SystemMonitor class ScalabilityTest: def __init__(self): self.monitor = SystemMonitor() self.results = [] def test_vertical_scaling(self): """수직적 확장성 테스트 (단일 서버의 자원 증가에 따른 성능 변화 측정)""" # 서버 자원을 단계적으로 증가시키며 테스트 resource_configs = [ {"cpu_cores": 2, "memory": "2GB"}, {"cpu_cores": 4, "memory": "4GB"}, {"cpu_cores": 8, "memory": "8GB"} ] for config in resource_configs: # 서버 리소스 조정 self.adjust_server_resources(config) # 성능 측정 metrics = self.measure_performance() # 결과 기록 self.results.append({ "config": config, "metrics": metrics }) # 선형적 확장성 검증 self.verify_linear_scaling(config, metrics) def test_horizontal_scaling(self): """수평적 확장성 테스트 (서버 수 증가에 따른 성능 변화 측정)""" # 서버 인스턴스 수를 단계적으로 증가 for server_count in range(1, 6): # 서버 추가 self.add_server_instances(server_count) # 부하 테스트 실행 with ThreadPoolExecutor(max_workers=100) as executor: # 동시 요청 시뮬레이션 futures = [ executor.submit(self.simulate_request) for _ in range(1000) ] # 결과 수집 responses = [f.result() for f in futures] # 성능 메트릭 분석 self.analyze_scaling_metrics(server_count, responses) 특징과 목적 확장성 테스트의 주요 특징과 목적은 다음과 같다: ...

스파이크 테스트(Spike Test)

스파이크 테스트(Spike Test) 스파이크 테스트는 시스템에 갑작스럽고 극단적인 부하를 주어 시스템의 반응을 측정하는 성능 테스트의 한 유형이다. 이는 마치 갑자기 많은 사람들이 한 번에 몰려드는 상황을 시뮬레이션하는 것과 비슷하다. 웹 서비스의 스파이크 테스트 예시: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 import time from concurrent.futures import ThreadPoolExecutor from monitoring import SystemMonitor class SpikeTest: def __init__(self): self.monitor = SystemMonitor() self.base_load = 100 # 기본 사용자 수 self.spike_load = 5000 # 스파이크 시 사용자 수 def run_spike_test(self): """스파이크 테스트 실행""" print("스파이크 테스트 시작…") # 1. 기본 부하 상태 측정 print("기본 부하 상태 측정 중…") base_metrics = self.measure_system_state(self.base_load) # 2. 스파이크 부하 생성 print(f"스파이크 발생: {self.spike_load}명의 동시 사용자 생성") spike_metrics = self.generate_spike_load() # 3. 복구 과정 모니터링 print("시스템 복구 과정 모니터링 중…") recovery_metrics = self.monitor_recovery() # 4. 결과 분석 self.analyze_results(base_metrics, spike_metrics, recovery_metrics) def measure_system_state(self, user_count): """시스템 상태 측정""" with ThreadPoolExecutor(max_workers=user_count) as executor: # 동시 요청 생성 futures = [ executor.submit(self.simulate_user_request) for _ in range(user_count) ] # 응답 수집 responses = [f.result() for f in futures] return { 'response_times': [r['response_time'] for r in responses], 'error_count': sum(1 for r in responses if r['error']), 'system_metrics': self.monitor.get_current_metrics() } 특징과 목적 스파이크 테스트의 주요 특징과 목적은 다음과 같다: ...

지속성 테스트(Endurance Test)

지속성 테스트(Endurance Test) 지속성 테스트는 소프트웨어 시스템이 장기간 동안 지속적인 부하 상태에서 어떻게 동작하는지 확인하는 성능 테스트의 한 유형이다. 웹 서버의 지속성 테스트 예시 코드: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 import time import psutil from datetime import datetime class EnduranceTest: def __init__(self, duration_hours=24): self.duration = duration_hours * 3600 # 시간을 초로 변환 self.metrics_history = [] def run_endurance_test(self): """24시간 지속성 테스트 실행""" print(f"테스트 시작: {datetime.now()}") start_time = time.time() while time.time() - start_time < self.duration: # 시스템 메트릭 수집 metrics = self.collect_system_metrics() self.metrics_history.append(metrics) # 성능 저하 검사 if self.detect_performance_degradation(metrics): print("성능 저하 감지!") self.analyze_degradation() # 메모리 누수 검사 if self.detect_memory_leak(metrics): print("메모리 누수 감지!") self.analyze_memory_usage() time.sleep(60) # 1분마다 측정 def collect_system_metrics(self): """시스템 성능 지표 수집""" return { 'timestamp': datetime.now(), 'cpu_usage': psutil.cpu_percent(), 'memory_usage': psutil.virtual_memory().percent, 'disk_io': psutil.disk_io_counters(), 'response_time': self.measure_response_time() } def measure_response_time(self): """시스템 응답 시간 측정""" start_time = time.time() try: # 주요 API 엔드포인트 호출 response = requests.get('http://example.com/api/health') return time.time() - start_time except Exception as e: print(f"응답 시간 측정 실패: {str(e)}") return None 특징과 목적 지속성 테스트의 주요 특징과 목적은 다음과 같다: ...