githubEdit

Chapter 5. Usage Guide

Dashboards

Home

  • 서비스 코드 별 서버 목록 및 리소스 사용량을 확인할 수 있는 대시보드

System

  • 하나의 장비에 대한 CPU, Network 등의 정보를 확인할 수 있는 대시보드

메트릭 소개

  • CPU (100 = 1core)

    • user / system

      • 응용 프로그램 / 커널에서 사용된 CPU

    • softirq, interrupt

      • 내,외부 / 소프트웨어 Interrupt Request 처리에 사용된 CPU

    • idle, steal, IOwait

      • 사용하고 있지 않은 CPU

      • VM 환경에 자원을 분배할 때 빼앗긴 CPU

      • io를 위해 대기한 CPU

  • Memory

    • used, free, buffer, cached

      • 사용중인 / 사용 가능한 / 버퍼 / 캐시 메모리 크기

    • percentage

      • 메모리 사용 비율

  • Network

    • RX / TX bytes

      • 수신 / 송신한 데이터 크기

    • RX / TX packets

      • 수신 / 송신한 패킷의 개수

    • TCP Retrans

      • TCP 통신 중 패킷이 유실되거나 응답 지연이 발생하여 패킷을 재전송한 횟수

      • Burst 트래픽이 발생했거나, 네트워크 인프라 이슈가 있거나, WAS가 제 시간에 캐시 요청의 응답을 처리할 수 없을 때 증가합니다.

  • Disk

    • read / write

      • 디스크에서 읽고/쓴 바이트 크기

    • util

      • 전체 디스크 사용 시간 중 디스크 I/O 시간의 비율

    • percentage

      • 현재 사용중인 디스크 용량 비율

  • Others

    • vmem page in / out

      • 디스크에서 메모리로 가져온 / 메모리에서 디스크로 보낸 페이지 크기

    • vmem page faults

      • major page fault(swap in 발생), minor page fault(메모리에 있지만 MMU에 등록되지 않았으므로 페이지를 등록) 발생 횟수

    • processes

      • 실행중이거나 블락된 프로세스 개수

    • file descriptor

      • 최대 / 사용중인 파일 디스크립터 개수

    • TCP connections

      • ESTABLISHED 상태인 TCP 연결 개수

    • load

      • R(Running), D(Uninterruptible waiting) 상태인 프로세스 개수를 1분, 5분, 15분마다 평균낸 값

Arcus

  • 하나의 캐시 서버에 대한 Hit Ratio, Memory 사용량 등의 정보를 확인할 수 있는 대시보드

메트릭 소개

  • Memory

    • bytes

      • 캐시 아이템들이 차지하는 메모리 크기

    • malloced

      • 현재 arcus 프로세스가 사용하는 메모리 크기

      • arcus는 캐시 아이템이 만료되거나 제거되었을 때 즉시 메모리를 해제하는 것이 아닌 해당 공간을 재사용할 수 있도록 동작합니다. 그리고 캐시 아이템 외에 부수적인 데이터들도 포함되기 때문에 실제 캐시 아이템이 차지하는 메모리 크기인 bytes 지표보다 큰 값을 가집니다.

    • memlimit

      • arcus 프로세스에 할당된 최대 메모리 제한량

    • out of memory

      • 캐시 아이템 저장을 요청했을 때 다른 아이템이 evict되었음에도 새로운 Item의 크기를 저장할 공간이 없어 실패한 횟수

  • CPU

    • user / system

      • arcus 프로세스의 CPU 사용량

  • Network

    • read / written

      • 네트워크 사용량

    • curr / max connections

      • 사용 중인 TCP 커넥션 개수 / 최대 TCP 커넥션 개수

  • Items

    • items

      • lazy free 방식으로 인해 만료된 아이템을 즉시 expire 시키지 않기 때문에, 실제 유효한 아이템들보다 더 크게 나올 수 있습니다.

    • reclaimed

      • expire time이 지난 캐시 아이템을 제거하고 메모리를 회수한 횟수

    • evicted

      • 할당된 메모리를 모두 사용한 상태에서 새로운 아이템을 할당하기 위해 LRU 알고리즘에 의해 제거된 아이템 개수

    • prefixes

      • 존재하는 prefix의 총 개수

  • Performance

    • heartbeat

      • 스스로 요청을 보내 처리 가능한 상태인지 확인하고 수행 시간을 측정한 값

      • 일반적인 상황이라면 10ms 이내여야 합니다.

    • QOS get / set

      • 특정 연산들에 대한 요청을 보낸 후 수행 시간을 측정한 값

  • Operations

    • operation 횟수

      • KV / List / Set / ...

    • hit ratio

      • KV / List / Set / ... 조회 명령 중 키가 존재하여 연산이 성공한 비율

Prefix

  • 캐시 서버에 존재하는 Prefix에 대한 정보를 확인할 수 있는 대시보드

메트릭 소개

  • stacked items

    • 해당 Prefix를 가진 아이템 개수

  • stacked size

    • 해당 Prefix를 가진 아이템 중 타입 별로 차지하는 용량

  • creation time

    • 최초로 해당 Prefix를 가진 아이템의 생성일

  • Operations

    • Prefix 별 KV / List / Set / ... operation 횟수

  • hit ratio

    • KV / List / Set / ... 조회 명령 중 키가 존재하여 연산이 성공한 비율

Replication

  • 캐시 복제 그룹의 상태를 확인할 수 있는 대시보드

메트릭 소개

  • wait_client_count

    • 동기 복제에서, cset item(변경로그 아이템)이 slave에 반영되기를 기다리는 connection 개수

  • state

    • 복제 작업의 상태

  • cset_per_sec

    • 초당 message channel에 전송한 cset item 개수

  • cset_stacked

    • 아직 전송되지 않아 버퍼에 쌓여 있는 cset item 개수

ZooKeeper

  • 클러스터를 관리하는 ZooKeeper 서버의 상태를 확인할 수 있는 대시보드

  • ZooKeeper의 Znode 정보, 리소스 사용량, 성능 등을 모니터링할 수 있습니다.

Compare System/Arcus

  • 여러 장비 혹은 캐시 서버에 대한 메트릭을 비교해 한 눈에 볼 수 있는 대시보드

Last updated