[팀소개]
- SOOP 서비스의 품질을 지속적으로 유지하기 위해 인프라 시스템을
보호하고, 사용자에게 안정적인 서비스 제공을 유지하는 역할을 합니다.
[담당업무]
- SLO/SLI 기반 서비스 신뢰성 도입 및 병목 구간 개선
- 서비스 감시 및 가시성 확보를 위한 Observability 시스템 구축
- 모니터링 및 알람 체계 설계와 지속적 개선
- IaC 기반 인프라 자동화 및 운영
- 장애 대응 및 재발 방지 체계 주도
[자격요건]
- 시스템 성능 분석 및 Capacity Planning 경험을 보유하신 분
- Prometheus, Grafana, Datadog 등의 솔루션 활용 경험을 보유하신 분
- Ansible, Terraform 등 자동화 업무 경험을 보유하신 분
- Kubernetes 기반 컨테이너 환경 운영 경험을 보유하신 분
[우대사항]
- BareMetal / Kubernetes / Cloud 등 다양한 환경의 플랫폼 운영 경험을 보유하신 분
- SLO 기반 Error Budget 관리 및 운영 경험을 보유하신 분
- Python, Go, ShellScript 등 개발 언어 활용 경험을 보유하신 분
- AI/ML 서비스의 실무 적용 및 인프라 구축 경험을 보유하신 분