AWS 비용 폭탄 방지 체크리스트: 예산 알림·태그·권한·한도 설정 가이드

AWS 비용 폭탄은 예산 알림, 태그, 권한, 서비스 한도 같은 기본 통제장치만 제대로 잡아도 상당 부분 예방할 수 있습니다. 이 글에서는 실제 비용 사고를 막기 위해 꼭 점검해야 할 AWS 운영 체크리스트를 정리합니다.

  • 대부분의 비용 데이터는 실시간이 아닙니다. 예를 들어 AWS Budgets는 “하루에 최대 3번 업데이트”, 보통 업데이트 간격이 8~12시간이라고 문서에 명시돼 있습니다. (AWS Documentation)
  • 그래서 한 방에 완벽히 막는 버튼은 없고, 여러 겹으로 방어막을 세워야 합니다.

아래는 실무에서 활용할 수 있는 “최소 비용 폭탄 방지 세트”로 권하는 체크리스트입니다.

AWS 비용

한 장 체크리스트(핵심만 요약)

영역 지금 당장 해야 할 설정 폭탄 방지 효과
예산 알림 CloudWatch Billing Alarm + AWS Budgets + Cost Anomaly Detection 3종 세팅 “늦게라도 반드시 울리게” 3중 안전장치
태그 Cost allocation tags 활성화 + 필수 태그 정의 “누가 썼는지 모르는 비용” 제거
권한 Billing/Cost 권한 분리 + Region 제한 + 고비용 리소스 생성 제한(SCP/IAM) 실수/남용으로 큰 리소스 생성 차단
한도(쿼터) Service Quotas 알람 + 자동 관리(80%/95%) 확장/증가가 임계치 접근 시 경보

1) 예산 알림: “실시간은 아니지만, 무조건 울리게” 3겹으로 만든다

1-1. CloudWatch Billing Alarm(최소 필수)

CloudWatch로 Estimated Charges(예상 청구액)를 감시할 수 있습니다. 문서에 따르면 “예상 청구액이 계산되어 하루에 여러 번 CloudWatch로 전송”됩니다. 여기에는 중요한 운영 포인트도 2개가 있습니다:

  • Billing metric 데이터는 us-east-1(버지니아 북부) 리전에 저장되며 전 세계 청구액을 대표합니다. (AWS Documentation)
  • 알람은 “예측”이 아니라 현재 청구액이 임계치 초과 시만 울립니다. (AWS Documentation)

추천 알람 임계치(입문자 기본값)

  • 알람 1: 월 예산의 50%
  • 알람 2: 월 예산의 90%
  • 알람 3: 월 예산의 110%(“지금 당장 대응”용)

팀이 작을수록 “작은 금액”에서도 울리게 하세요. 폭탄은 늘 작은 누수에서 시작합니다.


1-2. AWS Budgets(Actual + Forecast) 설정

AWS Budgets는 “예산 기반” 통제의 중심입니다. 다만 앞서 말했듯 Budgets는 하루 최대 3회 업데이트, 보통 8~12시간 텀이므로 “즉시 차단” 용도로 믿으면 위험합니다.

그럼에도 꼭 해야 하는 이유

  • Actual(실제)뿐 아니라 Forecast(예측) 기반으로도 경보를 걸어 “월말 폭탄”을 선제적으로 잡기 좋습니다.
  • 이메일과 SNS로 알림을 보낼 수 있습니다. (AWS Documentation)

Budgets 알림 설계(추천 패턴)

  • 월 전체 비용 예산 1개(Actual 80/100, Forecast 100)
  • 고위험 서비스 예산 3~5개
    예: NAT Gateway/데이터 전송, CloudWatch Logs, EC2 GPU, RDS, OpenSearch 등

Budgets 알림 수신자 제한(운영 팁)

Budgets 알림은 “알림 1개당” 이메일은 최대 10개, SNS는 1개(총 11 subscriber) 형태로 제한이 있다는 점을 알고 설계하세요. 현실적인 해법은 이메일을 여러 명에게 뿌리기보다 SNS 1개로 팬아웃(슬랙/이메일/자동화)하는 방식이 관리가 쉽습니다. (AWS Documentation)


1-3. Cost Anomaly Detection(이상 지출 탐지) + “IMMEDIATE” 알림

AWS Cost Anomaly Detection은 머신러닝으로 비정상 지출 패턴을 탐지하고 알림을 보내는 기능이라고 문서에 명시돼 있습니다. 알림은 이메일 또는 SNS로 받을 수 있고, 특히 “IMMEDIATE” 주기에서는 SNS로 전송된다는 API 설명이 있습니다. (AWS Documentation)

추천 세팅(입문자용)

  • Monitor(모니터): 전체 서비스 / 전체 계정(또는 핵심 계정)
  • Alert: 작은 금액(예: 하루 10~30달러)도 초기에 민감하게
    → “초기엔 과민하게”, 안정화되면 임계치 상향

Slack/Teams로 보내고 싶다면
Cost Anomaly Detection 이벤트는 AWS User Notifications로 전달 채널을 구성할 수 있고, 이메일뿐 아니라 Slack/Teams 등도 안내되어 있습니다. (AWS Documentation)


1-4. (고급) Budgets Actions로 “자동 제동장치” 걸기

AWS Budgets는 “경보”에서 끝나지 않고, 예산 초과 시 액션을 걸 수 있습니다.
공식 문서에서 Budgets Actions는 IAM Policy 또는 SCP 적용, 혹은 특정 EC2/RDS 인스턴스 대상으로 제어 같은 액션을 지원합니다. (AWS Documentation)

실무 추천 방식

  • 80%: 알림만(사람이 확인)
  • 100%: “신규 생성 제한” SCP 적용(프로덕션 영향 최소)
  • 120%: 더 강한 제한(긴급 대응 플로우)

주의: Budgets 업데이트는 실시간이 아니므로(8~12시간 지연 가능) (AWS Documentation)
“비용 폭탄이 이미 커진 다음에 브레이크가 걸릴 수” 있습니다. 그래서 CloudWatch Billing Alarm + Anomaly Detection을 함께 두는 게 정석입니다.


2) 태그: “누가 썼는지 모르는 비용”이 폭탄의 시작

2-1. Cost allocation tags 활성화(진짜 중요)

리소스에 태그를 달아도, Billing에서 비용 분석에 쓰려면 Cost allocation tags로 ‘활성화’해야 합니다. (AWS Documentation)

그리고 실무에서 자주 놓치는 사실:

  • 사용자 정의 태그 키가 Cost allocation tags 페이지에 보이기까지 최대 24시간,
    활성화 자체도 최대 24시간 걸릴 수 있습니다. (AWS Documentation)
  • Organizations를 쓰는 경우, 관리(Management) 계정만 cost allocation tags 관리자에 접근할 수 있다고 안내합니다. (AWS Documentation)

즉, “나중에 태그 정리하자”는 말은 비용 할당하는 것이 영원히 꼬일 수 있다는 뜻입니다.


2-2. 필수 태그 6종(입문 표준)

태그 키 예시 목적
CostCenter KR-1001 회계/부서 귀속
Project visa-app 프로젝트 단위 비용
Env prod/stage/dev dev 비용 폭탄 즉시 파악
Owner email/Slack ID “연락할 사람” 확보
Service api/batch 서비스별 손익
ExpiresOn 2026-02-01 임시 리소스 청소

2-3. 태그 강제(Enforcement): “권장”이 아니라 “차단”으로

(1) Tag Policies(Organizations)로 표준화/강제

AWS Organizations의 Tag policy는 조직 전체에서 태그 규칙을 표준화하고, Required tag key 같은 기능을 “enforcement mode”로 적용할 수 있다고 설명합니다. (AWS Documentation)

(2) IAM 조건키로 “태그 없으면 생성 금지”

IAM 문서에서 aws:RequestTag/key-nameaws:TagKeys 조건 키로 요청에 포함되는 태그를 제어할 수 있다고 안내합니다. (AWS Documentation)

예시(개념용) — “EC2 생성 시 필수 태그 없으면 거부”:

{
  "Version": "2012-10-17",
  "Statement": [
    {
      "Sid": "DenyCreateWithoutTags",
      "Effect": "Deny",
      "Action": [
        "ec2:RunInstances",
        "ec2:CreateVolume"
      ],
      "Resource": "*",
      "Condition": {
        "Null": {
          "aws:RequestTag/CostCenter": "true",
          "aws:RequestTag/Owner": "true",
          "aws:RequestTag/Env": "true"
        }
      }
    }
  ]
}

현실 팁: 모든 서비스/액션이 “생성 시 태그”를 완벽히 지원하는 건 아닙니다. 그래서 (IAM으로 막기 + Config로 탐지/시정) 조합이 안전합니다.

(3) AWS Config로 “태그 누락 탐지 + 리메디에이션”

AWS Config의 required-tags 규칙은 태그가 없는 리소스를 찾아낼 수 있고 리메디에이션도 가능하지만, 문서에서 “생성을 막지는 않는다”고 명확히 말합니다. (AWS Documentation)
그래서 Config는 사후 통제, IAM/SCP는 사전 통제로 역할 분담을 하세요.


3) 권한: Billing/Cost 권한이 열려 있으면 “실수 + 남용”이 바로 돈이 된다

3-1. Billing/Cost 권한은 ‘역할 분리’가 기본

최소한 아래 3개 역할로 쪼개세요.

  1. Billing Admin(극소수): 결제수단/세금/예산 액션/조직 거버넌스
  2. FinOps Viewer(다수): 비용 조회/대시보드/리포트
  3. Engineer(일반): 리소스 운영(단, 생성 가드레일 적용)

AWS Cost Management 권한 문서에서는 Billing과 Budgets/Cost Explorer 권한이 어떤 액션으로 제어되는지 정리하고 있고, 예를 들어 budgets:ViewBudget를 쓰려면 ViewBilling도 필요하다는 식의 관계를 설명합니다. (AWS Documentation)

또한 주의할 점:

  • aws-portal 네임스페이스 액션이 2023년 7월 표준 지원 종료되었다는 안내가 있으니, 조직 상황에 맞게 정밀 권한(fine-grained) 체계로 마이그레이션을 검토하세요. (AWS Documentation)

3-2. “관리 계정에서만 가능한 일”을 이해하라(Organizations)

현장에서 폭탄이 나는 흔한 이유 중 하나가 이거예요:
“멤버 계정에서 뭔가 설정했다고 생각했는데, 사실 관리 계정에서만 되는 기능이었다.”

예를 들어 Cost Anomaly Detection도 문서에 linked account, cost allocation tags, cost categories 기반 모니터는 관리 계정에서만 생성 가능하다고 안내합니다. (AWS Documentation)
Cost allocation tags도 관리 계정 중심으로 운영된다고 안내되어 있습니다. (AWS Documentation)


3-3. Region 제한(초강력 실수 방지)

“콘솔에서 Region 잘못 선택해서 고비용 리소스 생성”은 생각보다 자주 터집니다.

IAM 예시 문서에서 aws:RequestedRegion 조건 키로 허용된 Region 외 요청을 Deny하는 패턴을 안내합니다. (AWS Documentation) Control Tower도 Region deny 제어가 aws:RequestedRegion 기반으로 동작한다는 예시를 제공합니다. (AWS Documentation)

추천

  • prod 계정: 리전 1~2개만 허용(서울/도쿄 등)
  • dev 계정: 리전 제한 + 예산 알림 더 민감하게

4) 한도(서비스 쿼터): “조용히 커지기 전에” 알람으로 잡는다

AWS의 Service Quotas는 서비스별 기본 한도를 보여주고, 어떤 한도는 증설 요청도 가능합니다. 중요한 건 “한도를 낮춰서 비용을 막는다”라기보다:

  • 한도 근접 시점에 알람을 울리고
  • 실수/폭주/자동확장 이상을 초기에 발견하는 용도로 쓰는 겁니다.

4-1. Service Quotas → CloudWatch 알람 연동

Service Quotas 사용자 가이드에 “쿼터 값 임계치에 가까워질 때 알리기 위해 CloudWatch 알람을 만들 수 있다”고 명시돼 있습니다. (AWS Documentation) 또 CloudWatch는 일부 서비스에 대해 쿼터에 대응하는 사용량 지표를 AWS/Usage 네임스페이스로 수집하며, 매분 수집된다고 설명합니다. (AWS Documentation)

추천 알람(운영 실무)

  • 70%: “관찰”
  • 85%: “조치 필요”
  • 95%: “긴급”

4-2. Service Quotas Automatic Management(80%/95% 자동 알림)

Service Quotas Automatic Management는 쿼터 사용량을 모니터링하고, 80% / 95% 임계치에서 알림을 줍니다. (AWS Documentation) 또한 이메일/Slack 등 여러 채널과 EventBridge 기반 자동화도 안내합니다. (AWS Documentation)

비용 폭탄 방지 관점에서는 “Auto-Adjust(자동 증설)”보다는, Notify Only로 “알림 중심” 운용이 더 안전한 경우가 많습니다(실수 폭주를 자동으로 더 키우지 않기 위해).


(실전) 30분 만에 끝내는 “AWS 비용 폭탄 방지 최소 세트”

1) CloudWatch Billing Alarm 3개

  • 50% / 90% / 110%
  • us-east-1에서 생성 (Billing metric이 그 리전에 있음) (AWS Documentation)

2) AWS Budgets 2종

  • 월 총 비용(Actual 80/100, Forecast 100)
  • 고위험 서비스 3개(CloudWatch Logs/EC2/RDS 같은 핵심)
  • Budgets는 8~12시간 업데이트 지연 가능성 감안 (AWS Documentation)

3) Cost Anomaly Detection 1개 + IMMEDIATE 알림(SNS)

4) Cost allocation tags 활성화 + 필수 태그 6종 공표

5) Region 제한(권한 가드레일)

  • aws:RequestedRegion 기반 Deny 정책/Control Tower 제어 검토 (AWS Documentation)

6) Service Quotas 알람(핵심 3개만)

  • EC2 관련, NAT/네트워크 관련, 로그/모니터링 관련(팀 상황에 맞게)
  • CloudWatch로 쿼터 근접 알림 구성 (AWS Documentation)

FAQ

Q1. AWS Budgets 알림은 실시간인가요?

아니요. AWS 문서에 따르면 Budgets 정보는 하루 최대 3번 업데이트되며, 업데이트는 보통 이전 업데이트 후 8~12시간 뒤에 발생한다고 안내되어 있습니다. (AWS Documentation)

Q2. CloudWatch Billing Alarm은 어디 리전에서 만들어야 하나요?

Billing metric 데이터는 US East (N. Virginia) 리전에 저장된다고 문서에 명시돼 있습니다. 따라서 알람 생성 시 리전을 그쪽으로 맞춰야 합니다. (AWS Documentation)

Q3. Cost Anomaly Detection은 뭐가 다른가요?

AWS 문서에서 Cost Anomaly Detection은 머신러닝으로 비정상 지출 패턴을 탐지하고 알림을 주는 기능이라고 설명합니다. (AWS Documentation)

Q4. Budgets 알림을 이메일 20명에게 보내고 싶어요. 가능한가요?

Budgets 알림은 “알림 1개당” 이메일 최대 10개 + SNS 1개(총 11 subscriber) 제한이 문서/API에 안내돼 있습니다. 보통 SNS로 받은 뒤 Slack/메일링으로 팬아웃하는 방식이 운영에 유리합니다. (AWS Documentation)

Q5. Cost allocation tags는 왜 ‘활성화’가 필요한가요?

AWS Billing 문서에서 cost allocation tags를 활성화하고 비용을 태그로 분석하는 흐름을 안내하며, 태그 키가 나타나거나 활성화되는 데 최대 24시간 걸릴 수 있다고 명시합니다. (AWS Documentation)

Q6. 태그 강제는 어디까지 가능한가요?

IAM은 aws:RequestTag/aws:TagKeys 같은 조건 키로 요청 태그를 제어할 수 있고, Organizations의 Tag policies는 “Required tag key” 같은 방식으로 enforcement를 지원한다고 안내합니다. (AWS Documentation)
다만 AWS Config required-tags는 “탐지/리메디에이션” 중심이며, 문서에서 생성을 막지 않는다고 설명합니다. (AWS Documentation)


AX 100배의 법칙 AX 100배의 법칙
– 나와 조직의 능력을 100배 높이는 AI 경영의 실제

도서 구매

함께 읽으면 좋은 글:

디지털 트랜스포메이션: 조직의 습관을 바꾸는 일, 도서 구매







. .


함께 읽으면 좋은 글

한눈에 보는 체크포인트

  • 알림, 태그, 권한, 한도 설정은 AWS 비용 사고를 줄이는 기본 4종 세트입니다.
  • Budgets는 실시간이 아니므로 여러 겹의 방어가 필요합니다.
  • 비용 최적화는 단발성 점검보다 운영 루틴으로 만들 때 효과가 큽니다.

자주 묻는 질문

AWS 비용 폭탄을 가장 빨리 막는 방법은 무엇인가요?

예산 알림과 IAM 권한 제한, 태그 정책, 주요 서비스 한도 점검을 동시에 적용하는 것이 가장 빠릅니다.

이 글과 FinOps 글은 어떻게 다르나요?

이 글은 사고 예방 체크리스트 중심이고, FinOps 글은 더 넓은 비용 운영 체계와 협업 관점을 다룹니다.

클라우드 비용 최적화(FinOps) 입문: 비용을 줄이는 12가지 실전 방법


클라우드 비용 최적화는 단순 절감이 아니라, 누가 왜 비용을 쓰는지 보이게 만들고 더 나은 의사결정을 가능하게 하는 운영 체계입니다. 이 글에서는 FinOps 관점에서 실제 청구서를 줄이는 12가지 실전 방법을 정리합니다.

FinOps Foundation은 FinOps를 클라우드·기술의 비즈니스 가치를 극대화하고, 데이터 기반 의사결정과 책임 있는 비용 관리를 위해(엔지니어링·재무·비즈니스가) 협업하는 운영 프레임워크/문화로 정의합니다. (FinOps Foundation) 또한 FinOps는 Inform → Optimize → Operate 3단계를 반복적으로 돌리는 여정(라이프사이클)로 설명됩니다. (FinOps Foundation)

아래 12가지는 이 3단계를 실무로 “바로 실행”할 수 있게 만든 체크리스트입니다. (단, ‘절반’은 모든 조직에 보장되는 숫자는 아니고, 낭비가 큰 팀/태깅이 없는 팀/할인제도가 미적용인 팀일수록 절감 폭이 커지는 경향이 있습니다.)

클라우드 비용 최적화

클라우드 비용 최적화, FinOps 3단계 로드맵

  • Inform(보이게 하라): 비용 데이터, 태그/라벨, 예산·알림
  • Optimize(줄여라): 권장 사이징, 스케줄링, 할인제도, Spot, 스토리지/네트워크/로그
  • Operate(지속하라): 루틴·정책·자동화·KPI

1) (Inform) “상세 청구 원장”부터 만들기: CUR/Exports/Billing Export

절감하고자 할 때 무엇인가를 보는 것이 그 첫 단추며, 항상 여기서 시작합니다. 콘솔에서 보는 그래프만으로는 ‘왜’가 안 보입니다. 그래서 1차 목표는 “청구서를 분석 가능한 형태로 자동 적재”하는 것입니다.

  • AWS: Cost and Usage Reports(CUR)는 “가장 포괄적인 비용/사용량 데이터”이며 S3 버킷에 게시하고, 시간/일/월 단위·태그 단위로 비용을 쪼갤 수 있습니다. (AWS Documentation)
  • Azure: Cost Management Exports는 비용 데이터를 Azure Storage로 일/월 단위 자동 내보내기(반복 작업)로 설명됩니다. (Microsoft Learn)
  • GCP: Cloud Billing export to BigQuery는 상세 과금 데이터를 하루 중에도 자동으로(BigQuery로) 지속적으로 내보내기한다고 설명합니다. (Google Cloud Documentation)

실행 팁

  • “어디에 저장할지”부터 결정: (S3/Storage/BigQuery) + BI 도구(예: Looker Studio, Power BI 등)
  • 최소 컬럼: 서비스/리전/프로젝트(계정)/태그/라벨/사용량/단가/비용
  • 조직이 커질수록 “원장 + 대시보드”가 비용 절감의 기본 인프라가 됩니다.

2) (Inform) 태그/라벨이 없으면 100% 실패한다: 비용 귀속(Allocation) 체계 만들기

FinOps Framework의 Allocation(귀속) capability는 계정, 태그, 라벨 같은 메타데이터로 비용을 팀/프로젝트에 배분해 책임감을 만든다고 설명합니다. (FinOps Foundation)

추천 “필수 태그/라벨 6종” (입문용 표준)

예시목적
teammarketing / backend소유 팀
serviceweb / api / batch서비스 단위
envprod / stage / dev환경별(특히 dev 낭비 잡기)
owneremail/슬랙핸들책임자
cost_center1001 / KR-SaaS회계 귀속
lifecyclepermanent / temporary임시 리소스 자동 정리

클라우드별 “태그/라벨이 비용에 반영되는 방식”

  • AWS: 비용 추적에 쓰려면 Cost allocation tags를 활성화해야 합니다. (AWS Documentation) 또한 태그가 Billing에 나타나기까지 최대 24시간 걸릴 수 있으니 참고하세요. (AWS Documentation)
  • Azure: 태그로 비용을 그룹화할 수 있고(cm-resource-parent 등), Cost Management에서 태그 기반으로 조회 가능합니다. (Microsoft Learn)
  • GCP: 라벨은 비용 관리를 위해 쓰이며, 라벨 정보가 billing system으로 전달되어 비용을 라벨로 분해/그룹화할 수 있습니다. (Google Cloud Documentation)

가장 중요한 주의사항: “태그는 소급 적용이 안 된다”

FinOps 비용 배분 가이드에서는 태그는 사후에 과거 비용에 소급 적용할 수 없습니다. GCP도 Billing Report에서 라벨을 붙인 이후의 비용만 라벨 기준으로 분석된다고 하니 참고하세요. (Google Cloud Documentation)

➡️ 그래서 “태그 먼저, 리소스 나중”이 정답입니다.


3) (Inform) 예산(Budgets)·알림(Alerts)은 “연기 감지기”다: 무조건 켜라

대부분의 비용 폭탄은 “큰 사고”가 아니라 작은 누수(로그 폭주, 테스트 VM 방치, 잘못된 배치 루프)에서 시작합니다.

  • AWS Budgets: 서비스별 지출 한도를 정하고, 비용이 임계치에 근접/초과하면 알림을 받을 수 있습니다. (AWS Documentation)
  • Azure Cost Management: 예산 알림이 “사용량/비용이 조건을 만족하면 알림”을 받을 수 있습니다. (Microsoft Learn)
  • GCP Cloud Billing budgets: 예산을 만들고 임계값 규칙에 따라 이메일 알림을 트리거할 수 있으며, 자동화 응답에도 활용할 수 있습니다. 또한 Pub/Sub로 프로그램 방식 알림 연결도 가능합니다. (Google Cloud Documentation)

입문자 설정값 추천

  • 월 예산 100% 기준: 알림을 50% / 80% / 100% / 120%로 4단계
  • “특정 서비스 예산”: (예: Logging/BigQuery/NAT/CloudWatch) 같은 폭탄 후보군 따로 잡기

4) (Inform→Operate) “이상 지출”을 자동 탐지하라: 추세/드라이버/이상치

예산은 “한도 초과”만 알려주고, 이상치(갑자기 튄 비용)는 놓칠 수 있습니다. 그래서 추세와 원인(드라이버)을 주기적으로 잡아야 합니다.

  • AWS Cost Explorer는 비용/사용량을 시각화·분석하고 이상 징후(anomalies)를 탐지하는 데도 도움이 됩니다. (Amazon Web Services, Inc.)

실행 팁(주 1회 루틴)

  • “지난 7일 Top 10 비용 서비스”
  • “증가율 Top 10(전주 대비)”
  • “태그 없는 비용 비중”
  • “데이터 전송(egress) 증가 여부”

5) (Optimize) Rightsizing은 ‘절감의 왕’: 추천 엔진을 그대로 믿지 말고 “검증 후 적용”

비용의 대부분은 컴퓨트(EC2/VM/GCE) + DB + 로그에서 나옵니다. 여기서 가장 빠른 절감이 Rightsizing입니다.

  • AWS Compute Optimizer: 과다/과소 프로비저닝을 찾아 더 효율적인 리소스 추천으로 비용 절감·성능 개선 효과를 거둘 수 있습니다. (Amazon Web Services, Inc.)
  • Azure Advisor: 유휴/저활용 리소스를 식별해 비용 절감을 진행할 수 있습니다. (Microsoft Learn)
  • GCP Recommender: Google Cloud에서 리소스 사용을 기반으로 추천/인사이트를 제공하는 서비스입니다. (Google Cloud Documentation)

실전 적용 순서

  1. 추천 목록 뽑기 → 2) CPU/메모리/IO 피크 확인 → 3) “한 단계만” 축소 → 4) 1~2주 모니터링 → 5) 추가 축소

6) (Optimize) 개발/스테이징은 “근무시간 외 자동 OFF” + 유휴 리소스 청소

클라우드 비용 절감이 쉬운 이유: 돈 먹는 리소스를 끄면 즉시 절감이기 때문입니다.

특히 정리해야 하는 대표 “유휴 비용”

  • 종료된 VM이 남긴 디스크(볼륨)
  • 테스트용 DB/캐시 인스턴스 방치
  • 사용 안 하는 로드밸런서/공인 IP 등

예를 들어 AWS에서는 분리(Detached)된 EBS 볼륨이 붙지 않아도 요금이 발생할 수 있어, 이를 자동 식별/관리하는 접근을 진행해야 합니다. (Amazon Web Services)
또 Compute Optimizer도 unattached EBS, idle EC2 등 유휴 리소스 감지도 필요합니다.

초보자용 “정책 3줄”

  • env=dev는 기본 스케줄 OFF (예: 19:00~09:00, 주말 OFF)
  • lifecycle=temporary는 7일 후 자동 종료(예외 승인제)
  • 태그 없는 리소스는 생성 차단(정책/IaC로)

7) (Optimize) 약정 할인(Commitment Discounts) 적용: “안 하면 손해, 잘못하면 더 손해”

가장 큰 할인은 보통 “약정”에서 나옵니다. 하지만 잘못 사면 안 쓰는 약정을 매달 갚게 됩니다.

클라우드별 대표 약정/할인 제도

입문자 전략(안전한 순서)

  1. 자동 할인(SUD) / 유휴 제거 / Rightsizing 먼저
  2. “기본 베이스라인”이 1~2달 안정화되면
  3. 그때 Savings Plan / Reservations / CUD로 들어가기

8) (Optimize) Spot(중단 가능 인스턴스)로 ‘비배치’ 비용을 크게 깎기

CI/CD, 배치, 렌더링, 워커, 크롤링, dev/test처럼 중단돼도 다시 돌릴 수 있는 작업은 Spot이 강력합니다.

실무 팁

  • “Spot 전용”이 아니라 On-demand + Spot 혼합(폴백) 구조로 설계
  • 작업 큐/재시도, 체크포인팅, stateless 설계가 핵심

9) (Optimize) 스토리지는 ‘수명주기 자동화’로 줄인다: Lifecycle 정책은 필수

스토리지는 “GB당 단가”가 싸 보여도, 로그·백업·아카이브가 쌓이면 크게 불어납니다. 해결책은 자동화입니다.

  • AWS S3 Lifecycle: 객체를 더 저렴한 스토리지 클래스로 전환(transition)해 비용 절감 필요 (AWS Documentation)
  • Azure Blob lifecycle management: hot/cool/cold/archive 계층 간 자동 이동 규칙을 만들어 사용 (Microsoft Learn)
  • GCP Cloud Storage lifecycle: 조건을 만족하면 객체를 삭제(Delete)하는 액션 등을 정의 (Google Cloud Documentation)

주의(중요): ‘조기 삭제 비용’ 같은 함정도 있음
Azure는 특정 티어에서 조기 삭제(early deletion) 비용이 발생할 수 있으니 주의가 필요합니다. (Microsoft Learn)


10) (Optimize) 네트워크/데이터 전송(egress)이 진짜 복병이다

클라우드 비용 폭탄에서 흔한 패턴:
“서비스는 작은데, 데이터 전송이 커졌다.”

  • AWS: EC2 온디맨드 가격 페이지에 Data Transfer In = $0.00/GB이나 인터넷으로의 Data Transfer Out은 조건이 있으며 매달 100GB 무료 (Amazon Web Services, Inc.)
  • Azure: Bandwidth pricing FAQ에서 인바운드 무료, 아웃바운드 과금 (Microsoft Azure)
  • GCP: Network Tiers pricing에서 Ingress는 여전히 무료, Egress는 per GiB로 과금된다고 안내합니다. (Google Cloud)

비용 줄이는 설계 팁(초보자용)

  • 같은 리전/존 내 통신으로 설계(불필요한 cross-region 줄이기)
  • 이미지/정적 파일은 CDN 캐싱
  • 데이터 전송이 큰 워크로드는 “원본 저장소/컴퓨트”를 가깝게 배치

추가로 AWS CloudFront는 CloudFront ↔ AWS 오리진 간 데이터 전송 비용이 자동 면제(waived)되기 때문에, 구조에 따라 전송비 최적화에 도움이 될 수 있습니다. (Amazon Web Services, Inc.)


11) (Optimize) 로그/모니터링 비용: “쌓이는 비용”을 통제하라

로그는 방치하면 소리소문 없이, 꾸준히 돈을 먹습니다. 핵심은 보관기간(retention)·샘플링·라우팅입니다.

  • AWS CloudWatch Logs: 기본적으로 로그를 무기한 저장하지만, 로그 그룹별로 보관 기간을 설정해야 합니다. (AWS Documentation)
  • Azure Log Analytics( Azure Monitor Logs ): 테이블별/워크스페이스별 보관 정책을 구성할 수 있습니다. (Microsoft Learn)
  • GCP Cloud Logging: 로그 버킷 보관기간은 기본 30일이며, 1~3650일로 커스텀 가능합니다. (Google Cloud Documentation)

입문자 5분 체크

  • dev 환경 로그 retention을 7~14일로 낮출 수 있는가?
  • INFO 로그 과다(루프/배치) 여부
  • 액세스 로그/트레이스는 샘플링 가능한가?
  • “반드시 필요한 로그”만 장기 보관(컴플라이언스는 별도)

12) (Operate) FinOps는 “한 번”이 아니라 “루틴”이다: 회의 30분으로 비용이 유지된다

FinOps 원칙에서 강조하는 것처럼 팀 간 협업이 핵심입니다. (FinOps Foundation)
따라서 비용 절감을 “한 번의 프로젝트”로 끝내면 다시 원복됩니다.

주간 FinOps 30분 미팅 아젠다(실무 템플릿)

  1. 지난주 비용 TOP 5 서비스(증가 이유 1줄씩)
  2. 태그 누락 비용(%)
  3. 권장 사항(Compute Optimizer/Advisor/Recommender) 처리율
  4. “약정 커버리지” 및 낭비(미사용 약정 여부)
  5. 이번 주 액션 3개만 선정(담당/마감)

KPI 예시(입문용)

  • Allocated spend % = 태그/라벨로 귀속된 비용 비율
  • Idle waste $ = 유휴 리소스 추정 비용
  • Commitment coverage % = 안정 구간에 약정이 적용된 비율
  • Cost per unit = 사용자 1명/요청 1만건/주문 1건당 비용(“단위경제”)

(보너스) 30일 FinOps 스타터 플랜: 이대로만 해도 “체감” 납니다

1주차(가시화)

2주차(귀속)

  • 필수 태그/라벨 6종 배포
  • 태그 없는 리소스 생성 제한(정책/IaC)

3주차(최적화)

4주차(할인·지속 운영)


FAQ

Q1. FinOps는 정확히 뭐예요?

FinOps Foundation은 FinOps를 클라우드·기술의 비즈니스 가치를 극대화하고, 데이터 기반 의사결정과 책임 있는 비용 관리를 위해 엔지니어링·재무·비즈니스가 협업하는 운영 프레임워크/문화로 정의합니다. (FinOps Foundation)

Q2. FinOps는 어떤 단계로 시작하나요?

FinOps 여정은 Inform, Optimize, Operate 3단계를 반복적으로 수행한다고 안내됩니다. (FinOps Foundation)

Q3. “태깅”은 왜 그렇게 중요해요?

FinOps Framework의 Allocation은 계정/태그/라벨 같은 메타데이터로 비용을 배분해 책임과 의사결정을 가능하게 한다고 설명합니다. (FinOps Foundation)
또한 태그/라벨은 과거 비용에 소급 적용이 어렵다는 점이 반복해서 강조됩니다. (FinOps Foundation)

Q4. 약정 할인은 언제부터 사는 게 좋나요?

먼저 낭비 제거와 권장 사이징으로 “기본 사용량(베이스라인)”을 안정화한 뒤에 들어가는 편이 안전합니다. 참고로 AWS는 Savings Plans로 최대 72%, Azure는 savings plan으로 최대 65% 절감을 안내합니다. (Amazon Web Services, Inc.)

Q5. Spot 인스턴스는 정말 많이 싸요?

공식 페이지 기준으로 AWS Spot은 최대 90%, Azure Spot VM은 최대 90%, GCP Spot VM은 최대 91% 할인으로 안내됩니다. 다만 중단(preempt/evict)될 수 있으므로 중단 내성이 있는 워크로드에 적합합니다. (Amazon Web Services, Inc.)

Q6. 로그 비용은 어떻게 줄이나요?

클라우드별로 보관 기간(retention)을 줄이거나 정책화하는 것이 기본입니다. AWS는 로그 그룹별 보관기간 설정을 안내하고, GCP는 기본 30일/최대 3650일 보관기간 설정을 안내합니다. (AWS Documentation)


AX 100배의 법칙
AX 100배의 법칙
– 나와 조직의 능력을 100배 높이는 AI 경영의 실제

도서 구매

함께 읽으면 좋은 글:

디지털 트랜스포메이션: 조직의 습관을 바꾸는 일, 도서 구매

. .


함께 읽으면 좋은 글