글쓴이 보관물: seapy

Amazon RDS 삭제 보호 활성화를 운영중인 DB에 적용하기

AWS 에서 제공하는 데이터베이스 서비스인 RDS에 데이터베이스 삭제를 보호하는 기능이 추가되었습니다.

테스트용 데이터베이스를 만들고 지우다가 혹은 콘솔에서 클릭을 잘못해서 우발적으로 데이터베이스를 삭제하는 경우를 막고자 추가된 기능입니다. EC2 에서는 제공되고 있던 기능으로 RDS 는 실수로 지웠을경우 그 파장이 크기 때문에 이런 옵션의 추가는 사용자 입장에서 좋습니다.

이 기능은 모든 AWS 리전의 Amazon Aurora, RDS for MySQL, MariaDB, Oracle, PostgreSQL, SQL Server 에 대해 지원됩니다.

운영중인 DB에 삭제 보호를 활성화시 서비스 영향

삭제 보호 기능이 좋다고는 하지만 삭제 보호 기능을 위해 DB 서비스가 중단된다면 바로 적용하기는 곤란합니다. 그래서 확인 해보니 운영중인 DB에 삭제 보호 기능을 활성화 하더라도 DB 인스턴스의 상태가 바뀌지 않았습니다.

RDS 콘솔에서 DB 인스턴스 수정 페이지 아래쪽의 “삭제방지”를 활성화 하고 다음 버튼을 눌러 봅니다.(AWS 콘솔 번역은 삭제 방지라고 되있지만 저는 그냥 삭제 보호라고 하기로… AWS 블로그에도 삭제 보호라고 되있기도 하구요.)

그리고 즉시 적용을 하면 같이 예기치 않은 잠재적 다운타임이 있다고 나오는데요. 이 메시지는 그냥 항상 보여주는것으로 즉시 적용 해도 DB 인스턴스의 상태가 변하지 않고 적용됩니다.

활성화 된다음에 DB를 삭제하려고 하면 보호 옵션이 활성화 되있다는 메시지와 함께 삭제를 할 수 없습니다.

지금 바로 적용하기

거의 모든 서비스의 제일 중요한 부분은 DB라고 해도 과언이 아니라고 생각합니다. 지금 당장 운영중인 RDS 에 삭제 보호 방지를 활성화 하세요!

게시글의 아마존, iTunes 링크들을 통해 구매를 하시면 제휴(Affiliate) 프로그램에 의해 저에게 일정 금액이 적립될 수 있습니다. ^_____^

PostgreSQL pg_restore 할 때 외래키(foreign key) 제약(constraints) 조건 무시하기

Ignore foreign key constraints when pg_restore

개발하다보면 개발서버 혹은 운영중인 DB 서버의 데이터를 이용해야 하는 경우가 있습니다. 이런 경우 PostgreSQL 에서는 pg_dump, pg_restore를 이용해 백업 및 복원을 진행합니다.

전체 DB를 백업하고 복원하는것은 어렵지 않지만 특정 테이블 하나만 적용하려고 보면 왜래키(Foreign key) 제약 조건으로 인해 복원이 실패하는 경우가 발생합니다. MySQL 의 경우는 외래키 제약 조건을 임시로 중단할수 있는 SQL이 있지만 PostgreSQL 에서는 여러가지 방법을 찾아 봤지만 모두 실패 했고 하나의 성공 방법을 찾았습니다.

monsters 라는 테이블을 운영 DB에서 받아와서 개발 DB에 반영 한다면 아래와 같은 절차로 진행합니다.

pg_dump 명령어를 이용해 monsters 테이블을 파일로 저장합니다.

$ pg_dump -W \
    -h DB_HOST \
    -p DB_PORT \
    -U DB_USER \
    -d DB_DATABASE \
    -F c -b -v \
    -t monsters \
    -f monsters.dump

개발 DB에 접속후 복원하려는 DB와 같은 이름을 가진 테이블을 삭제하는데 이때 cascade 옵션이 중요합니다.

$ psql -U local_db_user -d local_db_name -c 'DROP TABLE IF EXISTS monsters cascade;'

cascade 옵션은 다른 테이블에서 외래키로 참조하고 있는 제약 조건을 같이 삭제합니다. 실행하면 아래와 같이 외래키 제약 조건이 같이 삭제되었다는 메시지가 출력됩니다.

NOTICE:  drop cascades to 4 other objects
DETAIL:  drop cascades to constraint xxx on table regions_111
drop cascades to constraint yyy on table regions_222
drop cascades to constraint zzz on table regions_333
drop cascades to constraint qqq on table regions_444
DROP TABLE

마지막으로 pg_restore 명령어를 이용해 DB를 복원합니다.

$ pg_restore --no-acl --no-owner -U local_db_user -d local_db_name monsters.dump

복원시에는 --no-acl, --no-owner을 주어 원본 DB의 사용자에 할당되어 있는 권한을 제거합니다.

pg_restore 할때 --clean 옵션을 주면 굳이 DROP TABLE 을 따로 안해도 되지만 제약조건이 걸려 있는 경우 복원이 실패합니다. 이런 이유로 DROP TABLE을 복원 전에 실행하는것이 문제 해결의 키입니다.

게시글의 아마존, iTunes 링크들을 통해 구매를 하시면 제휴(Affiliate) 프로그램에 의해 저에게 일정 금액이 적립될 수 있습니다. ^_____^

Terraform(테라폼) 여러 버전 동시에 사용하기

Terraform을 여러 프로젝트에서 사용하다보면 서로 다른 버전을 요구하는 경우가 있습니다. 버전에 따라서 다르게 동작할 가능성도 있어서 모든 프로젝트의 Terraform 버전을 최신버전으로 유지하는것도 어렵습니다.

Terraform에서 프로젝트마다 다른 버전을 사용하는 2가지 방법을 소개합니다.

첫번째 방법 : direnv 이용

direnv는 폴더마다 환경변수를 설정하는데 주로 사용하는 툴입니다. 이러한 특징을 이용하면 폴더마다 PATH를 다른곳을 바라보게 변경하여 폴더마다 다른버전의 Terraform을 사용할수 있습니다.

direnv 소개 및 기본 사용법은 direnv를 사용한 디렉토리(프로젝트) 별 개발환경 구축: 루비, 파이썬, 노드 개발 환경 구축 | 44bits.io를 참고하시기 바랍니다.

  1. Terraform 버전의 실행파일을 다운로드 받습니다.
  2. 현재 프로젝트 폴더 아래 .direnv/terraform/bin 폴더를 생성하고 1번에서 다운로드 받은 파일을 복사합니다.
  3. .envrc파일에 다음 내용을 추가합니다.
load_prefix $(direnv_layout_dir)/terraform
  1. direnv allow 명령어를 실행하여 환경변수를 새로 로딩합니다.

이제 which terraform 명령어를 실행하면 전역으로 설치된 Terraform 이 아닌 현재 폴더에 복사된 Terraform 버전의 실행파일을 바라보고 있음을 알수 있습니다.

두번째 방법 : brew switch 이용

이 방법은 Mac에서만 사용가능 합니다.

brew install terraform 명령어를 이용하면 항상 최신버전의 terraform이 설치됩니다.

현재 설치된 버전이 0.11.8 이고 구버전이 0.11.7 인경우 두 버전을 동시에 사용하는 방법입니다.

  1. /usr/local/Cellar/terraform 폴더로 이동
  2. 새로 추가하려는 버전의 이름으로 폴더 생성(ex 현재 최신버전은 0.11.8 이고 설치하고 싶은 구버전은 0.11.7인 경우 0.11.7 이름으로 폴더 생성)
  3. 생성한 폴더 아래 bin 폴더를 생성하고 해당 버전의 Terraform 실행파일을 홈페이지에서 다운로드후 복사

이제 brew switch terraform 0.11.7 명령어를 실행하면 0.11.7 버전으로 변경되고 brew switch terraform 0.11.8 명령어를 실행하면 0.11.8 버전으로 변경됩니다.

정리

두가지 방법 각자의 장단점이 있는데요. 저는 현재 두번째 방법을 사용하고 있습니다.

첫번째 방법의 경우 .direnv 폴더 아래 Terraform 실행파일과 .envrc 파일 모두 버전관리에 포함시킨다면 다른 컴퓨터에서도 바로 사용할 수 있는 장점이 있습니다. 다만 프로젝트에서 이런방식으로 사용할것을 서로 약속해야하고 버전 업그레이드할때 마다 실행파일을 복사해야 합니다.

두번째 방법의 경우 일반적으로 많이 사용하는 brew 를 이용해서 편하지만 여러개의 Terraform 프로젝트가 있다면 그때마다 switch 를 수동으로 입력해야 하고 Mac 에서만 가능하다는것이 단점입니다.

각각 장단점이 있는데 각자 상황에 맞는 방법을 선택하면 되겠습니다.

게시글의 아마존, iTunes 링크들을 통해 구매를 하시면 제휴(Affiliate) 프로그램에 의해 저에게 일정 금액이 적립될 수 있습니다. ^_____^

빅쿼리 테이블 컬럼 삭제하기

빅쿼리를 사용하다 보면 불필요해진 컬럼이 있어서 삭제하고 싶은 경우가 있습니다. 컬럼을 삭제하지 않고 그냥 둬도 되겠지만 보기에 별로고 데이터 저장비용도 많이 들어갈테니 깔끔하게 삭제하는것이 좋습니다.

빅쿼리에서 테이블 컬럼을 삭제하는 2가지 방법이 있습니다.

  • 1번 : SQL 쿼리를 이용해서 삭제하고자 하는 컬럼을 제외한 모든 데이터를 조회하고 결과를 기존 테이블에 덮어쓰기
  • 2번 : 데이터를 Export 해서 클라우드 스토리지에 저장하고 데이터에서 컬럼을 삭제후 Load job 이용해서 기존 테이블에 덮어쓰기

기존 테이블에 덮어쓰기를 한다는 점에서는 어차피 둘다 동일한 방식입니다.

1번 방법은 데이터 조회에 따른 데이터 스캔 비용이 발생합니다. 2번 방법은 Export, Load job에 대해 비용은 없지만 스토리지 비용이 조금 발생합니다.

현재 저장된 데이터의 크기에 따라 적절한 방법을 선택하면 되겠습니다. 비용을 지불하더라도 편한 방법을 선택하고자 하면 1번을 데이터가 많아서 비용이 부담스럽다면 2번 방법을 선택하면 되겠습니다.

이 글에서는 1번 방법을 이용한 컬럼 삭제를 소개하겠습니다.

#standardSQL
SELECT
 * EXCEPT(top_results)
FROM
 테이블 이름
  1. 위의 쿼리를 입력후 ‘Show Options’ 를 클릭하고 ‘Destination Table’에 덮어쓰기할 테이블을 선택합니다.
  2. ‘Write Preference’는 ‘Overwrite table’을 선택합니다.

이렇게 선택한후 ‘Run Query’ 버튼을 클릭하면 작업이 시작되고 완료되면 기존 테이블에서 컬럼이 삭제됩니다. 이 작업은 데이터 크기에 따라 시간이 오래 걸릴수 있습니다.

생각보다 쉽죠? 하지만 결정적인 단점이 있습니다.

테이블을 생성할때 ‘Partitioning Type’을 지정해서 사용하는 경우 _PARTITIONTIME 필드가 모두 현재시점으로 변경되어 버립니다. 이렇게되면 데이터 스캔 비용 절약을 위해 _PARTITIONTIME를 사용하는 쿼리들에서 잘못된 결과가 나올수 있습니다. 테이블 데이터 크기가 큰경우 _PARTITIONTIME이 한날짜로 리셋되버리는것은 향후 쿼리 비용에 있어 많은 비용을 감당해야되는 상황이 발생할 수 있습니다.

기존 테이블을 계속 유지하고 새로운 테이블에서는 컬럼을 삭제한 상태로 새롭게 데이터를 쌓아가는것도 방법이 될수 있겠습니다.

참고문서

게시글의 아마존, iTunes 링크들을 통해 구매를 하시면 제휴(Affiliate) 프로그램에 의해 저에게 일정 금액이 적립될 수 있습니다. ^_____^

Xcode 에서 Pod 프로젝트의 경고 표시 없애기

Xcode를 이용해 개발을 하다보면 cocoapod를 이용해 외부 라이브러리를 사용하게 되는데요. Swift 언어가 계속해서 발전하다보니 새로운 버전에서 deprecated 되는것들이 많아져서 1년만 지나도 꽤 많은수의 경고문구를 보게 됩니다. 내 프로젝트의 경우 소스코드를 직접 수정하면 되지만 외부 라이브러리들은 해당 프로젝트의 상황에 따라서 경고되는 항목들을 고치지 못하는 경우가 많습니다.

이렇게 되면 어느순간부터 내 프로젝트의 빌드 경고창에는 외부 라이브러리들의 경고가 많아져서 내 프로젝트의 경고가 묻히고 수정해야 된다는 사실을 인지하지 못하게됩니다.

위의 경우 총 58개의 경고가 있는데 이중 56개는 외부 라이브러리들의 경고표시입니다. 내 프로젝트의 경고표시는 제일 아래쪽에 2개가 위치합니다. 또한 경고문구는 기본으로 펼쳐져 있어서 스크롤을 아래까지 해야 겨우 볼 수 있습니다. 프로젝트가 커져서 사용하는 외부 라이브러리가 많아지면 경고는 300개를 넘는경우도 있습니다.

다행히도 이 문제를 해결할 방법이 있습니다. cocoapod의 경우 Podfile에 아래 내용을 추가해서 Pod 프로젝트들에 대해 경고가 표시되지 않도록 설정 할 수 있습니다.

inhibit_all_warnings!

전체 Podfile 의 샘플을 보면 다음과 같은 식입니다.

platform :ios, '9.0'
target 'MyProject' do
  use_frameworks!
  inhibit_all_warnings!
  pod 'Alamofire', '~> 4.5'
end

전체 Pod이 아닌 특정 Pod의 경고만 표시하지 않으려면 pod 선언할때 옵션으로 선언합니다.

pod 'Alamofire', '~> 4.5', :inhibit_warnings => true

Podfile 을 수정하고 pod install 을 다시 실행한후 Xcode 프로젝트에서 빌드를 다시하거나 클린빌드를 하면 기존에 보이던 Pod 프로젝트의 경고표시가 모두 사라진것을 볼 수 있습니다.

이 옵션은 pod init 으로 Podfile을 처음 생성할때 기본으로 들어가면 좋을것 같은데 기본 옵션은 아닙니다.

유튜브

달구지 코딩이라는 유튜브 채널을 만들어서 운영중입니다. 이 포스트 내용은 아래 유튜브 영상에서도 확인할 수 있습니다. 유튜브 구독 부탁드려요 ^^

참고자료

게시글의 아마존, iTunes 링크들을 통해 구매를 하시면 제휴(Affiliate) 프로그램에 의해 저에게 일정 금액이 적립될 수 있습니다. ^_____^

.bot 도메인 등록하기

Amazon에서 .bot 도메인을 등록할 수 있도록 해서 등록 방법을 소개하려고 합니다.

.bot 도메인 등록을 대행하는 EnCirca 사이트의 설명을 보면 현재는 Landrush 2 기간으로 .bot 도메인 등록을 아무나 할 수 없고 봇을 운영중인지 확인후 등록할 수 있는 권한을 주는것으로 보입니다. 봇을 운영중인지 확인하는 것은 Amazon Lex, Microsoft Bot Framework, Dialogflow, Pandorabots, Gupshup, Botkit Studio 등 봇 관련 서비스들과의 연동을 통해서만 가능합니다.

아마도 2018년 5월 31일 이후에는 봇을 운영중인지 확인작업 없이 일반 도메인 처럼 등록되지 않을까 싶은데 확실한 정보는 아닙니다.

절차가 좀 길고 복잡한데 영상으로도 촬영 했으니 참고하세요.

.bot 도메인 등록을 위해서 우선 amazon registry 사이트에 접속합니다.

접속후 검색창에 구매하고자 하는 도메인 이름을 입력하고 다음 절차로 이동합니다.

아마존 계정에 로그인 되어 있지 않다면 다음 화면으로 넘어가기전에 아마존 로그인이 필요합니다.

봇을 운영중인지 확인하는 작업이 필요합니다. 목록에 나온 서비스중 본인이 운영중인 봇 서비스를 선택하면 확인작업에 대한 절차가 설명됩니다. 봇을 현재 운영하고 있지 않다고 가정하고 Amazon Lex를 이용해 봇을 생성하고 인증하는 절차를 설명하겠습니다.

Amazon Lex를 선택하면 오른쪽에 봇을 확인하기위해 필요한 절차가 표시됩니다.

준비 작업

아마존 웹서비스 계정에 로그인해서 Cross Account Role을 생성하고 545643940769 계정에 대해 권한을 추가하는 작업이 필요합니다. 그럼 이제부터 Role 을 생성해보겠습니다.

AWS 콘솔에 로그인후 IAM 메뉴에서 Roles 선택하고 Create Role 버튼을 클릭합니다.

Account ID와 External ID 항목에 앞선 .bot 도메인 등록 사이트에서 알려준 정보를 입력합니다.

다음 화면에서는 Role에 부여할 Policy 를 선택해야 되는데요. AmazonLexReadOnly를 선택합니다.

Role 이름은 나중에 알 수 있도록 적당히 잘 정하고 설명에도 잘 적어둡니다. 여기까지는 공식사이트에서 설명하는 절차인데요. 제가 해보니 여기서 한가지가 더 필요합니다.

IAM 콘솔에서 Policies 를 선택하고 Create Policy 버튼을 클립합니다.

JSON 탭을 선택하고 아래 내용을 추가합니다.

{
  "Version": "2012-10-17",
  "Statement": [
    {
      "Action": [
        "lex:PostText"
      ],
      "Effect": "Allow",
      "Resource": "*"
    }
  ]
}

Policy 를 생성했다면 앞서 생성했던 Role을 선택하고 Attach policy 버튼을 클릭해서 방금 생성한 Policy를 추가합니다.

최종적으로 위와 같은 Role을 얻게 됩니다. 이제 .bot 도메인 등록 사이트로 돌아갑니다.

임시로 Lex 봇 만들기

Amazon에서 제공하는 봇 서비스를 이용해 임시로 봇을 생성하겠습니다.

AWS 콘솔에서 Lex 페이지에 접속해서 새로운 Lex 봇을 생성합니다. Lex 봇을 처음 생성한다면 아마 첫화면에 Get Started 버튼이 보일텐데 해당 버튼을 클릭합니다.

봇 생성을 위한 페이지가 표시되는데 아마존이 제공하는 기본 샘플을 이용하면 코딩을 하지 않아도 됩니다. Try a sample 에서 BookTrip을 선택하고 하단의 COPPA 항목은 No로 선택합니다.

봇 페이지에서 오른쪽 위의 Publish 버튼을 클릭합니다.

alias 는 아무이름이나 입력하고 publish 버튼을 클릭합니다. 배포하는데 1분정도 시간이 걸리니 잠깐 쉬다 오세요.

배포가 완료되면 위와 같이 표시되는데요. 여기서 Bot Name과 Alias를 적어두세요.

도메인 등록하기

이제 준비 작업은 모두 끝났습니다. .bot 도메인 등록 사이트로 가서 아까 보였던 봇 확인 작업창에 앞서 준비했던 내용들을 입력합니다.

AWS cross account role ARN 항목에는 앞서 생성했던 Role의 Role ARN을 입력합니다.

봇 인증이 성공했습니다! 저 같은 경우 이미 해당 도메인에 대해 봇 인증이 되있는 상태라 메시지가 조금 다르게 나왔지만 페이지는 동일합니다.

Continue to registration 버튼을 클릭하면 도메인 등록을 위한 페이지로 이동합니다.

가격이 $75 네요!! Site Builder 옵션은 선택하지 않아도 도메인 등록하는데 문제 없습니다.

실제 도메인 등록은 EnRica 사이트를 이용해서 진행되기 때문에 해당 사이트 가입을 위한 주소 정보를 선택하라고 나올텐데요. 기존 아마존 계정에 있는것을 선택하거나 새로 입력해서 다음 단게로 넘어갑니다.

다음 화면에서는 EnRica 사이트 가입 절차가 나옵니다.

저도 여기 까지만 해봤고 더이상은 진행하지 않았습니다. 하지만 이 다음부터는 일반적인 도메인 등록 절차와 동일할테니 쉽게 할 수 있을겁니다.

정리

아마존에 .bot 도메인을 등록할 수 있게 한다고 해서 호기심에 내 아이디를 선점 해볼까라는 생각이었는데 생각보다 절차가 복잡했고 가격도 $75로 비싼편입니다.

.bot 도메인에 대한 확인 작업은 아마도 2018년 5월 31일 이후에는 없어질것으로 보여서 이 글이 큰 도움이 되지 않을수도 있지만 미리 선점하려는 분들에게 도움이 되었으면합니다.

마지막으로 제가 운영중인 개발관련 유튜브 채널인 달구지코딩 구독 부탁드립니다 ~ AWS 서비스를 포함한 다양한 소프트웨어 개발관련 내용을 업로드 하고 있습니다.

참고자료

게시글의 아마존, iTunes 링크들을 통해 구매를 하시면 제휴(Affiliate) 프로그램에 의해 저에게 일정 금액이 적립될 수 있습니다. ^_____^

Slack 프록시 서버 – slackboard 소개

슬랙(Slack)을 자주 사용하다 보면 여러가지 연동을 하게 됩니다. 서버나 특정 상태에 따라 슬랙에 메시지를 보내는데요. 연동도 쉬워서 사용 할수록 더 많은 연동을 하게 됩니다.

이번에 소개하려는 slackboard는 슬랙에 메시지를 전송할때 아쉬운 부분을 해결해주는 기능을 가지고 있습니다. slackboard의 주요기능은 다음과 같습니다.

  • 커맨드 라인에서 쉽게 메시지 전송
  • 쉘 스크립트가 비정상적으로 종료됬을때 슬랙 메시지 전송
  • 태그 이름만으로 미리 지정한 채널이름, 사용자 이름, 이모지 설정
  • QPS 제어 기능

이중 slackboard를 꼭 써야하는 이유중 하나는 마지막의 QPS 제어 기능입니다. 일반적으로 사용하는 슬랙의 Incoming webhooks의 경우 초당 1건의 메시지로 제한되어 있어서 1초에 메시지를 여러개 전송하면 일부 메시지가 유실될 수 있는데 slackboard의 QPS 제어 기능을 이용하면 메시지가 유실되지 않게 분산해서 전송합니다.

유튜브 영상으로도 촬영 했으니 참고하세요.

그외 장점 및 사용헤 대해서도 하나씩 알아 보기 전에 설치 방법을 알아 보겠습니다.

서버 설치

slackboard는 프록시 서버를 설치해야 하는데요. golang으로 작성되어 있어 사전에 go 언어를 빌드 할 수 있도록 준비해야합니다. go 언어가 설치 됬다면 아래 명령어로 slackboard 를 설치합니다.

$ go get -u github.com/cubicdaiya/slackboard/...

프록시 서버 설정을 위해 환경설정 파일(config.toml)을 생성하고 수정합니다.

[core]
port = "60000"
slack_url = "https://hooks.slack.com/services/XXX/YYY"
qps = 1
max_delay_duration = 5

[log]
access_log = "stdout"
error_log = "stderr"
level = "error"

[[tags]]
tag = "dalguji"
channel = "#general"
username = "seapy"
icon_emoji = ":smile:"
parse = "full"

[[tags]]
tag = "fail"
channel = "#dalguji"
username = "seapy"
icon_emoji = ":warning:"
parse = "full"

slack_url에는 본인의 슬랙 설정에서 얻은 Incoming webhooks 주소를 입력합니다.

[[tag]] 로 시작하는 섹션은 태그를 지정하는 것으로 해당 태그 이름으로 요청이 들어오면 미리 지정된 채널이름, 사용자 이름, 사용자 이모지, 파싱모드를 적용하는것입니다. 태그를 지정해두면 메시지를 보낼때마다 채널과 사용자 이름등을 전달하지 않아도 됩니다.

서버 시작 및 기본 예제 테스트

slackboard 서버 시작 명령어는 다음과 같습니다. 간단하죠

$ slackboard -c config.toml &

실제 운영시에는 systemd 같은 서비스에 등록해두고 사용하면 좋습니다.

테스트 메시지를 보내기 위해 아래 명령어를 사용합니다.

$ echo 'Hi dalguji coding' | slackboard-cli -t dalguji -s localhost:60000

echo 명령어를 이용해 stdout 으로 메시지를 전송했고 slackboard-cli 명령어는 stdout으로 받은 메시지를 dalguji 태그와 함께 localhost:60000 서버로 전송합니다.

메시지를 전송하기만 하는 클라이언트 입장에서는 슬랙의 Incoming webhooks 주소를 이용해 curl 로 보낼수도 있지만 slackboard 설치하고 서버 주소만 알면 간단하게 전송 할 수 있게됩니다.

커맨드가 정상적으로 종료되지 않을 경우 알림

제가 slackboard를 사용하는 이유중 하나인 명령어가 비정상적으로 종료 되었을때 슬랙으로 에러 메시지를 알려주는 기능을 살펴 보겠습니다.

아래 명령어를 실행하면 some-command라는 명령어를 알 수 없다고 하면서 에러가 발생할겁니다.

$ slackboard-log -s localhost:60000 -t fail -- some-command

하지만 에러가 발생하면 localhost:60000 서버의 fail 태그로 어떤 이유로 명령어가 실패 했는지 전송하고 프록시 서버는 이를 슬랙으로 전송합니다.

저는 주로 쉘 스크립트를 정기적으로 실행하는데 실패하면 알림을 받고 싶을때 사용하는데요. 우선 아래와 같은 쉘 스크립트 파일(dalguji.sh)을 하나 만들어 둡니다.

#!/bin/sh
echo "dalguji script"

에러가 발생하지 않을 정상 스크립트 입니다. 이 스크립트가 정상 실행되는지 보겠습니다.

$ slackboard-log -s localhost:60000 -t fail -- dalguji.sh

정상 실행될때는 슬랙에 메시지도 안오고 그냥 echo 만 실행됩니다. 스크립트를 조금 변경해서 에러가 발생하도록 해보겠습니다.

#!/bin/sh
eeeeecho dalguji script

$ slackboard-log -s localhost:60000 -t fail -- dalguji.sh

다시 실행해보면 에러가 발생하고 에러 내역이 슬랙에 표시됩니다.

이러한 작업은 쉘 스크립트만으로도 할 수 있겠지만 이를 구현하려면 내가 만든 쉘 스크립트나 명령어를 감싸서 실패를 체크하고 슬랙으로 전송하는 스크립트를 직접 만들어야 됩니다. 하지만 slackboard는 간단한 설치와 설정으로 쉽게 사용할 수 있습니다.

성공했을때도 보내고… 실패 했을때도 보내고 싶다면?

마지막으로 쉘 스크립트가 성공이나 실패 했을때 모두 결과를 slack으로 전송하고 싶다면 아래와 같은 방법을 사용합니다.

$ dalguji.sh 2>&1 | slackboard-cli -s localhost:60000 -c dalguji

스크립트 실행중 발생한 stderr 출력을 stdout으로 리다이렉트 하고 해당 메시지를 슬랙으로 전송하는 방법입니다.

참고자료

게시글의 아마존, iTunes 링크들을 통해 구매를 하시면 제휴(Affiliate) 프로그램에 의해 저에게 일정 금액이 적립될 수 있습니다. ^_____^

Amazon CloudWatch 수집된 지표에 수식계산 Metric Math

아마존 웹서비스를 사용하다보면 사용중인 서비스를 모니터링 하기 위해 CloudWatch 를 한번씩은 사용하게 됩니다. 많은 지표들이 제공되지만 제공되는 지표에 몇가지 더하거나 조합하는 경우 이번에 소개하는 Metric Math 를 이용합니다.

RDS Total IOPS 수치 확인하기

RDS의 모니터링을 예로 들어보면 Read IOPS, Write IOPS라는 지표를 별도로 제공하는데 RDS의 IOPS 제한은 Read와 Write IOPS를 더한값으로 적용됩니다. 그래서 Total IOPS를 알고 있는것이 중요한데 CloudWatch 에서는 Total IOPS를 지표 정보로 제공하지 않습니다.

저 같은 경우 기존에는 Total IOPS를 모니터링 하기 위해 1분마다 Read IOPS와 Write IOPS를 조회하고 다시 Total IOPS라는 새로운 지표로 CloudWatch에 저장하는 작업을 하고 있었습니다. 하지만 Metric Math 기능을 이용하면 더이상 이렇게 할 필요가 없습니다.

CloudWatch 대시보드 혹은 Metrics 에서 RDS 를 선택하고 Read IOPS, Write IOPS를 각자 설정후 Graphed metrics 탭을 선택하고 테이블 상단의 Add a math express 버튼을 클릭합니다.

클릭하면 테이블 목록 상단에 e1 이라는 id를 가진 행이 추가되고 Details에는 SUM(METRICS()) 라고 입력됩니다. 이 수식의 의미는 현재 선택된 지표들을 모두 더한다는 의미입니다. 이 경우 Read IOPS + Write IOPS 인거죠. 수식을 이해하기 쉽게 m1 + m2로 변경해도 동일한 의미가 됩니다. 여기서 m1, m2는 각 행의 id 값입니다.

Total IOPS만 그래프에 표시하기 위해 체크 박스에서 e1 을 제외한 m1, m2는 체크를 해제하면 위와 같이 Total IOPS만 그래프에 표시되는것을 확인할 수 있습니다.

ElastiCache Hit Rate 계산 하기

ElastiCache 의 Hit Rate를 계산하는 것도 Metric Math를 이용하면 유용한 수치입니다. 캐시가 적당하게 잘 되고 있는지 볼 수 있는 유용한 지표가 Hit Rate인데 CloudWatch에서는 제공되지 않습니다.

이제 직접 Hit Rate를 계산해 보겠습니다.

Metrics 에서 모니터링을 원하는 ElastiCache 인스턴스의 Get Hits, Get Misses를 선택하고 앞서 했던 것처럼 Add a math express 버튼을 클릭합니다. 수식 입력란에 (m1 / (m1 + m2)) * 100를 입력하고 m1, m2의 그래프 체크박스를 해제하면 Hit Rate를 볼 수 있습니다.

정리

CloudWatch는 AWS 서비스를 이용하다 보면 한번쯤 접하게 되고 모니터링이나 알림 용도로 자주 사용하게 됩니다. 하지만 제공하지 않는 지표가 있거나 여러 지표를 조합하고자 하는 경우 불편한점이 있었는데 Metric Math 기능으로 인해 사용하기 편해졌습니다.

아쉽게도 현재는 수식이 적용된 지표에 대해서는 알림 기능을 제공하지 않습니다. 알림을 받고 싶다면 기존 방식처럼 별도의 CloudWatch 지표를 매분 마다 생성해야합니다.

이 내용은 제가 운영하는 유튜브 채널인 달구지코딩에서도 확인할 수 있습니다. 구독과 좋아요 부탁드립니다 ^^

참고자료

게시글의 아마존, iTunes 링크들을 통해 구매를 하시면 제휴(Affiliate) 프로그램에 의해 저에게 일정 금액이 적립될 수 있습니다. ^_____^

Capistrano 배포시 HostKeyMismatch 발생 오류 해결

배포를 하는데 HostKeyMismatch 에러가 발생 하면서 서버에 접속 하지 못해 배포가 실패 했습니다. 에러 메시지를 보니 ~/.ssh/known_hosts 파일에서 ec2에 해당하는 항목을 지워서 해결 했지만 앞으로도 계속해서 발생 가능한 문제였습니다.

웹서버를 운영하다보면 AWS의 스팟 인스턴스를 이용해서 많은 트래픽에도 유연하게 대처하는 경우가 있습니다. 스팟 인스턴스의 특성상 서버가 새로 투입되었다가 필요 없어지면 삭제하기를 반복합니다.

서버의 추가와 삭제를 반복하다보면 새로 추가한 서버의 자동 생성된 도메인 이름이나 IP가 예전에 사용했던 서버와 같은 경우가 발생할 수 있습니다. AWS의 자동 생성된 도메인 이름은 다음과 같은 형식입니다.

ec2-00-111-222-333.ap-northeast-2.compute.amazonaws.com

그래서 좀 찝찝 하지만 ec2의 자동 생성된 호스트 이름에 대해서는 known_hosts에 추가하지 않고 관련 체크도 하지 않도록 capistrano 설정에서 아래와 같이 추가했습니다.

server 'ec2-??.ap-northeast-2.compute.amazonaws.com', 
   roles: %{app web}, 
   ssh_options: { verify_host_key: false }

verify_host_key 옵션을 추가한 서버에 배포 할때는 known_hosts 에 추가하지 않고 체크도 하지 않습니다.(capistrano 예전 버전에서는 verify_host_key대신 paranoid 였습니다.)

이렇게 하더라도 서버에 직접 접속 할때면 여전히 know_hosts에 관련된 내용을 추가하려고 하는데요. 이것이 싫다면 .ssh/config에서 특정 호스트에 대해 체크하지 않도록 할 수 있습니다.

Host ec2-*.ap-northeast-2.compute.amazonaws.com
  StrictHostKeyChecking no
  UserKnownHostsFile /dev/null

저는 이 옵션을 사용하지 않습니다. 서버 배포는 자주 해서 문제가 발생할 여지가 높고 배포를 급하게 해야될때 이런 문제가 발생하면 당황하게 되지만 서버에 ssh로 접속하는 상황에서는 중복되더라도 known_hosts 파일에서 지워주는게 귀찮지 않았거든요.

게시글의 아마존, iTunes 링크들을 통해 구매를 하시면 제휴(Affiliate) 프로그램에 의해 저에게 일정 금액이 적립될 수 있습니다. ^_____^

Amazon Athena를 이용해 CloudFront 로그 분석하기

CloudFront(클라우드 프론트)를 이용하다 보면 요청 로그를 직접 분석해야 할 필요가 있습니다.

CloudFront에서 제공하는 통계 메뉴에서도 전체 요청수, Hit, Miss, Error, 상태코드, 용량, 인기객체 등 많은 데이터를 볼 수 있지만 각 요청중 오래 걸리는 요청에 대해 분석하고 싶은 경우에는 CloudFront 로그를 직접 확인해야합니다.

CloudFront 로그파일 저장

CloudFront 기본 옵션은 요청 로그를 따로 저장하지 않습니다. 로그를 저장하기 위해 Distribution 설정에서 Logging 옵션을 On으로 변경하고 로그가 저장될 S3 버킷 이름과 경로를 지정합니다.

저장된 로그의 저장 기간을 설정하기 위해 S3 Bucket 설정에 가서 Management > Lifecycle 에서 Lifecycle Rule을 새로 생성후 Prefix에 따른 로그 삭제 기간을 설정합니다.

삭제에 대한 정책을 생성하지 않으면 용량이 점점 커져서 비용이 비싸지고 로그 분석하는 데도 오래 걸립니다. 문제 해결에 필요한 로그라고 판단되는 3일치 데이터만 놔두고 3일이 지나면 삭제되도록 설정했습니다. 기간은 서비스 특징에 따라서 조정하면 됩니다.

Athena 테이블 생성하기

Athena 에서는 데이터를 분석하기 전에 테이블 생성작업을 해야합니다. 생성할 테이블은 앞서 생성했던 S3 데이터를 참고 하도록 설정하는것이고 이 시점에는 논리적인 테이블만 생성되고 실제 S3 데이터를 읽지 않습니다.

Athena의 Query Editor에서 아래 쿼리를 입력후 실행하면 cloudfront_logs 테이블이 생성됩니다.

CREATE EXTERNAL TABLE IF NOT EXISTS cloudfront_logs (
  `date` date,
  `time` string,
  `location` string,
  bytes bigint,
  requestip string,
  method string,
  host string,
  uri string,
  status int,
  referrer string,
  useragent string,
  querystring string,
  cookie string,
  resulttype string,
  requestid string,
  hostheader string,
  requestprotocol int,
  requestbytes bigint,
  timetaken double,
  xforwardedfor string,
  sslprotocol string,
  sslcipher string,
  responseresulttype string,
  httpversion string
)
ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.RegexSerDe'
WITH SERDEPROPERTIES
 (
 "input.regex" = "^(?!#)([^ \\t]+)\\s+([^ \\t]+)\\s+([^ \\t]+)\\s+([^ \\t]+)\\s+([^ \\t]+)\\s+([^ \\t]+)\\s+([^ \\t]+)\\s+([^ \\t]+)\\s+([^ \\t]+)\\s+([^ \\t]+)\\s+([^ \\t]+)\\s+([^ \\t]+)\\s+([^ \\t]+)\\s+([^ \\t]+)\\s+([^ \\t]+)\\s+([^ \\t]+)\\s+([^ \\t]+)\\s+([^ \\t]+)\\s+([^ \\t]+)\\s+([^ \\t]+)\\s+([^ \\t]+)\\s+([^ \\t]+)\\s+([^ \\t]+)\\s+([^ \\t]+)$"
 )
LOCATION 's3://로그가저장된S3버킷이름/cf-logs/';

준비를 위한 작업이 모두 끝났습니다. 복잡하다고 생각할수도 있지만 다른 서비스를 이용하는 경우 여기까지의 준비 작업을 위해 데이터를 파싱하고 다시 저장하는등의 작업을 해야되는것을 생각하면 Athena의 준비 작업은 간단합니다.

느린 요청 로그만 추출하기

이미지 요청 속도가 특별히 느린 사용자들의 특징을 찾기 위해 응답시간이 느린 로그만 추출 해보겠습니다.

SELECT 
   date,
   time,
   timetaken,
   location,
   requestip,
   resulttype,
   responseresulttype,
   concat('https://', host, uri)
 FROM "default"."cloudfront_logs" 
 WHERE 
   timetaken > 1
 LIMIT 100;

위 SQL은 응답시간이 1초 이상 걸린 로그만 보여줍니다. 이를 통해 특정 엣지에서 요청이 느린것인지 아니면 특정 IP만 느린지 확인할 수 있습니다.

엣지 로케이션 별로 1초 이상 걸린 요청의 갯수를 알고 싶다면 아래 SQL을 실행합니다.

SELECT 
   location,
   count(*) as cnt
 FROM "default"."cloudfront_logs" 
 WHERE 
   timetaken > 1
 GROUP BY location
 ORDER BY cnt DESC

결과를 보니 별 의미는 없네요. ICN으로 시작하는건 한국 엣지 로케이션인데 절대적인 요청수가 많다보니 1초 이상 걸린것도 많이 나왔습니다.

이외에도 UserAgent를 분석해 기기나 OS에 따른 구분이나 HTTP 프로토콜 버전에 따른 구분등 할 수 있는것이 많습니다. 본인만의 SQL을 좀더 잘 만들어 본다면 CloudFront를 잘 사용하는데 도움이 될것입니다.

주의 할점

Athena는 데이터 분석에 필요한 데이터를 스캔하는 용량 만큼 과금됩니다. SQL을 잘못 작성해서 너무 많은 데이터를 참고 하게 되면 많은 비용이 청구 될 수 있으니 데이터를 적절히 제한해서 SQL 을 작성하는 노력이 필요합니다.

데이터가 많지 않으면 그냥 막 해도 상관 없습니다. 1TB 데이터를 스캔 하는데 $5 정도라서 데이터가 100기가 라면 500원 10 기가라면 50원이니까요 ^^

참고자료

대표 이미지 : Photo by NASA on Unsplash

게시글의 아마존, iTunes 링크들을 통해 구매를 하시면 제휴(Affiliate) 프로그램에 의해 저에게 일정 금액이 적립될 수 있습니다. ^_____^