모니터링의 환상 현실과의 차이점을 알아보자

모니터링의 환상 현실과의 차이점을 알아보자
Cozy CodingPosted On Jul 13, 20243 min read

이미지

우리는 모두 반짝이는 거짓말에 속았습니다 — 더 많은 데이터는 더 나은 이해력을 의미한다는 것입니다. 분산 시스템의 세계에서 이렇게 관종적인 체계를 가진 것은 우리를 대시보드, 지표 및 점점 더 많아지는 로그의 굴레 속으로 이끌었습니다. 충분한 데이터를 수집하면 마법처럼 통찰력이 나타날 것이라는 약속을 받았습니다.

하지만 알아요? 때로는 정말 짜증날 수 있어요.

우리는 급속하게 확장되고 있었고, 시스템이 점점 복잡해지면서 어떤 문제든 해결할 수 있는 이 모든 데이터를 가질 수 있다는 생각이 꿈같았습니다. 우리는 모니터링 도구를 겹쳤고, 상상할 수 있는 모든 것에 대한 지표를 수집했으며, 가장 작은 문제의 움직임조차도 잡아낼 수 있는 경보를 설정했습니다. 처음에는 통제감을 느꼈습니다... 우리는 모든 것을 볼 수 있는 것 같았어요.

결국 현실이 찾아왔다. 가시성과 이해는 같은 것이 아닌 것 같다.

데이터에 물들다

몇 개 전략적으로 배치된 로그 라인들이 어떤 일이 벌어지고 있는지에 대해 꽤 괜찮은 아이디어를 제공해주었던 기억이 난다면? 이제는 시스템 데이터의 개울 속에서 씻겨 나가는 것이 나가라 강에서 물을 마시는 것처럼 느껴진다. 모든 것에 대한 측정치가 존재하는데 — CPU 스파이크, 네트워크 단절, 메모리 이용률, API 응답 시간 등 어마어마한 양의 데이터가 존재한다. 시선이 흐릿해지는 느낌이 들 정도이다.

문제는, 순수한 데이터는 이야기를 전달하지 못한다는 것이다. 숫자들의 무리는 맥락 속에 놓여져야 하는데, 많은 부품들이 움직이고 있기 때문에 어떤 데이터 포인트가 실제 사용자 경험이나 시스템의 안전과 어떤 상관관계가 있는지 알아내는 것은 거의 불가능에 가깝다.

알람 피로: 울음 소리 지른 소년

무언가가 고장 났을 때 우리는 모두에게 알림을 받고 싶지 않나요? 그러나 모든 것을 모니터링하려고 하면, 영원히 계속되는 알림 폭포를 유발합니다. 당신의 이메일함은 알림이 폭죽처럼 튀어오르는 전장이 됩니다. 처음에는 각 알림이 쇼크를 주죠. 당신은 모든 것을 내려놓고 열심히 파헤칩니다.

그런 다음, 그런 일이 벌어집니다. 대부분의 그런 알림들이 잘못된 양성 반응, 일시적인 스파이크 또는 스스로 해결된 문제들로 판명됩니다. 당신은 마비된 느낌을 받기 시작합니다. 모든 알림이 긴급성을 잃고, 실제 중요한 문제를 무시하는 날은 당신이 배를 얼리게 하는 날입니다.

아무도 이야기하지 않는 기술

옵서버빌리티의 비밀 중 하나는 이것입니다: 세상에서 가장 멋진 도구들도 질문을 알지 못한다면 쓸모가 없다는 것입니다. 그 데이터의 바다를 분석하려면 특정한 기술 세트가 필요한데, 시스템 도메인 지식, 통계 지식, 그리고 건강한 직관력이 결합된 것입니다. 소음 속에서 패턴을 발견하고, 신호를 분리하는 능력이죠.

이런 기술은 많은 개발 팀이 활용하지 않는데, 옵서버빌리티 도구들의 "플러그 앤 플레이" 약속은 우리가 그것이 필요하지 않다고 잘못 알게 합니다. 결과적으로, 아름답게 렌더링된 하지만 본질적으로 무의미한 차트를 바라보는 데 시간을 낭비하거나 더 많은 모니터링 도구를 힘겹게 쌓아가며 명료함을 얻으려고 노력합니다.

여기서 우리는 어디로 갈까요?

올바르게 활용한다면, 이것은 귀중합니다. 그러나 이제 흥분을 가라앉히고 수집한 데이터를 어떻게 더 스마트하게 활용할지에 대해 더 현명해져야 할 때입니다.

여기 배운 굉장히 중요한 교훈이 있어요.

모니터링은 단순히 모니터링하기 위해 하는 것이 아니에요. 어떤 지표를 수집하기 전에 꼭 목적을 명확히 하세요. 건강한 시스템은 무엇인지, 그리고 "나쁜" 것은 어떻게 보이는지 알아야 해요.

사용자 중심의 상위 대시보드를 만들어서 주요 지표에 초점을 맞추세요. 거기에서 문제점을 발견했을 때만 기술적인 이유를 찾아보세요. 다른 방법으로 하면 안 돼요.

진정한 관찰력은 시스템이 실제로 어떻게 작동하는지 이해하는 데서 나와요. 팀원들을 교육시켜 데이터를 해석하는 방법을 가르치고, 그들이 단순히 경고를 받아들이는 대신에 질문을 하도록 장려하세요.

단순히 더 많은 데이터를 수집하는 것만으로는 약속받았던 마법같은 해결책이 아닙니다. 진정한 이해는 목표지향적인 모니터링, 올바른 질문에 집중하고, 그 모든 것을 이해할 수 있는 인간의 기술에 투자하는 데서 옵니다.