약 1년 전, 엄청난 재능을 가진 동료인 Mahdi Karabiben의 격려로 Medium에 글쓰기를 시작했습니다. 첫 번째 글은 데이터 공간 진입과 다른 사람들이 유용하게 느낄 만한 몇 가지 포인트에 대한 것이었습니다. 그 이후로 다양한 주제에 대해 여러 스타일로 글을 쓰기는 했지만, 작년 동안 지켜본 몇 가지 트렌드를 반영하여 그 첫 번째 글을 다시 살펴보고 싶어합니다.
돈의 언어
저는 Reddit, LinkedIn, Data Twitter, 그리고 다양한 Discord 커뮤니티에서 콘텐츠를 적극적으로 소비하는 편입니다. 데이터 엔지니어링에 초점을 맞추지만, 데이터 공간의 다른 영역들 - 분석, 데이터 과학, 기계 학습/인공 지능, 데이터 관리 및 보안 - 에서도 최신 정보를 계속해서 접하려 노력하고 있습니다. 지속적인 감원, 인공 지능이 데이터 직업을 대체할 것에 대한 불안, 그리고 기타 여러 어려움에도 불구하고, 이 분야에 진입하고 싶어하는 사람들이 여전히 많습니다.
이해합니다: 돈은 훌륭하고, 일은 편안한 환경에서 이루어지며, 많은 다른 수요가 높은 직업들과는 달리 특정 교육이 엄격히 요구되지 않습니다. 이 마지막 점은 우리가 더 넓은 기술 분야와 데이터 분야에서 보고 있는 현상에 있어서 중요합니다. 사람들은 처음부터 시작하는 내용에 굉장히 열려 있습니다. 그러나 가장 접근하기 쉬운 진입점을 넘어서 복잡하고 압도되는, 그리고 가격이 비싼 학습 경로를 선택하곤 합니다. 개인적으로, 저는 더 나은 방향이 있다고 생각합니다.
데이터 몇 가지 살펴보세요
경고: 아래 내용은 "늙은 남자가 구름에 소리친다"의 영역에 깊이 들어가 있습니다.
데이터 엔지니어링에 새로운 사람들이 많이 겪는 내 경험은, 그들이 도구와 기술에 과도하게 집중하고 데이터 자체에 상대적으로 관심이 부족하다는 것입니다. 그들은 어디서 시작해야 하는지 끊임없이 망설입니다: Python 대 Scala, Dagster 대 Airflow, Spark 대 Snowflake, 그리고 데이터 작업을 싫어한다면 중요하지 않은 것들과 같은 것들에 대해 논의합니다.
이 문장은 클릭베이트 제목의 핵심이에요: 대부분의 데이터 엔지니어는 구조화된 데이터를 다루게 될 거에요. 대량의 이미지, 오디오 또는 기타 이진 데이터 세트를 다룰 수도 있지만, 대부분은 데이터 웨어하우스나 레이크하우스에 로드하거나 변환하여 분석, 인공 지능 및 기계 학습 워크플로우를 위한 테이블을 생성할 것입니다. 그 일을 잘 하려면 탭러 데이터를 이해해야 해요.
Kaggle에는 커뮤니티로부터 수많은 데이터 세트를 보유하고 있어요. Data.gov에는 30만 개 이상의 데이터 세트가 있습니다. 빠른 검색으로 다른 다양한 소스를 발견할 수 있어요. 코드 한 줄을 작성하지 않고도 CSV를 가져와 좋아하는 스프레드시트 도구에서 열 수 있어요. 패턴을 발견했나요? 열 이름이 이해하기 편한가요? 모든 열에 값이 들어 있나요? 데이터로 어떤 질문을 대답할 수 있을 것 같나요?
데이터 탐구가 재미없다고 느꼈거나, 분석이 불편하다면, 데이터가 인공 지능 및 기계 학습에 어떻게 적용되는지 신경 쓰지 않는다면, 여기서 멈춰주세요. 데이터 커리어를 추구하는 이유에 대해 스스로에게 물어보세요. 답이 'Spark'나 'Kafka'와 관련이 있다면, 해당 기술이 변할지언정 데이터는 항상 거기 있을 거라는 것을 이해해야 합니다. 그러나 돈에 대한 관심이 크다면, 다른 높은 급여를 받는 직업을 살펴보고 그게 궁금한지 확인해보세요.
일을 본질적으로 좋아하지 않을 때, 취업 기회는 적을 뿐만 아니라 경력도 지속하기 어려울 수 있어요. 과정 구입이나 부트 캠프 참여, 심지어 도구에 대해 읽는 시간을 낭비할 필요가 없어요.
개인 경험을 통한 안에크데이터: 집중 교육 과정
자기 반성과 연구를 거쳐 데이터에 관심을 갖고 직업을 쫓고 싶어졌다고 해보죠. 현재는 관련 없는 분야에서 일하고 계시거나 실업 상태일지라도요. 다음 단계는 분명 부트 캠프나 1년짜리 자가 학습 계획일까요? 아마도 아닐 겁니다.
첫 데이터 분석가로 일하던 저는 몇 년 후, 지역 컨설턴시 회사인 1904labs에서 제공하는 8주간의 데이터 엔지니어링 프로그램에 지원해 합격했습니다. 이는 데이터 엔지니어링 분야 전반을 포괄하는 개요였습니다: 스칼라, 스파크, 카프카, H베이스, 하이브의 소개를 담고 있었습니다. 본 과정은 무료로 제공되며 수료생들을 취업 준비에 도울 것을 강조하지 않았습니다. 데이터 파이프라인을 구축하는 기초를 배우기 위한 노출을 목적으로 했습니다.
이 시점에서 제 스택은 주로 SQL Server Management Studio와 Power BI였습니다. R에 대한 조금의 경험이 있긴 했지만, 그것들은 제 지역 컴퓨터에서의 ad-hoc 스크립트에 불과했습니다. 이 과정에서의 학습 곡선은 엄청 컸습니다. 기초 사항들에 많은 어려움을 겪었습니다: 우리 IDE의 설치와 설정, Maven을 이용한 종속성 관리에 대한 학습, 그리고 설정 지옥을 뒤척이던 것들(Kafka를 Windows에서 실행하는 것은 특히나 불쾌했습니다).
그동안 자신을 찾지 못했고 자신감이 없는 시간을 보냈어요. 그런데 Hive에 도착하면 제 역량이 교재와 겹치는 순간이 오고, 모든 조각들이 조각조각 맞춰지기 시작했어요. 그 수업은 훌륭했고, 강사들을 너무 칭찬할 수밖에 없어요. 하지만 나중에 돌아보니 교육 이론에서 말하는 근접 발달 지역의 정말 가장자리에 있던 것 같아요. 그 수업에서 어떤 통찰을 얻을 수 있었고, 기적은 아니었지만, 경험 부족으로 정보를 배우고 유지하는 능력이 분명히 제한되었어요.
다수의 사람들이 부트캠프에서 무언가를 얻을 수 있다고 생각하지만, 그들이 일자리를 위해 준비할 지속적인 기술을 습득할 수 있을지 의문이에요. 지불하는 목표(명시적으로 약속되지 않았더라도)를 위해 부트캠프를 시작한다면요. 저는 회의적이에요. 단순히 많은 정보를 너무 빨리, 충분한 맥락 없이 받게 되니까요. 몇 가지 기술, 기본기도 배울 수 있겠지만, 다른 일 경험이없이 데이터 엔지니어링 직군에 취업하는 데 필요한 만큼 충분하지 않아요.
결론부터 말하자면, 취업은 어렵다
최근 Reddit에는 많은 마음 아픈 글이 올라왔어요: 끝없는 취업활동에 시달리는 사람들이나, 커리어 전환을 통해 삶을 개선하고 싶어하는 절박한 분들도 있어요. 이런 분들이 안쓰러운 게 느껴지네요; 그들에게 거짓된 희망을 팔아먹었기 때문에요.
내 전문 네트워크에서 아무도 부트캠프에서 직업을 얻은 적이 없어. 몇 명은 본격적인 컴퓨터 과학 교육 중 인턴십을 경험했고, 다른 사람들은 소프트웨어 엔지니어링에서 왔고, 일부는(저와 같이) 비즈니스 중심으로 시작해서 직무에서 기술적인 역량을 키웠어.
기술 직군으로 진출하는 것은 쉽지 않아. 내 경우, 다른 경력에서 전문성을 개발한 몇 년 동안 풀타임 직장에서 공부하고 분석으로 진입하기 위해 큰 월급을 포기할 만큼 열심히 노력했어. 내가 제어할 수 있는 것들 외에도 행운과 특권이 내 경력에 큰 영향을 미쳤어.
데이터 엔지니어링 직무에 지원하는 지원자로서 가장 매력적인 이유는 다음 중 하나 이상의 조합 때문이야:
- 데이터 엔지니어링, 데이터베이스 관리 또는 다른 기술 데이터 역할에서의 이전 경험
- 소프트웨어 엔지니어링에서의 이전 경험
- 당신을 주제 전문가로 만드는 이전 경험(예: 영업, 재무, 마케팅)
자기 학습, 자격증, 또는 부트 캠프를 통해 노출되는 것은 아무것도 모르는 것보다 분명히 나은 선택입니다. 일부 프로젝트를 경험해 본 것이 GitHub에 아무것도 없는 것보다 나은 선택입니다. 그러나 현실은, 이들은 전문 경험이 있는 후보자들과 동등한 지위에 서게 해주지 않습니다. 처음부터 데이터 엔지니어링 직업을 얻을 수 있는 가능성을 겨룬다면, 1년차 분석가나 데이터 엔지니어링 부트 캠프 졸업생 중에 누가 먼저 데이터 엔지니어링 직업을 얻을지에 돈을 거는 상황이라면, 저는 항상 분석가에 돈을 걸 것입니다.
결론: 데이터는 쉽게 부자가 되는 빠른 길이 아닙니다
이 놀라운 글을 추천하며 마무리하겠습니다. Leo Godin의 '우버 운전자에서 데이터 엔지니어로 6개월 만에?'라는 글을 꼭 읽어보세요. 그의 경력여정은 멋지고, 조언도 탄탄합니다. 특히 경력을 쌓는 것에 대한 그의 주장은 매우 중요합니다. 빠른 길로 나아가는 것이 가능한 사람은 매우 드뭅니다. 인플루언서와 콘텐츠 제공자들은 여러분에게 무언가를 팔려고 노력할 것입니다; 물론, 그들은 이걸 쉽게 만들어 보이게 할 것입니다!
가장 좋은 일자리를 얻을 수 있는 가장 큰 기회는 열정, 일관성, 그리고 관련 경험이 있습니다. 이 중 마지막 항목은 기술을 빠른 돈벌이의 쉬운 길로 보는 사람들에게는 아마도 가장 어려운 술 한잔일 것입니다. 데이터 입력이나 스프레드시트 분석부터 시작해보세요. 아마도 데이터베이스 도움 데스크 작업을 할 것입니다. 급여는 아마 좋지 않을 것이고, 아마도 최고 기술 스택을 사용하는 것은 아닐 것입니다. 모든 것을 쌓아 올린 후, 기술 세트를 확장하는 데 필요한 에너지와 동기를 찾아야 할 뿐만 아니라, 목표에 더 가까워지기 위한 조직 내 기회를 찾아야 할 것입니다; 많은 경우에 회사 내에서의 측면 이동이 새로운 회사나 새로운 직군에 진입하는 것보다 훨씬 쉬울 것입니다.
현재 그곳은 어렵습니다. 데이터와 데이터 관리에 열정을 느끼는 사람들을 막고 싶지는 않지만 여러분이 떠나는 여정을 개인적으로 이해하고자 합니다. 이것은 저에게 가장 좋은 커리어입니다만, 여기에 이르기까지 열심히 일해야 했습니다. 데이터 엔지니어가 되는 것은 가능하지만 쉽지는 않습니다. 데이터 분야에서 커리어를 쫓는 분들 중에는 여러분이 그 곳에 도달하는 방법을 듣고 싶어하는 분들이 많습니다. 데이터 분야에서 커리어를 추구하시는 분들에게 행운을 빕니다. 여러분이 그곳에 도달하는 모습을 들어보는 것을 기대하고 있습니다.