호돌찌의 AI 연구소
article thumbnail

https://www.proschoolonline.com/blog/data-science-skills

 

Udemy에서 강의를 하시고, 유튜브도 하시고 Medium에서 열심히 활동하시는 Data scientist인 Frank Andrade님의 글을 소개하고자 합니다. 글 제목은 위와 같으며 작년 연말 12월 28일에 업로드된 글입니다. 완벽하게 번역하는 것을 그렇게 좋아하는 편이 아니기 때문에 약식으로 요약, 일부 내용을 제거하면서 의미만 전달을 하고자 합니다. 그 이후 짧게나마 제 생각을 서술해볼 생각입니다. 시작해보겠습니다.

 


2022년 여러분의 Data Science 경력에 멋진 해가 되기를 원한다면, 성공적인 Data Scientist들이 가지고 있는 몇 가지 습관을 따르시길 바랍니다. 이 22가지 습관은 2022년에 더 나은 Data Scientist가 되도록 도와줄 것입니다. Data Science는 다양한 분야를 다루고 있어, Hard, Soft skill을 모두 발달시킬 수 있는 습관을 제시하였습니다. 

 

 

1. 데이터 과학 커뮤니티에서의 협업하기(Collaborate in Data Science Communities)

가장 빨리 배울 수 있는 방법은 Data Scientist로서 빠르게 성장하기 위해 커뮤니티의 일원이 되어야 합니다. 이 분야를 처음 접하는 사람이라면 계속 배우기 위해 물어볼 수 있는 것이 커뮤니티에 많습니다. Kaggle에 참가하며 Stack Overflow에 대한 질문에 답하며 블로그 게시물, 비디오 튜토리얼을 통해 지식을 공유할 수 있습니다. Data Science에 대한 경험과 관계없이 커뮤니티에 가입해 다른 사람에게 도움을 주고받는 것에 대해 고려해보세요.

 

 

2. 코팅 스타일 표준화하기(Set coding standards)

또 하나는 Standard한 코딩 스타일을 정하는 것입니다. 회사에서 일할 때는 코딩의 기준이 명확해야 합니다. 이 부분은 많은 사람들이 작성한 코드에 균일한 모양을 주고, 가독성을 향상 시키며, 복잡성을 줄이고, 오류를 쉽게 탐지하는데 도움을 줍니다. 큰 조직에 속하지 않더라도 반드시 이것을 해야 합니다. 이 부분은 당신이 이미 다른 사람들이 따르는 표준, 관습, 그리고 규칙에 적응하도록 도와줄 것입니다. 

 

 

3. 프로젝트를 구체화하는 로드맵 작성하기(Create a roadmap to shape your project)

프로젝트를 시작하고, 작업을 끝내고 다음 단계로 넘어갈 때 확신이 없었던 적이 있으신가요? 저자는 프로젝트의 모든 단계와 관련된 모든 것을 보여주는 로드맵을 만들기 전까지는 이런 문제가 있었습니다. 이를 통해 프로젝트의 큰 그림을 파악할 수 있어 프로젝트의 목표뿐만 아니라 각 단계의 I/O도 쉽게 인식 할 수 있습니다. 데이터와 스크립트의 출처가 명확해지면 수정하기가 쉬워집니다. 

 

 

4. 비즈니스 문제 이해하기(Understand business problems)

코딩이나 모델링에 얼마나 능숙한지는 중요하지 않으며, 자신이 종사하는 비즈니스를 이해하지 못하면 Data scientist로 성공할 수 없습니다. 만약 여러분이 일하는 회사가 목표를 달성하도록 돕지 않는다면, 여러분이 만든 모델이 얼마나 좋은 성과를 내더라도 아무도 여러분의 일을 가치있게 여기지 않을 것입니다. Data scientist가 회사가 가지고 있는 목표 중 일부에 어떻게 도움을 줄 수 있는지 알아보는 시간을 가지시길 바랍니다. 

상사와 동료들에게 질문을 하는 것도 많은 도움이 됩니다. 그 사람들은 회사에서 여러분의 역할을 더욱 잘 이해하는데 도움을 줄 수 있습니다. 

 

 

5. 최신 정보 유지하기(Stay up to date)

매년 새로운 기술이 등장하고 이전에 쓰던 Tool은 구식이 되며 코드는 더 이상 사용되지 않는 경우가 많습니다. 이 것이 독자가 블로그, 연구 논문, 책 등을 읽음으로써 그 분야의 새로운 것들을 항상 주시해야하는 이유입니다. 

이 부분을 유지하면 Data science 분야의 최신 기술을 활용하는 데 도움이 됩니다. 그 결과, 다른 기업보다 한 발 앞서게 되며 대부분의 경우 프로젝트에서 가능한 최고의 성과를 얻을 수 있습니다. 새로운 도구와 기술을 사용하는 방법을 배우고 변화에 적응하는 것은 여러분들의 경력에 도움이 될 습관입니다. 

 

 

6. 변화에 오픈 마인드 가지기(Be open to change)

일상은 매일 변하지만 몇몇 특정한 상황에 적응하는 것을 꺼립니다. python3가 출시된 후 python2를 계속 사용하는 사람이 (특별한 이유 없이) 얼마나 되는 지 알 수 없습니다. matplotlib을 배우느라 많은 날을 보낸 후 seaborn을 배우기가 꺼렸고, 같은 이유로 plotly를 pandas로 대체하고 싶지 않았습니다. 머지않아 tool이 생산성을 높여야 한다는 사실을 모두 깨닫게 될 것입니다. Data Scientist로서의 삶을 편리하게 만드는 것이 있다면 배울 가치가 있습니다. 

 

 

7. 방해되는 것 피하기 (Avoid distractions)

집중을 하지 않고 문제를 푸는 것은 불가능합니다. 답장해야 할 이메일, 메시지, 계획 등이 많다는 것을 알지만, 이러한 이메일은 업무를 수행하는 데 방해가 될 것이고 결과적으로 Data Scientist로서의 업무 수행 능력이 저하될 것입니다. 멀티태스킹은 유혹적이나, 한 가지 일에 집중하는 것의 이점은 놀랍습니다. (저자는 전화 없이 6개월 이상 살았을 때 이것을 힘들게 터득했다고 말할 수 있다고 합니다.) 하지만 여러분은 집중을 방해하지 않기 위해 아이폰 없이 살 필요는 없습니다. 휴대폰과 노트북의 알림만 끄면 충분할 것입니다. 

 

 

8. 코드를 단순하게 유지하기(Keep your code simple)

코드 line을 줄이는 것은 다른 사람들이 여러분의 script가 무엇을 해야 하는지 쉽게 이해하는데 도움이 되지 않을 수 있다. 반대로 무조건 적인 코드 line을 줄이는 것은 여러분조차도 이해하기 더 어렵게 만들 수 있습니다. 복잡한 코드를 간단하게 만드세요. 코드가 단순할수록 이해하기 쉽습니다. 동영상 튜토리얼, 가이드, 나만의 강좌를 만든 후 알게 되었습니다. 이것은 자신의 코드를 읽을 때 다른 사람들의 입장이 되어 볼 수 있도록 도와줍니다. 코드를 반드시 공유하시길 바랍니다. 만약 다른 사람들이 당신의 script를 이해하지 못한다면, 아마 아직 개선의 여지가 필요하다는 뜻 입니다.

 

 

9. 코드 문서화 하기(Document your code)

오래된 script를 열어보고 "이때 도대체 내가 무슨 생각을 하고 있었니?"라고 생각해 본 적이 있나요? 

만약 여러분이 자신의 코드를 이해하는데 어려움을 겪는다면, 다른 사람들이 당신의 스크립트를 이해하기 위해 어떻게 애쓸지 상상해 보시길 바랍니다. 항상 이 문구를 기억하시길 바랍니다.

 

"코드는 쓰여진 것보다 더 자주 읽힌다." — Guido van Rossum

 

이것이 바로 여러분의 코드를 문서화하는 것이 중요한 이유입니다. 내가 아는 좋은 Data scientist들은 모두 코멘트를 달고 코드를 기록하는 습관이 있습니다. 코멘트는 코드, 목적 및 설계를 더 잘 이해하는 데 도움이 됩니다. 반면에 문서화 코드는 사용자에게 코드 사용과 기능을 설명합니다. 파이썬을 사용하는 경우 파이썬 코드를 문서화하는 방법에 대해 알아보려면 이 안내서를 확인하세요.

 

 

10-12. 효과적인 의사소통 습관 - 경청하고 해결책에 집중하고 단어를 신중하게 선택하기(Listen, focus on solutions & choose your words carefully(effective communication habits))

Forbes 글에 의하면, 매우 효과적인 의사소통자들의 세 가지 습관입니다. Data Scientist로서 여러분은 의사소통 기술을 발전시킬 필요가 있습니다. Data science는 최상의 모델을 만드는 것뿐만 아니라 연구 결과를 Data Scientist가 아닌 다른 과학자에게 전달하는 것을 의미합니다. 이를 통해 여러분 회사의 목표를 명확하게 이해하고 있으며 Data Scientist로서 보유하고 있는 지식을 이러한 목표에 도달하는 데 도움이 된다는 사실을 다른 사람들에게 알릴 수 있습니다.

 

 

13. 끊임없는 질문하기(Ask open-ended question)

질문하는 것도 좋지만 더 좋은 것은 끝이 없는 질문입니다. '왜, 어디서, 언제, 누가, 무엇을, 어느 쪽'으로 시작하는 질문이 새로운 주제를 더 잘 이해하는 데 도움이 될 것입니다. 이것은 또한 여러분의 직업에서 중요한 의사소통 능력이 좋은 Data Scientist로 보일 수 있도록 도와줄 것입니다. 물론 간단한 예-아니오 질문이 더 잘 맞는 경우도 있지만, 가능할 때마다 열린 질문을 던져 대화를 풍부하게 만듭니다.

 

 

14-15. 좋은 자세 유지 및 물을 더 많이 마시기(Take care of your posture, drink more water(Healthy habits)

9시부터 5시까지 컴퓨터 앞에 있는 것은 건강에 좋지 않습니다. 소중한 Data science 일을 그만두라는 게 아니라 사무실에서 건강한 습관을 뜻입니다. 자세 관리, 물 섭취 등 간단한 것이 건강을 유지하는데 도움이 될 것이고, 이는 직장에서 최고의 성과를 내기 위한 핵심입니다. 그것이 여러분이 해야 할 최소한이지만, 밖에서 시간을 보내고, 산책을 하고, 일찍 일어나는 것과 같은 것들은 여러분이 오늘 시작할 수 있는 다른 건강한 일상 습관들입니다. 여러분의 몸에 귀 기울이고 최선을 다하기 위해 필요한 모든 것을 하세요.

 

 

16. 매주 새로운 것을 배우기(Learn a new thing each week)

Data science 분야가 시간에 따라 어떻게 발전하는지 이미 언급했습니다. 이것이 여러분이 매주 새로운 것을 배우는 것을 고려해야 하는 이유입니다. 연말에, 여러분은 매주 얼마나 많은 것을 배웠는지에 대해 놀랄 것입니다. 새로운 것에 호기심을 가지면 Data science 분야에서 성공할 수 있습니다. 이것에 대해 더 잘 알기 위해서는 2022년에 데이터 사이언티스트가 되기 위한 52주 커리큘럼을 확인해 보시길 바랍니다. 여기에 나열된 대부분의 내용을 이미 알고 있을 것입니다. 따라서 새로운 내용을 배우고 싶을 때 자신만의 로드맵을 만드는 예를 들어 보시길 바랍니다. 

 

 

17. 컴퓨터와 책상 정리하기(Organize your desk and computer)

생산성을 높이고 Workflow를 최적화하려면 책상과 컴퓨터 모두에서 모든 것이 올바른 위치에 있어야 합니다. 프로젝트에서 사용하는 데이터를 찾을 수 없거나 파이썬으로 시각화하는 데 올바른 구문을 잊어버려서 코딩이 몇 번이나 중단되었는지 알 수 없습니다. 저자는 파일과 폴더에 적절한 이름을 붙이고 데이터 과학에 파이썬 Cheet sheet를 사용함으로써 이 문제를 해결할 수 있었습니다(여기서 다운로드할 수 있습니다). 당신의 책상도 마찬가지입니다. 서랍을 사용하여 갑자기 필요할 수 있는 것들은 저장하고 자주 사용하는 것들만 책상 위에 두시길 바랍니다.

 

 

18. 논문 읽기(Read research papers)

저자는 과거에 두어 편의 연구 논문을 쓴 사람으로서, 석사와 박사 학위 소지자들의 논문을 읽으면 누구나 최신 트렌드를 파악할 수 있다고 말할 수 있습니다. 많은 정보가 나와 있지만, 어떤 경우에는 무분별한 정보를 추출하는 출처에 대해 각별히 주의하셔야 합니다. 그렇긴 하지만, 한 연구 논문에서 제공되는 통찰력과 정보는 매우 신뢰할 수 있습니다. 매주 또는 매달 당신의 경력에서 성장하기 위해 관심 있는 주제와 관련된 적어도 하나의 연구 논문을 읽기를 바랍니다.

 

 

19. 자기 자신을 믿기(Give yourself credit)

Data science 프로젝트는 소속되는 경향이 있으니, 과제를 마친 후에 스스로에게 공을 돌리세요. 당신이 하는 모든 일에 동료나 상사가 당신에게 공을 넘길 때까지 기다리지 마시길 바랍니다. Data science 경력의 모든 작은 성과에 자부심을 가지세요.

 

 

20. 주기적으로 휴식하기(Take a break regularly)

Data scientist는 데이터를 수집, 정리 또는 변환하는 데 몇 시간을 소비할 수 있습니다. 당신이 규칙적으로 휴식을 취하기만 한다면 많은 시간을 일에 바치는 것은 아무 문제가 없습니다. 과로는 단기적으로는 어리석은 코딩 실수를, 장기적으로는 건강 문제로 이어질 수 있습니다. 이것이 여러분이 가끔 휴식을 취해야 하는 이유입니다. 여러분이 일을 재개할 때 신선한 시각을 줄 것입니다.

 

 

21. 내가 하는 일이 그럴만한 가치가 있는지 스스로 되돌아보고 물어보기(Ask yourself whether what you're doing is worth it)

Data scientist로서의 (그리고 인생에서) 성장을 지속하는 좋은 습관은 매일 하는 일에 대해 스스로에게 질문하는 것입니다.

일부 Data scientist들은 수년 동안 동일한 역할을 수행해왔습니다. 이렇게 하면 "이것이 내 시간을 투자 및 할애할 가치가 있는가?"라고 자문하기 전까지는 무언가 알지 못하는 편안한 공간을 만듭니다. 회사에서 매일 하는 일을 나열하면 더 구체적으로 말할 수 있습니다. 여러 번 위 질문에 대해 'yes'고 답했다면 현재 위치에서 정체기에 이르렀거나 더 이상 자신의 경력과 관련이 없는 업무를 하고 있을 가능성이 높기 때문에 다른 부서나 회사에 새 직장을 구하는 것을 고려해 보시길 바랍니다. 

 

 

22. 한 가지 프로그래밍 언어에 얽매이지 마세요(Don't Get stuck With one Programming Language)

당신은 미래에 무슨 일이 일어날지 모릅니다. 현재 파이썬은 데이터 과학에서 널리 사용되고 있지만, 이 끝이 언제가 될지 모릅니다. 이것이 새로운 트렌드를 주시하고 최소한 그것에 익숙해지는 것이 중요한 이유입니다. 여러 프로그래밍 언어를 배우기 위해 집중적인 수업을 들을 필요가 없습니다. 대신 여기저기서 새로운 것을 시도하고, 진로를 더 발전시키기 위해 진지하게 배우는 것이 무엇이 편리한지 분석하시길 바랍니다.

 


 

이 글의 제목만 보았을 때 직감했지만 역시 다소 뻔한 이야기들이 많이 기술되어 있었습니다. 하지만 이러한 뻔한 이야기를 하나하나 제대로 지키는 것은 상당히 어렵다고 생각합니다. 1년 차 때는 1, 16, 18번도 열심히 했었는데 요새는 그렇지 않은 제 자신을 보는 것도 놀랍기도 합니다. 14, 15, 20은 정말 당연한 것인데, 잘 안지켜 지는 것 같습니다.

영감이 되는 부분은 이 직무를 하면서 느끼는 부분인데, 어느 한편으로는 19, 21번 내용이, 다른 한편으로는 10-12번 내용이 정말 와닿게 되는 것 같습니다. 학생들을 가르치거나 강연을 할 때에는 딥러닝 프레임워크 뭐 써요? R이 좋아요? python 이 좋아요? 같은 1차원 적인 질문을 많이 받는데, 저는 그냥 다 하라고 하는 편이긴 한데 22번이 대답을 해주는 것 같습니다.

 

무튼 이 22가지 습관에 대한 내용이 짧은 경력을 가진 저도 도움이 다소 되돌아보고 도움이 되는 글이지만, 이 직무를 새롭게 도전하는 사람들에게 큰 도움이 될 글이라고 생각합니다. 

 

 

 

원본의 글은 아래와 같습니다. 매끄럽지 않은 부분은 댓글 달아주시면 감사하겠습니다. 

 

22 Habits to Become a Better Data Scientist in 2022

I learned these 22 habits from successful data scientists. Use them to become one of them.

towardsdatascience.com

 

profile

호돌찌의 AI 연구소

@hotorch's AI Labs

포스팅이 도움이 되셨다면 "좋아요❤️" 또는 "구독👍🏻" 해주세요!