2 분 소요

“Must Have 머신러닝 딥러닝 문제해결 전략”을 읽고 배운 내용을 정리해보았다. 캐글 입문하기 위해 필요한 정보를 알아보자

1.1 왜 캐글을 해야하는가?

  • 경진대회 종류 다양, 데이터 방대, 코드와 아이디어 활발히 공유
  • 공유된 노트북을 활용하여 새로운 노트북을 만들어 공유한다. 공유한 노트북만 잘 활용해도 성능 좋은 모델을 개발할 수 있다.
  • 캐글 입상 시 취업 우대

1.2 캐글 구성 요소

  • 경진대회, 데이터셋, 노트북, 토론, 강좌
  • 경진대회가 개최되면 수많은 노트북 생성, 활발한 토론 진행
  • 메뉴
    • Home - 메인 홈페이지
    • Competitions - 경진대회
      • 기업이 요구하는 지표를 기준으로 높은 성적은 내는 모델을 만들어야한다.
      • 상금을 받으면 기업에게 자신이 짠 코드(데이터 과학 및 모델링 코드)를 제공한다.

        image

        • 난이도: Getting Started ⇒ Playground ⇒ Featured
    • Datasets - 데이터셋
      • 경진대회 없이 순수하게 데이터셋만 제공되는 영역, 자유롭게 공유, 사용 가능
      • 키워드 중심으로 검색하여 원하는 데이터를 얻을 수 있다. ex_COVID-19
      • 많은 사람이 추천했다는 것은 질이 좋은 데이터, 활용가치가 높은 데이터일 확률이 높다.
    • Code - 코드(노트북)
      • 다른 사람이 올려놓은 캐글 코드를 모아놓은 영역
      • 경진대회 또는 데이터셋의 데이터를 분석한 코드가 있음
      • 키워드 중심으로 검색하여 원하는 코드를 얻을 수 있다. ex_regression
    • Discussions - 토론
      • 경진대회를 진행하며 궁금한 점을 다른 사람에게 물어볼 수 있다.
      • 사소한 질문이라도 막히거나 궁금한 게 있다면 주저 말고 질문하자!
    • Courses - 강좌
      • 빠르게 기초 개념을 복습하기에 좋다.


1.3 캐글러 등급

  • 등급: Novice, Contributor, Expert, Master, Grandmaster
  • 경진대회, 데이터셋, 노트북, 토론마다 등급을 매긴다.
  • 등급을 높이기 위해 메달을 따야한다. 메달을 일정 개수 이상 모으면 등급이 올라간다.


메달

  • 경진대회 메달 조건

    image

  • 데이터셋, 노트북 토록 메달 조건

    image

    • 데이터셋, 노트북
      • 데이터, 혹은 노트북의 추천 개수 (본인 추천, Novice 추천 제외)
    • 토론: 메달 따기 가장 좋은 섹션
      • 토론 실질 추천 개수 (본인 추천, Novice 추천 제외)
        • 실질 추천 개수 = 추천수 - 비추천수
      • 토론글이나 댓글에 1명이라도 추천을 하면 바로 토론 동메달을 딴다. ⇒ 토론 문화가 잘 발달되어있다.

등급

  • Contributor 조건 (쉬움)
    • 사진등록, 거주지, 직업, 회사등록, 휴대폰 인증
    • 노트북 1회 실행
    • 경진대회 1회 참여 및 제출
    • 1개 토론 참여
    • 다른 게시물에 추천 1개
  • Expert 조건 (조금 까다로움): 취업 우대사항에 캐글 Expert를 내거는 기업이 있을 정도로 Expert는 데이터 과학자로서 실력을 갖추었다는 증표이다!
    • Expert부터 경진대회, 데이터셋, 노트북, 토론 등급으로 나뉜다.
    • 경진대회: 경진대회 동메달 2개
    • 데이터셋: 데이터셋 동메달 3개
    • 노트북: 노트북 동메달 5개
    • 토론: 토론 동메달 50개
  • Master 조건 : 은메달 이상을 따야한다. 상당한 시간과 노력 필요!
    • 경진대회: 경진대회 금메달 1개, 은메달 2개
    • 데이터셋: 데이터셋 금메달 1개, 은메달 4개
    • 노트북: 노트북 은메달 10개
    • 토론: 토론 은메달 50개 포함하여 총 200개 메달
  • Grandmaster 조건
    • 경진대회: 경진대회 ‘솔로’ 금메달 1개, 금메달 5개
    • 데이터셋: 데이터셋 금메달 5개, 은메달 5개
    • 노트북: 노트북 금메달 15개
    • 토론: 토론 금메달 50개 포함하여 총 500개 메달



지금까지 캐글이 무엇인지에 대해 알아봤다. 앞으로 캐글 리팩터링을 통해 머신러닝, 딥러닝의 문제해결 전략을 습득할 것이다.
처음 캐글을 시작하는데 떨리기도 하고, 기대가 된다. 재미와 열정을 가지고 화이팅하자!!

댓글남기기