Skip to content

Data Management Intern

Remote대한민국, Gyeonggi-do, YonginData

Description

데이터는 인공지능 기술의 발전을 가속화하는 아주 중요한 수단입니다. 예를 들어, 컴퓨터비전 분야의 ImageNet은 인공지능 커뮤니티에 큰 영향을 끼쳤고 아주 폭발적인 관심을 받았습니다. 때문에, 데이터 구축은 국제 학회에서도 Resources track에서 다루는만큼 중요도가 높은 과제입니다. 좋은 데이터가 있을 때, 좋은 모델이 나오고 적절한 평가를 수행할 수 있기 때문입니다. 이와 같이 학계와 산업계에서 데이터를 많이 공개하고 있지만, 아직 재배포 및 수정 걱정없이 편하게 사용할 수 있는 데이터는 여전히 부족합니다.


업스테이지의 Data Manager로 근무하게 되면 NLP나 CV 태스크에 적합한 데이터를 구축하는 과정에 필요한 다양한 업무를 합니다. 우리가 의도한 패턴을 모델이 학습 및 평가할 수 있는데에 필요한 데이터의 조건에 대해 고민하고, 효율적이고 효과적으로 데이터 어노테이션을 수행하는 방법에 대해 멤버들과 함께 논의합니다. 이는 실무 AI에서 필수적으로 요구되는 역량이며 앞으로 현업에서 일하게 될 때에 큰 자양분이 되는 경험이 될 것입니다. 또한 여러 종류의 데이터 구축을 거의 동시에 진행하게 되는만큼 다양한 머신러닝 태스크에 대한 경험을 할 수 있습니다.


주요 업무:

  • 머신러닝 모델의 학습과 평가에 필요한 대용량의 데이터 설계, 수집, 관리
  • 머신러닝 태스크를 수행하기에 적합한 데이터 수집 가이드라인 작성 및 검토
  • 크라우드 소싱 플랫폼과 높은 품질의 데이터 어노테이션 작업을 위한 효과적인 커뮤니케이션 수행


세부 분야:

  • Natural Language Processing
  • Optical Character Recognition


근무 형태 (지원시 선택 가능)

  • 인턴 (체험형 / 3개월)
  • 리모트워크 - 리모트워크를 위한 업무장비/환경 지원


모집 절차 - 전체 온라인 진행
  • 서류 검토
  • 과제 수행
  • 기술 인터뷰 
  • 컬쳐 인터뷰
  • 최종 결과 발표

*절차는 상황에 따라 조정될 수 있습니다.

*체험형 인턴십의 경우, 정규직 전환을 전제로 하지 않습니다.

Requirements

필수 사항:

  • 기초적인 머신러닝 태스크에 대한 이해도가 있는 분 (e.g., Image classification, sentiment analysis)
  • 텍스트 및 이미지 전/후처리 라이브러리를 다뤄보신 분 (e.g. Open CV, Konlpy, nltk, spacy)
    • 학습 데이터 수집 및 구축에 열정이 있는 분
    • 의사 소통 및 협업 능력을 갖추신 분


    우대 사항:

    • 머신러닝 태스크의 모델링 경험이 있는 분
    • 데이터 엔지니어링에 관심이 있거나 경험해보신 분
    • 머신러닝을 위한 데이터 구축 가이드라인 작성 경험이 있는 분
    • 작업자들이 일관되고 효율적으로 어노테이션을 수행할 수 있는 방법을 고민하고 적용해본 분
    • 태스크에 적합한 정량 및 정성 평가를 고민하고 적용해본 분