[독파모] AI Research Engineer - LLM Eval
부문
Upstage
직군
Tech
직무
AI Research Engineering
경력사항
경력 무관
고용형태
정규직

업스테이지는 AI ​기술을 ​활용하여 ​비즈니스 문제 ​해결에 주력하는 기업으로, "Making ​AI ​Beneficial"이라는 비전과 ​"Artificial General Intelligence ​(AGI) for ​Work"라는 ​미션을 기반으로 ​운영됩니다. ​단순한 ​업무 자동화를 넘어, ​복잡한 ​의사결정 지원 및 ​비용 ​절감을 ​통해 기업의 생산성을 ​혁신적으로 향상시키는 ​AI ​솔루션 개발에 ​집중하고 있습니다.


이러한 ​비전 ​실현을 위해 업스테이지는 ​AGI의 핵심 ​기반 기술인 LLM(Large Language Model) 모델을 지속적으로 발전시키고 있습니다. 기술 경쟁력 강화를 위해 Global Frontier에서 추적하는 벤치마크 지표를 통하여 모델 성능을 진단 및 개선하며, 동시에 고객사의 실제 니즈를 반영한 Workspace Benchmark Set을 구축해 모델의 실용성과 성능을 극대화에 활용하고 있습니다. 이를 통해 업스테이지는 산업 현장의 복잡한 문제를 해결하는 동시에 글로벌 수준의 기술 표준을 선도하기 위해 노력하고 있습니다.


LLM Eval 팀은 (1) 지식/추론 능력, (2) 인간 선호도 정렬(human preference alignment), (3) 에이전트형 도구 활용(agentic tool use) 분야의 성능 평가 벤치마크 및 툴킷을 연구·개발하며, 글로벌 프론티어 LLM들이 주목하는 벤치마크 동향을 실시간 모니터링해 Solar의 기술 전략에 부합하는 평가 체계를 구축합니다. 벤치마크 개발은 ① 다국어(한국어 포함) 평가 데이터의 언어 편향성 해소, ② 문화·언어 이해도 및 선호도 측정을 위한 데이터 설계, ③ 기존 평가 데이터의 한계 극복을 위한 확장/신규 구축을 핵심 목표로 합니다.


특히 이 포지션은 LLM 평가 연구에만 국한되지 않고, 대규모 벤치마크를 안정적으로 실행·관리하기 위한 평가 플랫폼 및 인프라를 함께 설계하고 고도화하는 경험을 제공합니다. 실험 자동화, 분산 환경에서의 평가 파이프라인 구축, 결과 수집 및 분석 시스템 개선 등 소프트웨어 엔지니어링 역량이 함께 요구되며, 이를 통해 연구와 엔지니어링을 아우르는 문제 해결 능력을 균형 있게 성장시킬 수 있습니다.


프론티어 모델과 Solar을 다각적으로 평가·진단하는 과정에서 데이터 기반 의사결정과 기술 로드맵 수립에 직접 기여할 수 있으며, 연구와 시스템을 동시에 발전시키는 경험을 할 수 있습니다.


Representative projects

  • Automatic quality assessment system development
  • Solar safety benchmark development
  • Solar edge-case (failure or error) benchmark development
  • Complex structured text generation benchmark development

** 기술의 흐름과 상황에 따라서 개발하는 프로젝트는 변화하며, 프로젝트는 각 시점에 LLM 모델 발전에 가장 영향력있는 기술 요소에 집중합니다.


근무 형태

  • 정규직


모집 절차 - 전체 온라인으로 진행

  • 서류 전형
  • 알고리즘 코딩 테스트 
  • 딥러닝 코딩테스트
  • 기술 인터뷰 (1차/2차)
  • 컬처 인터뷰
  • 최종 인터뷰 
  • 최종 결과 발표

*절차는 상황에 따라 조정될 수 있습니다.

*최종 인터뷰 후, 레퍼런스 체크 절차가 진행될 수 있습니다.


근무환경

  • Anywhere On Earth But Together! ‘어디서든’ 함께 일할 수 있습니다.
  • 원격 근무에 필요한 장비를 500만원 예산 내에 자유롭게 선택하실 수 있습니다.
  • 근무를 위한 카페 이용 시 음료 비용, 스터디룸 혹은 공유오피스 이용 비용 등을 지원해드립니다.
  • 업무 관련 소프트웨어, 도서, 자료, 교육 및 어학 수강비 등 성장에 필요한 비용을 지원해드립니다.
  • 건강을 위한 운동비, 직장 단체보험 및 종합건강검진을 지원해드립니다.


Requirements

Strongly wanted

  • AI 모델 평가 및 분석 관련 토픽으로 국제 학회에서 출판 기록 (공저자 포함)
  • 또는 ML과 NLP 토픽으로 국제 학회에서 출판 기록 (1저자 혹은 교신저자)


May helpful

  • AI 모델 평가를 위한 데이터 수집, 생성, 정제등을 수행해 본 경험
  • Agentic flow (w/ tool use)를 설계 및 개발해본 경험
  • Failure analysis를 기반으로 데이터를 하나하나 들여다 보고 인사이트를 얻을 수 있는 집중력
  • 논리적인 사고실험을 수행하고 가설/검증의 방식으로 실험 설계 및 결과를 도출할 수 있는 사고력
  • 복잡한 데이터 협업 프로토콜 (규칙) 을 정돈할 수 있는 시스템적 사고 능력 
  • 레슨런을 효과적이고 효율적으로 전파하고 논의할 수 있는 의사소통 능력


*관련 문의사항은 [email protected]로 문의 부탁드립니다.

*CV를 포함한 모든 제출 자료는 PDF 형식으로 업로드 해주시기 바랍니다.

*지원자의 민감 정보(연봉 정보, 주민번호 등) 및 고유식별번호는 이력서에 기재하지 않도록 유의해주시기를 바랍니다.

*입사지원 서류에 허위사실이 발견될 경우, 영입 확정 이후라도 영입이 취소될 수 있습니다.

공유하기
[독파모] AI Research Engineer - LLM Eval

업스테이지는 AI ​기술을 ​활용하여 ​비즈니스 문제 ​해결에 주력하는 기업으로, "Making ​AI ​Beneficial"이라는 비전과 ​"Artificial General Intelligence ​(AGI) for ​Work"라는 ​미션을 기반으로 ​운영됩니다. ​단순한 ​업무 자동화를 넘어, ​복잡한 ​의사결정 지원 및 ​비용 ​절감을 ​통해 기업의 생산성을 ​혁신적으로 향상시키는 ​AI ​솔루션 개발에 ​집중하고 있습니다.


이러한 ​비전 ​실현을 위해 업스테이지는 ​AGI의 핵심 ​기반 기술인 LLM(Large Language Model) 모델을 지속적으로 발전시키고 있습니다. 기술 경쟁력 강화를 위해 Global Frontier에서 추적하는 벤치마크 지표를 통하여 모델 성능을 진단 및 개선하며, 동시에 고객사의 실제 니즈를 반영한 Workspace Benchmark Set을 구축해 모델의 실용성과 성능을 극대화에 활용하고 있습니다. 이를 통해 업스테이지는 산업 현장의 복잡한 문제를 해결하는 동시에 글로벌 수준의 기술 표준을 선도하기 위해 노력하고 있습니다.


LLM Eval 팀은 (1) 지식/추론 능력, (2) 인간 선호도 정렬(human preference alignment), (3) 에이전트형 도구 활용(agentic tool use) 분야의 성능 평가 벤치마크 및 툴킷을 연구·개발하며, 글로벌 프론티어 LLM들이 주목하는 벤치마크 동향을 실시간 모니터링해 Solar의 기술 전략에 부합하는 평가 체계를 구축합니다. 벤치마크 개발은 ① 다국어(한국어 포함) 평가 데이터의 언어 편향성 해소, ② 문화·언어 이해도 및 선호도 측정을 위한 데이터 설계, ③ 기존 평가 데이터의 한계 극복을 위한 확장/신규 구축을 핵심 목표로 합니다.


특히 이 포지션은 LLM 평가 연구에만 국한되지 않고, 대규모 벤치마크를 안정적으로 실행·관리하기 위한 평가 플랫폼 및 인프라를 함께 설계하고 고도화하는 경험을 제공합니다. 실험 자동화, 분산 환경에서의 평가 파이프라인 구축, 결과 수집 및 분석 시스템 개선 등 소프트웨어 엔지니어링 역량이 함께 요구되며, 이를 통해 연구와 엔지니어링을 아우르는 문제 해결 능력을 균형 있게 성장시킬 수 있습니다.


프론티어 모델과 Solar을 다각적으로 평가·진단하는 과정에서 데이터 기반 의사결정과 기술 로드맵 수립에 직접 기여할 수 있으며, 연구와 시스템을 동시에 발전시키는 경험을 할 수 있습니다.


Representative projects

  • Automatic quality assessment system development
  • Solar safety benchmark development
  • Solar edge-case (failure or error) benchmark development
  • Complex structured text generation benchmark development

** 기술의 흐름과 상황에 따라서 개발하는 프로젝트는 변화하며, 프로젝트는 각 시점에 LLM 모델 발전에 가장 영향력있는 기술 요소에 집중합니다.


근무 형태

  • 정규직


모집 절차 - 전체 온라인으로 진행

  • 서류 전형
  • 알고리즘 코딩 테스트 
  • 딥러닝 코딩테스트
  • 기술 인터뷰 (1차/2차)
  • 컬처 인터뷰
  • 최종 인터뷰 
  • 최종 결과 발표

*절차는 상황에 따라 조정될 수 있습니다.

*최종 인터뷰 후, 레퍼런스 체크 절차가 진행될 수 있습니다.


근무환경

  • Anywhere On Earth But Together! ‘어디서든’ 함께 일할 수 있습니다.
  • 원격 근무에 필요한 장비를 500만원 예산 내에 자유롭게 선택하실 수 있습니다.
  • 근무를 위한 카페 이용 시 음료 비용, 스터디룸 혹은 공유오피스 이용 비용 등을 지원해드립니다.
  • 업무 관련 소프트웨어, 도서, 자료, 교육 및 어학 수강비 등 성장에 필요한 비용을 지원해드립니다.
  • 건강을 위한 운동비, 직장 단체보험 및 종합건강검진을 지원해드립니다.


Requirements

Strongly wanted

  • AI 모델 평가 및 분석 관련 토픽으로 국제 학회에서 출판 기록 (공저자 포함)
  • 또는 ML과 NLP 토픽으로 국제 학회에서 출판 기록 (1저자 혹은 교신저자)


May helpful

  • AI 모델 평가를 위한 데이터 수집, 생성, 정제등을 수행해 본 경험
  • Agentic flow (w/ tool use)를 설계 및 개발해본 경험
  • Failure analysis를 기반으로 데이터를 하나하나 들여다 보고 인사이트를 얻을 수 있는 집중력
  • 논리적인 사고실험을 수행하고 가설/검증의 방식으로 실험 설계 및 결과를 도출할 수 있는 사고력
  • 복잡한 데이터 협업 프로토콜 (규칙) 을 정돈할 수 있는 시스템적 사고 능력 
  • 레슨런을 효과적이고 효율적으로 전파하고 논의할 수 있는 의사소통 능력


*관련 문의사항은 [email protected]로 문의 부탁드립니다.

*CV를 포함한 모든 제출 자료는 PDF 형식으로 업로드 해주시기 바랍니다.

*지원자의 민감 정보(연봉 정보, 주민번호 등) 및 고유식별번호는 이력서에 기재하지 않도록 유의해주시기를 바랍니다.

*입사지원 서류에 허위사실이 발견될 경우, 영입 확정 이후라도 영입이 취소될 수 있습니다.