AI Research Engineer - LLM Inference Optimization
부문
Upstage
직군
Tech
직무
AI Research Engineering
경력사항
경력 3년 이상
고용형태
정규직

업스테이지는 AI ​기술로 ​해결할 ​수 있는 ​비즈니스 문제들을 풀어갑니다. "Making ​AI ​Beneficial"이라는 미션 ​아래, 누구나 AI ​기술의 혜택을 ​누릴 ​수 있도록 ​'적용이 ​쉬운 ​AI 솔루션'을 개발하고 ​있습니다. ​세계 최고 수준의 ​AI ​모델을 ​다양한 분야에서 손쉽게 ​활용할 수 ​있는 ​API 시리즈를 ​출시하여 기업 ​고객들의 ​비즈니스 성공에 기여하고 ​있습니다. 또한, ​LLM 기술을 비즈니스 환경에 맞게 최적화하여 기업들의 업무 효율과 생산성을 높일 수 있는 Private LLM 서비스를 제공하는 등 AI가 세상에 이롭게 사용될 수 있도록 노력하고 있습니다.


LLM 기술과 더불어 Document Parse와 Information Extraction 등의 제품을 통해 문서 처리 분야에서 혁신을 이루고 있으며, 자체 LLM 및 Chat AI 기술을 비즈니스 환경에 맞게 최적화하여 기업들의 업무 효율과 생산성을 높일 수 있는 AI Space를 개발하는 등 업무 환경의 미래를 위한 인텔리전스를 만들어 갑니다.


LLM Serving 팀은 대규모 GPU 클러스터 위에서 Upstage Solar LLM을 가장 빠르고, 안정적이며, 비용 효율적으로 제공하기 위한 서빙 플랫폼과 추론 최적화 기술을 연구·개발합니다. 팀의 핵심 목표는 ① latency·throughput·cost 간의 trade-off를 최적화하는 서빙 아키텍처 구축, ② Prefill/Decode Disaggregation, KV Cache Offloading, Speculative Decoding, Expert Parallelism 등 최신 추론 기법의 프로덕션 적용, ③ Solar 모델의 구조적 특성을 고려한 양자화·경량화 및 커널 수준 최적화를 통한 토큰당 추론 비용의 지속적 절감입니다. 또한 vLLM, SGLang과 같은 오픈소스 추론 런타임에 자체 확장 기능을 기여하며, 대규모 트래픽을 효율적으로 처리하기 위한 라우팅·스케줄링 로직과 높은 가용성을 보장하는 관측 가능성(Observability) 체계를 설계합니다. 팀에 합류한다면, 최신 서빙 기술을 실제 프로덕션 환경에서 빠르게 검증하고, 글로벌 프론티어 수준의 LLM 서빙 인프라를 함께 만들어가는 경험을 할 수 있습니다.


주요 업무

  • LLM 추론의 latency, throughput, cost 간 trade-off를 최적화하기 위한 시스템 및 알고리즘을 설계·구현합니다.
  • 정확도 손실을 최소화하면서 최신 하드웨어의 추론 가속 효과를 극대화하는 모델 경량화(quantization, pruning, kv-cache compression 등) 파이프라인을 발전시킵니다.
  • Speculative Decoding, Prefill/Decode Disaggregation, Expert Parallelism 등 최신 추론 기법을 연구하고 실제 프로덕션 환경에 적용합니다.
  • Upstage Solar 모델의 구조적 특성을 고려한 추론 최적화 기법을 연구하고 프로덕션에 적용합니다.
  • 최신 연구를 빠르게 follow-up하고 실제 서빙 환경에서 가치를 검증합니다.
  • 토큰당 추론 비용을 지속적으로 절감하고, 프로덕션 환경에서 높은 비용 효율성을 달성합니다.


근무형태

  • 정규직


모집절차

  • 서류 전형
  • 기술 인터뷰(1차/2차)
  • 컬처 인터뷰
  • 최종 인터뷰
  • 최종 결과 발표

*절차는 상황에 따라 조정될 수 있습니다.

*최종 인터뷰 후, 레퍼런스 체크 절차가 진행될 수 있습니다.


근무환경

  • Anywhere On Earth But Together! ‘어디서든’ 함께 일할 수 있습니다.
  • 원격 근무에 필요한 장비를 500만원 예산 내에 자유롭게 선택하실 수 있습니다.
  • 근무를 위한 카페 이용 시 음료 비용, 스터디룸 혹은 공유오피스 이용 비용 등을 지원해드립니다.
  • 업무 관련 소프트웨어, 도서, 자료, 교육 및 어학 수강비 등 성장에 필요한 비용을 지원해드립니다.
  • 건강을 위한 운동비, 직장 단체보험 및 종합건강검진을 지원해드립니다.


필수사항

  • 3년 이상의 모델 추론 최적화 연구/개발 경험
  • 최신 LLM 아키텍처 및 추론 최적화 기술에 대한 깊은 이해
  • vLLM, SGLang, TensorRT-LLM, Text Generation Inference 등 LLM 추론 엔진의 사용 경험 및 내부 동작에 대한 이해
  • 다음 중 하나 이상에 대한 깊은 이해 및 실무 경험
  • Model compression (quantization, expert pruning 등)
  • KV cache optimization (quantization, eviction, offloading 등)
  • GPU 프로그래밍 (CUDA/Triton/TensorRT 등)
  • ML/GPU 컴파일러 스택 (XLA, torch.compile/Inductor, MLIR 등)
  • Python, C/C++ 등 하나 이상의 프로그래밍 언어에 대한 높은 수준의 이해
  • 최신 논문을 읽고 핵심 아이디어를 코드로 구현할 수 있는 능력
  • 한국어 및 영어 능통자


우대사항

  • ML/NLP 분야 국제 학회 논문 게재 경험 (1저자 혹은 교신저자) - Strongly wanted
  • vLLM, SGLang, TensorRT-LLM, Transformers 등 오픈소스 LLM 프레임워크 기여 경험
  • MoE, long-context, multimodal 모델의 서빙 최적화 경험
  • 대규모 분산 추론(Tensor/Pipeline/Expert Parallelism) 설계·튜닝 경험
  • 커스텀 CUDA/Triton 커널 작성 및 최적화 경험
  • CUTLASS, NCCL, FlashAttention 등 저수준 라이브러리 기여·활용 경험
  • NVIDIA 외 하드웨어(AMD GPU, TPU, NPU 등)에서 추론 최적화 경험
  • 대규모 GPU 클러스터 환경에서 분산 학습/추론 경험


*관련 문의사항은 [email protected]로 문의 부탁드립니다.

*CV를 포함한 모든 제출 자료는 PDF 형식으로 업로드 해주시기 바랍니다.

*지원자의 민감 정보(연봉 정보, 주민번호 등) 및 고유식별번호는 이력서에 기재하지 않도록 유의해주시기를 바랍니다.

*입사지원 서류에 허위사실이 발견될 경우, 영입 확정 이후라도 영입이 취소될 수 있습니다.

공유하기
AI Research Engineer - LLM Inference Optimization

업스테이지는 AI ​기술로 ​해결할 ​수 있는 ​비즈니스 문제들을 풀어갑니다. "Making ​AI ​Beneficial"이라는 미션 ​아래, 누구나 AI ​기술의 혜택을 ​누릴 ​수 있도록 ​'적용이 ​쉬운 ​AI 솔루션'을 개발하고 ​있습니다. ​세계 최고 수준의 ​AI ​모델을 ​다양한 분야에서 손쉽게 ​활용할 수 ​있는 ​API 시리즈를 ​출시하여 기업 ​고객들의 ​비즈니스 성공에 기여하고 ​있습니다. 또한, ​LLM 기술을 비즈니스 환경에 맞게 최적화하여 기업들의 업무 효율과 생산성을 높일 수 있는 Private LLM 서비스를 제공하는 등 AI가 세상에 이롭게 사용될 수 있도록 노력하고 있습니다.


LLM 기술과 더불어 Document Parse와 Information Extraction 등의 제품을 통해 문서 처리 분야에서 혁신을 이루고 있으며, 자체 LLM 및 Chat AI 기술을 비즈니스 환경에 맞게 최적화하여 기업들의 업무 효율과 생산성을 높일 수 있는 AI Space를 개발하는 등 업무 환경의 미래를 위한 인텔리전스를 만들어 갑니다.


LLM Serving 팀은 대규모 GPU 클러스터 위에서 Upstage Solar LLM을 가장 빠르고, 안정적이며, 비용 효율적으로 제공하기 위한 서빙 플랫폼과 추론 최적화 기술을 연구·개발합니다. 팀의 핵심 목표는 ① latency·throughput·cost 간의 trade-off를 최적화하는 서빙 아키텍처 구축, ② Prefill/Decode Disaggregation, KV Cache Offloading, Speculative Decoding, Expert Parallelism 등 최신 추론 기법의 프로덕션 적용, ③ Solar 모델의 구조적 특성을 고려한 양자화·경량화 및 커널 수준 최적화를 통한 토큰당 추론 비용의 지속적 절감입니다. 또한 vLLM, SGLang과 같은 오픈소스 추론 런타임에 자체 확장 기능을 기여하며, 대규모 트래픽을 효율적으로 처리하기 위한 라우팅·스케줄링 로직과 높은 가용성을 보장하는 관측 가능성(Observability) 체계를 설계합니다. 팀에 합류한다면, 최신 서빙 기술을 실제 프로덕션 환경에서 빠르게 검증하고, 글로벌 프론티어 수준의 LLM 서빙 인프라를 함께 만들어가는 경험을 할 수 있습니다.


주요 업무

  • LLM 추론의 latency, throughput, cost 간 trade-off를 최적화하기 위한 시스템 및 알고리즘을 설계·구현합니다.
  • 정확도 손실을 최소화하면서 최신 하드웨어의 추론 가속 효과를 극대화하는 모델 경량화(quantization, pruning, kv-cache compression 등) 파이프라인을 발전시킵니다.
  • Speculative Decoding, Prefill/Decode Disaggregation, Expert Parallelism 등 최신 추론 기법을 연구하고 실제 프로덕션 환경에 적용합니다.
  • Upstage Solar 모델의 구조적 특성을 고려한 추론 최적화 기법을 연구하고 프로덕션에 적용합니다.
  • 최신 연구를 빠르게 follow-up하고 실제 서빙 환경에서 가치를 검증합니다.
  • 토큰당 추론 비용을 지속적으로 절감하고, 프로덕션 환경에서 높은 비용 효율성을 달성합니다.


근무형태

  • 정규직


모집절차

  • 서류 전형
  • 기술 인터뷰(1차/2차)
  • 컬처 인터뷰
  • 최종 인터뷰
  • 최종 결과 발표

*절차는 상황에 따라 조정될 수 있습니다.

*최종 인터뷰 후, 레퍼런스 체크 절차가 진행될 수 있습니다.


근무환경

  • Anywhere On Earth But Together! ‘어디서든’ 함께 일할 수 있습니다.
  • 원격 근무에 필요한 장비를 500만원 예산 내에 자유롭게 선택하실 수 있습니다.
  • 근무를 위한 카페 이용 시 음료 비용, 스터디룸 혹은 공유오피스 이용 비용 등을 지원해드립니다.
  • 업무 관련 소프트웨어, 도서, 자료, 교육 및 어학 수강비 등 성장에 필요한 비용을 지원해드립니다.
  • 건강을 위한 운동비, 직장 단체보험 및 종합건강검진을 지원해드립니다.


필수사항

  • 3년 이상의 모델 추론 최적화 연구/개발 경험
  • 최신 LLM 아키텍처 및 추론 최적화 기술에 대한 깊은 이해
  • vLLM, SGLang, TensorRT-LLM, Text Generation Inference 등 LLM 추론 엔진의 사용 경험 및 내부 동작에 대한 이해
  • 다음 중 하나 이상에 대한 깊은 이해 및 실무 경험
  • Model compression (quantization, expert pruning 등)
  • KV cache optimization (quantization, eviction, offloading 등)
  • GPU 프로그래밍 (CUDA/Triton/TensorRT 등)
  • ML/GPU 컴파일러 스택 (XLA, torch.compile/Inductor, MLIR 등)
  • Python, C/C++ 등 하나 이상의 프로그래밍 언어에 대한 높은 수준의 이해
  • 최신 논문을 읽고 핵심 아이디어를 코드로 구현할 수 있는 능력
  • 한국어 및 영어 능통자


우대사항

  • ML/NLP 분야 국제 학회 논문 게재 경험 (1저자 혹은 교신저자) - Strongly wanted
  • vLLM, SGLang, TensorRT-LLM, Transformers 등 오픈소스 LLM 프레임워크 기여 경험
  • MoE, long-context, multimodal 모델의 서빙 최적화 경험
  • 대규모 분산 추론(Tensor/Pipeline/Expert Parallelism) 설계·튜닝 경험
  • 커스텀 CUDA/Triton 커널 작성 및 최적화 경험
  • CUTLASS, NCCL, FlashAttention 등 저수준 라이브러리 기여·활용 경험
  • NVIDIA 외 하드웨어(AMD GPU, TPU, NPU 등)에서 추론 최적화 경험
  • 대규모 GPU 클러스터 환경에서 분산 학습/추론 경험


*관련 문의사항은 [email protected]로 문의 부탁드립니다.

*CV를 포함한 모든 제출 자료는 PDF 형식으로 업로드 해주시기 바랍니다.

*지원자의 민감 정보(연봉 정보, 주민번호 등) 및 고유식별번호는 이력서에 기재하지 않도록 유의해주시기를 바랍니다.

*입사지원 서류에 허위사실이 발견될 경우, 영입 확정 이후라도 영입이 취소될 수 있습니다.