
Infra Engineer
- Remote
- Yongin-si, 경기도, 대한민국
- Software Engineering
Description
업스테이지는 AI 기술로 해결할 수 있는 비즈니스 문제들을 풀어갑니다. "Making AI Beneficial"이라는 미션 아래, 누구나 AI 기술의 혜택을 누릴 수 있도록 '적용이 쉬운 AI 솔루션'을 개발하고 있습니다. 세계 최고 수준의 AI 모델을 다양한 분야에서 손쉽게 활용할 수 있는 API 시리즈를 출시하여 기업 고객들의 비즈니스 성공에 기여하고 있습니다. 또한, LLM 기술을 비즈니스 환경에 맞게 최적화하여 기업들의 업무 효율과 생산성을 높일 수 있는 Private LLM 서비스를 제공하는 등 AI가 세상에 이롭게 사용될 수 있도록 노력하고 있습니다.
LLM 기술과 더불어 Document Parse와 Information Extraction 등의 제품을 통해 문서 처리 분야에서 혁신을 이루고 있으며, 자체 LLM 및 Chat AI 기술을 비즈니스 환경에 맞게 최적화하여 기업들의 업무 효율과 생산성을 높일 수 있는 AI Space를 개발하는 등 업무 환경의 미래를 위한 인텔리전스를 만들어 갑니다.
업스테이지의 인프라 팀은 최고의 AI 모델이 탄생하고 서비스될 수 있도록 단단한 기반을 설계하고 운영하는 핵심 엔지니어링 조직입니다. 우리는 고성능 AI 모델의 학습과 서비스를 뒷받침하기 위해 GPU 클러스터를 IDC에서 직접 운영하고 있으며, 온프레미스와 퍼블릭 클라우드를 아우르는 하이브리드 환경을 구축하고 있습니다.
주요 업무
Hybrid Infrastructure (IDC/Cloud) 통합 엔지니어링: IDC 내 고성능 GPU 서버(Bare metal)와 AWS, Azure 등 Public Cloud 리소스를 유기적으로 연결하고, 각 환경에 최적화된 인프라를 구축합니다.
Observability 및 장애 대응 체계 고도화: Zabbix, Prometheus, Grafana 등을 활용해 하드웨어부터 애플리케이션 레벨까지 전 구간을 가시화하고, 장애 발생 시 근본 원인(Root Cause)을 빠르게 파악하여 해결합니다.
Infra Automation & Platform Engineering: Netbox, Ansible, Terraform 및 AI 기술을 활용하여 자산 관리부터 배포까지의 과정을 자동화하고, 운영 비용을 지속적으로 제거합니다.
Slurm 기반 대규모 GPU 클러스터 아키텍처 설계 및 최적화: Slurm Workload Manager를 통해 GPU 자원 할당 효율을 극대화하고, 대규모 분산 학습 환경에서의 병목 현상을 해결합니다.
근무형태
정규직
모집절차
서류 전형
알고리즘 코딩 테스트
기술 인터뷰
컬처 인터뷰
최종 인터뷰
최종 결과 발표
*절차는 상황에 따라 조정될 수 있습니다.
*최종 인터뷰 후, 레퍼런스 체크 절차가 진행될 수 있습니다.
근무환경
Anywhere On Earth But Together! ‘어디서든’ 함께 일할 수 있습니다.
원격 근무에 필요한 장비를 500만원 예산 내에 자유롭게 선택하실 수 있습니다.
근무를 위한 카페 이용 시 음료 비용, 스터디룸 혹은 공유오피스 이용 비용 등을 지원해드립니다.
업무 관련 소프트웨어, 도서, 자료, 교육 및 어학 수강비 등 성장에 필요한 비용을 지원해드립니다.
건강을 위한 운동비, 직장 단체보험 및 종합건강검진을 지원해드립니다.
Requirements
필수사항
유관 업무 경력 7년 이상 혹은 그에 준하는 역량을 보유하신 분
Linux Kernel 및 OS (Ubuntu/RHEL 등) 내부 구조에 대한 깊은 이해와 튜닝 경험이 있으신 분
Docker / Kubernetes 기반의 컨테이너 오케스트레이션 환경 구축 및 운영 경험이 있으신 분
Terraform, Ansible 등을 활용한 IaC(Infrastructure as Code) 기반의 대규모 인프라 관리 경험이 있으신 분
AWS, Azure, GCP 중 하나 이상의 Public Cloud 환경에서 아키텍처 설계 및 운영 경험이 있으신 분
TCP/IP 스택 및 네트워크 프로토콜(BGP, DNS, HTTP/S, LB 등)에 대한 탄탄한 지식을 보유하신 분
대용량 스토리지 시스템(Weka, NFS, Lustre 등)의 구조 및 원리에 대한 이해가 있으신 분
온프레미스 및 클라우드 환경을 아우르는 하이브리드 아키텍처 설계 역량을 갖추신 분
다양한 팀과 협업하며 문제를 주도적으로 해결할 수 있는 커뮤니케이션 역량
우대사항
인프라 조직 리딩(Tech Lead) 혹은 매니징 경험이 있으신 분
Slurm Workload Manager 기반의 HPC/AI 클러스터 구축 및 운영 경험
Kubernetes 환경에서 다양한 오픈소스를 직접 구성하고 운영 및 트러블슈팅 해본 경험
Python, Bash, Github Actions 및 AI Agent를 활용하여 운영 업무를 자동화하고 효율화한 경험
Slack, Github, Notion 등 협업 툴을 활용한 비동기 커뮤니케이션에 능숙하며, 리모트 환경에서도 주도적으로 업무를 정의하고 성과를 만들어내시는 분
기술적인 의사결정을 주도하고, 동료들에게 지식을 전파하며 함께 성장하는 문화를 즐기시는 분
—
*관련 문의사항은 joinstage@upstage.ai로 문의 부탁드립니다.
*CV를 포함한 모든 제출 자료는 PDF 형식으로 업로드 해주시기 바랍니다.
*지원자의 민감 정보(연봉 정보, 주민번호 등) 및 고유식별번호는 이력서에 기재하지 않도록 유의해주시기를 바랍니다.
or
All done!
Your application has been successfully submitted!

