
[์ ๋ฌธ์ฐ๊ตฌ์์ ์ ๊ทํธ์ & ์ ์ง] AI Research Engineer - Vision Language Model
- On-site
- Yongin-si, ๊ฒฝ๊ธฐ๋, ๋ํ๋ฏผ๊ตญ
- AI Research Engineering
Description
*๋ณธ ๊ณต๊ณ ๋ ๋ณ์ญํน๋ก์ ํด๋นํ๋ โ์ ๋ฌธ์ฐ๊ตฌ์์โ์ ํฌ๋งํ๋ ๋ถ๋ค์ ํํด ์ง์ํ์ค ์ ์์ผ๋ฉฐ, ๋ณ์ญ์๋ฌด๊ฐ ์๋ ๋ถ๋ค์ ์ง์๋์์ ํด๋น๋์ง ์์ต๋๋ค.
์ ์คํ ์ด์ง๋ "Making AI Beneficial" ๋น์ ๊ณผ "Building intelligence for the future of work"๋ผ๋ ๋ฏธ์ ์๋, ๋จ์ํ ๊ธ์์ ๋ฌธ์ฅ๋ง ์ฝ๋ ์์ค์ ๋์ด ์ฌ์งยท์ฐจํธยทํ ๋ฑ ์๊ฐ ์ ๋ณด๋ฅผ ํจ๊ป ํ์ ํ๊ณ ํ ์คํธ์ ์ข ํฉํด ์ดํดํ๋ Vision-Language-Model (VLM) ๊ธฐ๋ฐ์ ์ฐจ์ธ๋ AI ์๋ฃจ์ ์ ๋ง๋ค๊ณ ์์ต๋๋ค. ์ด๋ ๊ณ ๊ฐ์ด ๋ณด์ ํ ๋ฐฉ๋ํ ๋ฌธ์ ๋ฐ์ดํฐ ์์์ ์ ๋ค์ด ์๋ ์ ๋ณด๋ฅผ ์ถ์ถํ์ฌ, ์๋ก์ด ์ธ์ฌ์ดํธ์ ๋ถ๊ฐ๊ฐ์น๋ฅผ ์คํํ ์ ์๋ ๊ธฐํ๋ฅผ ์ ๊ณตํฉ๋๋ค. ์ด๋ฅผ ์ํด ์ ์คํ ์ด์ง์ VLM ํ์ ์น์ค์ผ์ผ์ ๋ฐ์ดํฐ ์์ง๊ณผ ํฉ์ฑ, ๋๊ท๋ชจ์ ์ฌ์ /์ฌํ ํ์ต, ๊ทธ๋ฆฌ๊ณ ๋ค์ํ ํ๊ฐ ๋ฐฉ๋ฒ์ ๋ํ ์ฐ๊ตฌ ๊ฐ๋ฐ์ ์งํํ๊ณ ์์ต๋๋ค.
์ ์คํ ์ด์ง๋ ๋๊ตฌ๋ ์์ฝ๊ฒ AI ๊ธฐ์ ์ ํ์ฉํ ์ ์๋๋ก โ์ฌ์ฉ์ด ์ฌ์ด AI ์๋ฃจ์ โ์ ์ ๊ณตํ๋ ๊ฒ์ ๋ชฉํ๋ก ํ๊ณ ์์ต๋๋ค. ์ด๋ฏธ ์ต๊ณ ์์ค์ OCR ๊ธฐ์ ๊ณผ ๋ฌธ์ ๋ด ์๋ฏธ ์๋ ์ ๋ณด๋ฅผ ์๋์ผ๋ก ์ถ์ถํ๋ Key-Value ์ถ์ถ ๊ธฐ์ ์ ๋ณด์ ํ๊ณ ์์ผ๋ฉฐ, ์ต๊ทผ์๋ ๋ค์ํ ๋ฌธ์ ๋ ์ด์์์ ๋ถ์ํ๋ Document Parsing ๋ชจ๋ธ์ ๊ณต๊ฐํ์์ต๋๋ค. ์ด๋ฌํ ๊ธฐ์ ๋ค์ ๋ฐํ์ผ๋ก, ์ ์คํ ์ด์ง๋ ๊ธฐ์ ๋ค์ ์ ๋ฌด ํจ์จ๊ณผ ์์ฐ์ฑ์ ๊ทน๋ํํ๋ ๋ง์ถคํ AI ์๋ฃจ์ ์ ์ ๊ณตํ์ฌ AI๊ฐ ์ค์ ๋น์ฆ๋์ค์์ ํฐ ๊ฐ์น๋ฅผ ์ฐฝ์ถํ ์ ์๋๋ก ๋ ธ๋ ฅํ๊ณ ์์ต๋๋ค.
๋ํ LLM ๊ธฐ์ ์ ๋น์ฆ๋์ค ํ๊ฒฝ์ ๋ง๊ฒ ์ต์ ํํด ๊ธฐ์ ๋ค์ ์ ๋ฌด ํจ์จ๊ณผ ์์ฐ์ฑ์ ๋์ผ ์ ์๋ Private LLM ์๋น์ค๋ฅผ ์ ๊ณตํ๋ ๋ฑ AI๊ฐ ์ธ์์ ์ด๋กญ๊ฒ ์ฐ์ด๊ฒ ํ๊ธฐ ์ํด ์ธ๊ณ ์ต๊ณ ์์ค์ AI ๋ชจ๋ธ์ ๋ค์ํ ๋ถ์ผ์์ ์์ฝ๊ฒ ํ์ฉํ ์ ์๋ API ์๋ฆฌ์ฆ๋ฅผ ์ถ์ํ์ฌ ๊ธฐ์ ๊ณ ๊ฐ๋ค์ ๋น์ฆ๋์ค ์ฑ๊ณต์ ๊ธฐ์ฌํ๊ณ ์์ต๋๋ค. ๊ทธ ์ค์์ ์ ์คํ ์ด์ง Document AI๋ ์ธ๊ณ ์ต๊ณ ์์ค์ OCR ๋ฐ ์ ๋ณด์ถ์ถ ๊ธฐ์ ๋ ฅ์ ๋ฐํ์ผ๋ก ํ ์ ํ์ผ๋ก, AI๋ฅผ ํตํด ๋ฒ๊ฑฐ๋ก์ด ๋ฌธ์ ์ฒ๋ฆฌ๋ฅผ ์๋ํํ๊ณ ํจ์จํํ๊ฒ ๋ค๋ ๋ชฉํ๋ฅผ ๊ฐ์ง๊ณ ์์ต๋๋ค.
์ ํฌ๋ ์ด ํฅ๋ฏธ๋กญ๊ณ ๋์ ์ ์ธ ์ฌ์ ์ ํจ๊ปํ ์๋ก์ด ๋ฉค๋ฒ๋ฅผ ์ฐพ๊ณ ์์ต๋๋ค. ๋ฉํฐ๋ชจ๋ฌ AI ๋ถ์ผ์์ ๊ธฐ์ ์ ์ ๋ํ๊ณ ์ ํ๋ ์ด์ ์ ๊ฐ์ง๊ณ , ์ฐ๊ตฌ์ ๊ทธ์น์ง ์๊ณ ์ค์ ์๋น์ค๊น์ง ์ฐ๊ฒฐ๋๋ End-to-End AI ๊ฒฝํ์ ๋ฐํ์ผ๋ก, ํ์ ์ ํตํด ๊ธฐ์ ์ ํ์ฅํ๊ณ ์ ํํ ๊ณผ์ ์์ ๋น ๋ฅด๊ฒ ์ฑ์ฅํ๊ธธ ์ํ๋ ๋ถ์ด๋ผ๋ฉด, ์ ์คํ ์ด์ง VLM ํ์ ๊ผญ ๋ง๋ ๋๋ฃ๊ฐ ๋ ๊ฒ์ ๋๋ค.
์ฃผ์ ์ ๋ฌด
๋ฐ์ดํฐ ์์ง ํ์ดํ๋ผ์ธ ์ค๊ณ ๋ฐ ๊ตฌ์ถ
๋ฉํฐ๋ชจ๋ฌ ๋ฐ์ดํฐ(๋ฌธ์ ์ด๋ฏธ์ง, ํ์ฅ ์ฌ์ง, ์ฐจํธ ๋ฑ)์ ์์ง ๋ฐ ํํฐ๋ง์ ํฌํจํ ๋ฐ์ดํฐ ์์ง ํ์ดํ๋ผ์ธ ์ค๊ณ ๋ฐ ๊ตฌ์ถ
๋ฐ์ดํฐ ํ์ง ํฅ์์ ์ํ ์ ์ฒ๋ฆฌ ๋ฐ ๊ฐ์ ๊ธฐ๋ฒ์ ์ฐ๊ตฌยท์ ์ฉ
๋ฐ์ดํฐํ๊ณผ์ ํ์ ์ ์ํ Human-in-the-loop ๊ธฐ๋ฐ ์ด๋ ธํ ์ด์ ์ํฌํ๋ก์ฐ ์ค๊ณ ๋ฐ ์ด์
๋ชจ๋ธ ํ์ต
๋๊ท๋ชจ Multi-modal representation learning ๋ฐ Cross-modal pretraining ๊ธฐ๋ฒ์ ์ฐ๊ตฌ ๋ฐ ์ ์ฉ
๋ค์ํ ์ง์์๋ต ํ์คํฌ์ ๋์ํ๊ธฐ ์ํ Instruction tuning ์ ๋ต ๊ฐ๋ฐ
ํ์ต๊ณผ ์ถ๋ก ํจ์จ์ ๊ณ ๋ คํ ๋ชจ๋ธ ๊ตฌ์กฐ ๊ฐ์ ๋ฐ ์ต์ ํ ๊ธฐ๋ฒ ์ฐ๊ตฌ
ํ๊ฐ
๋ฌธ์ ์ค์ฌ VLM ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํ๊ฐํ๊ธฐ ์ํ ๋ค์ํ ํ๊ฐ ๊ธฐ๋ฒ ์กฐ์ฌ ๋ฐ ์ ์ฉ
์ค์ ์ฌ์ฉ ํ๊ฒฝ์ ๋ถํฉํ๋ ์๋ก์ด ํ๊ฐ ๋ฐฉ๋ฒ์ ๊ฐ๋ฐ ๋ฐ ๋์
์ง์์ ์ธ ๊ฐ์ ๊ณผ ํ์ฅ์ด ๊ฐ๋ฅํ ๋ด๋ถ ๋ฒค์น๋งํฌ ๋๊ตฌ์ ์ค๊ณ ๋ฐ ๊ตฌํ
๊ทธ ์ธ
์ฐ๊ตฌ ๊ฒฐ๊ณผ๋ฅผ ํํฐ์ด ๊ตญ์ ํํ ๋ ผ๋ฌธ ๋๋ ์คํ์์ค ์ฝ๋ ํํ๋ก ๊ณต์
์ต์ ๋ ผ๋ฌธ ์ฌํ ๋ฐ ๊ธฐ๋ฒ ๋์ ์ ์ํ ์ ํ ์ฐ๊ตฌ ์ฃผ๋ ๋ฐ ํ ๋ด ๊ธฐ์ ๊ณต์
์ ํํ, MLOpsํ ๋ฑ๊ณผ์ ๊ธด๋ฐํ ํ์ ์ ํตํ ๋ชจ๋ธ์ ์ค์๋น์ค ์ ์ฉ ๋ฐ ์์คํ ํตํฉ
๊ทผ๋ฌด ํํ
์ ๊ท์ง (์ ๋ฌธ์ฐ๊ตฌ์์ ์ ๊ทํธ์ , ์ ์ง ๋์)
๊ทผ๋ฌด์ง
๊ด๊ต ์คํผ์ค (์ํ์ญ ๊ทผ์ฒ ๋๋ณด 10๋ถ)
๋ชจ์ง ์ ์ฐจ - ์ ์ฒด ์จ๋ผ์ธ์ผ๋ก ์งํ
์๋ฅ ์ ํ
์๊ณ ๋ฆฌ์ฆ ์ฝ๋ฉํ ์คํธ
๋ฅ๋ฌ๋ ์ฝ๋ฉํ ์คํธ
๊ธฐ์ ์ธํฐ๋ทฐ (1์ฐจ)
๊ธฐ์ ์ธํฐ๋ทฐ (2์ฐจ)
์ปฌ์ฒ ์ธํฐ๋ทฐ
์ต์ข ์ธํฐ๋ทฐ
์ต์ข ๊ฒฐ๊ณผ ๋ฐํ
*์ ์ฐจ๋ ์ํฉ์ ๋ฐ๋ผ ์กฐ์ ๋ ์ ์์ต๋๋ค.
*์ต์ข
์ธํฐ๋ทฐ ํ, ๋ ํผ๋ฐ์ค ์ฒดํฌ ์ ์ฐจ๊ฐ ์งํ๋ ์ ์์ต๋๋ค.
๊ทผ๋ฌดํ๊ฒฝ
๊ฐ๊ฐ์ธ์ ์ ๋ฌด ์์จ์ฑ์ ์ํ์ฌ ์ ์ฐ๊ทผ๋ฌด์ ๋๋ฅผ ์ด์ํ๊ณ ์์ต๋๋ค.
์ ๋ฌด ํจ์จ์ ๋์ผ ์ ์๋ ์พ์ ํ ๊ทผ๋ฌดํ๊ฒฝ์ ์ ๊ณตํฉ๋๋ค.(๊ฐ์ ์คํ ์ด์ , ์๋ง์์, ํ๋จผ๋ฐ๋ฌ ๋ฑ)
๊ทผ๋ฌด์ ํ์ํ ์ฅ๋น๋ฅผ 500๋ง์ ์์ฐ ๋ด์ ์์ ๋กญ๊ฒ ์ ํํ์ค ์ ์์ต๋๋ค.
์ ๋ฌด ๊ด๋ จ ์ํํธ์จ์ด, ๋์, ์๋ฃ, ๊ต์ก ๋ฐ ์ดํ ์๊ฐ๋น ๋ฑ ์ฑ์ฅ์ ํ์ํ ๋น์ฉ์ ์ง์ํด๋๋ฆฝ๋๋ค.
๊ฑด๊ฐ์ ์ํ ์ด๋๋น, ์ง์ฅ ๋จ์ฒด๋ณดํ ๋ฐ ์ข ํฉ๊ฑด๊ฐ๊ฒ์ง์ ์ง์ํด๋๋ฆฝ๋๋ค.
Requirements
ํ์ ์ฌํญ
๊ด๋ จ ๋ถ์ผ ์์ฌ ํน์ ๋ฐ์ฌ ํ์
AI ๋ฌธ์ ๋ฅผ ์ ์ํ๊ณ ํด๊ฒฐํ๋ ๋ฅ๋ ฅ
๊ธฐ์ด ๋จธ์ ๋ฌ๋ ์๊ณ ๋ฆฌ์ฆ์ ๋ํ ๊น์ ์ดํด
Python, C++ ๋ฑ์ ์ธ์ด๋ฅผ ํ์ฉํ ๊ฐ๋ ฅํ ํ๋ก๊ทธ๋๋ฐ ๋ฅ๋ ฅ ๋ฐ Linux/Shell ํ์ฉ ๋ฅ๋ ฅ
์ปดํจํฐ ๋น์ (CV), ์์ฐ์ด์ฒ๋ฆฌ(NLP), ๋ฉํฐ๋ชจ๋ฌ ํ์ต ์ต์ ์๊ณ ๋ฆฌ์ฆ ์ดํด
์ฃผ์ ๊ธฐ๊ณ ํ์ต ํ๋ ์์ํฌ์ ๋ํ ๊น์ ์ดํด(์: TensorFlow, PyTorch)
๋ค์ํ ํ์ ํ๊ฒฝ์์ ์ผํ ์ ์๋ ๋ฅ๋ ฅ
ํ๋ฅญํ ์์ฌ ์ํต ๋ฅ๋ ฅ
์ฐ๋ ์ฌํญ
๋๊ท๋ชจ ์์ฉ ML(CV, NLP ๋ฑ) ์ ํ ๊ฐ๋ฐ ๊ฒฝํ
VisionโLanguage Model ๊ด๋ จ ์ฐ๊ตฌ ๋ฐ ๋ ผ๋ฌธ(e.g. CVPR, ICCV, ACL, EMNLP) ๊ฒ์ฌ ๊ฒฝํ
์ต๊ณ ์ AI ์ปจํผ๋ฐ์ค(e.g. NeurIPS, ICML, ICLR, AAAI, CVPR, ICCV, ECCV, ACL, EMNLP, KDD ๋ฑ)์์ 1์ ์ ํน์ ๊ต์ ์ ์๋ก ์ถํ ๊ธฐ๋ก
๊ตญ์ ํน์ ๊ตญ๋ด AI ๋ํ(Kaggle ๋ฑ) ์์๊ถ ์ ์
๋๊ท๋ชจ ๋ฐ์ดํฐ๋ก๋ถํฐ AI ๋ชจ๋ธ ํ์ต ๋ฐ ์ถ๋ก ์ ์ํ data/model pipeline์ ๊ฐ๋ฐํ ๊ฒฝํ
AI ๊ด๋ จ ์ฐ๊ตฌ ๋๋ ํ๋ก๋ํธ ๊ฐ๋ฐ์ ๋ฆฌ๋ฉํ ๊ฒฝํ
์๋ก์ด ์ฐ๊ตฌ ํน์ ๊ฐ๋ฐ ๋ฐฉํฅ์ฑ์ ์ ์ํ ์ ์๋ ๋ฅ๋ ฅ
๋ฉํฐ๋ชจ๋ฌ VLM ์ต์ ํ ๋ฐ ๋๋ฉ์ธ ์ ์(fine-tuning) ๊ฒฝํ
*๊ด๋ จ ๋ฌธ์์ฌํญ์ joinstage@upstage.ai๋ก ๋ฌธ์ ๋ถํ๋๋ฆฝ๋๋ค.
*CV๋ฅผ ํฌํจํ ๋ชจ๋ ์ ์ถ ์๋ฃ๋ PDF ํ์์ผ๋ก ์
๋ก๋ ํด์ฃผ์๊ธฐ ๋ฐ๋๋๋ค.
*์ง์์์ ๋ฏผ๊ฐ ์ ๋ณด(์ฐ๋ด ์ ๋ณด, ์ฃผ๋ฏผ๋ฒํธ ๋ฑ) ๋ฐ ๊ณ ์ ์๋ณ๋ฒํธ๋ ์ด๋ ฅ์์ ๊ธฐ์ฌํ์ง ์๋๋ก ์ ์ํด์ฃผ์๊ธฐ๋ฅผ ๋ฐ๋๋๋ค.
or
All done!
Your application has been successfully submitted!