Skip to content

[WBL] AI Research Engineer - LLM Post-training

  • Remote
    • Yongin-si, ๊ฒฝ๊ธฐ๋„, ๋Œ€ํ•œ๋ฏผ๊ตญ
  • AI Research Engineering

Description

์—…์Šคํ…Œ์ด์ง€๋Š” AI ๊ธฐ์ˆ ์„ ํ™œ์šฉํ•˜์—ฌ ๋น„์ฆˆ๋‹ˆ์Šค ๋ฌธ์ œ ํ•ด๊ฒฐ์— ์ฃผ๋ ฅํ•˜๋Š” ๊ธฐ์—…์œผ๋กœ, โ€‹"Making AI Beneficial"โ€‹์ด๋ผ๋Š” ๋น„์ „๊ณผ โ€‹"Artificial General Intelligence (AGI) for Work"โ€‹๋ผ๋Š” ๋ฏธ์…˜์„ ๊ธฐ๋ฐ˜์œผ๋กœ ์šด์˜๋ฉ๋‹ˆ๋‹ค. ๋‹จ์ˆœํ•œ ์—…๋ฌด ์ž๋™ํ™”๋ฅผ ๋„˜์–ด, ๋ณต์žกํ•œ ์˜์‚ฌ๊ฒฐ์ • ์ง€์› ๋ฐ ๋น„์šฉ ์ ˆ๊ฐ์„ ํ†ตํ•ด ๊ธฐ์—…์˜ ์ƒ์‚ฐ์„ฑ์„ ํ˜์‹ ์ ์œผ๋กœ ํ–ฅ์ƒ์‹œํ‚ค๋Š” AI ์†”๋ฃจ์…˜ ๊ฐœ๋ฐœ์— ์ง‘์ค‘ํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

์ด๋Ÿฌํ•œ ๋น„์ „ ์‹คํ˜„์„ ์œ„ํ•ด ์—…์Šคํ…Œ์ด์ง€๋Š” AGI์˜ ํ•ต์‹ฌ ๊ธฐ๋ฐ˜ ๊ธฐ์ˆ ์ธ LLM(Large Language Model) ๋ชจ๋ธ์„ ์ง€์†์ ์œผ๋กœ ๋ฐœ์ „์‹œํ‚ค๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ๊ธฐ์ˆ  ๊ฒฝ์Ÿ๋ ฅ ๊ฐ•ํ™”๋ฅผ ์œ„ํ•ด โ€‹Global Frontierโ€‹์—์„œ ์ถ”์ ํ•˜๋Š” ๋ฒค์น˜๋งˆํฌ ์ง€ํ‘œ๋ฅผ ํ†ตํ•˜์—ฌ ๋ชจ๋ธ ์„ฑ๋Šฅ์„ ์ง„๋‹จ ๋ฐ ๊ฐœ์„ ํ•˜๋ฉฐ, ๋™์‹œ์— ๊ณ ๊ฐ์‚ฌ์˜ ์‹ค์ œ ๋‹ˆ์ฆˆ๋ฅผ ๋ฐ˜์˜ํ•œ โ€‹Workspace Benchmark Setโ€‹์„ ๊ตฌ์ถ•ํ•ด ๋ชจ๋ธ์˜ ์‹ค์šฉ์„ฑ๊ณผ ์„ฑ๋Šฅ์„ ๊ทน๋Œ€ํ™”์— ํ™œ์šฉํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ์—…์Šคํ…Œ์ด์ง€๋Š” ์‚ฐ์—… ํ˜„์žฅ์˜ ๋ณต์žกํ•œ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๋Š” ๋™์‹œ์— ๊ธ€๋กœ๋ฒŒ ์ˆ˜์ค€์˜ ๊ธฐ์ˆ  ํ‘œ์ค€์„ ์„ ๋„ํ•˜๊ธฐ ์œ„ํ•ด ๋…ธ๋ ฅํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

LLM Post-training ํŒ€์€ (1) ์ง€์‹/์ถ”๋ก  ๋Šฅ๋ ฅ ๊ฐ•ํ™”, (2) ์ธ๊ฐ„ ์„ ํ˜ธ๋„ ์ •๋ ฌ(human preference alignment), (3) ์—์ด์ „ํŠธํ˜• ๋„๊ตฌ ํ™œ์šฉ(agentic tool use) ์„ฑ๋Šฅ ํ–ฅ์ƒ์„ ํ•ต์‹ฌ ๋ชฉํ‘œ๋กœ ์‚ผ๊ณ , ํ™•์žฅ ๊ฐ€๋Šฅํ•œ ๋ฐ์ดํ„ฐ ๊ตฌ์ถ• ๋ฐฉ๋ฒ•๋ก , ์ดˆ๊ณ ํ’ˆ์งˆ ๋ฐ์ดํ„ฐ ํ•„ํ„ฐ๋ง ์‹œ์Šคํ…œ, DPOยทRLHFยทRLVR ๋“ฑ ์ตœ์‹  ํ•™์Šต ๊ธฐ๋ฒ•์„ ํ™œ์šฉํ•ด โ€‹์„ธ๊ณ„ ์ตœ๊ณ  ์ˆ˜์ค€์˜ ์‚ฌํ›„ ํ•™์Šต ๊ธฐ์ˆ  ๊ฐœ๋ฐœโ€‹์„ ์ฃผ๋„ํ•ฉ๋‹ˆ๋‹ค. ์ด ํŒ€์— ํ•ฉ๋ฅ˜ํ•œ๋‹ค๋ฉด, ์ง„ํ™”ํ•˜๋Š” LLM ๊ธฐ์ˆ ์„ ์„ ๋„ํ•˜๋ฉฐ ์‚ฐ์—… ํ˜„์žฅ์˜ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๋Š” โ€‹์ฐจ์„ธ๋Œ€ ๊ธฐ์ˆ  ํ˜์‹ โ€‹์„ ํ•จ๊ป˜ ์‹คํ˜„ํ•  ์ˆ˜ ์žˆ์„ ๊ฒƒ์ž…๋‹ˆ๋‹ค.

Representative projects

  • Reinforcement learning for LLM (math, code, general reasoning, tool use)

  • Efficient & effective reasoning

  • A scalable agentic tool use data synthesis pipeline 

  • Language-specific reward models

  • Precise instruction following

    ** ๊ธฐ์ˆ ์˜ ํ๋ฆ„๊ณผ ์ƒํ™ฉ์— ๋”ฐ๋ผ์„œ ๊ฐœ๋ฐœํ•˜๋Š” ํ”„๋กœ์ ํŠธ๋Š” ๋ณ€ํ™”ํ•˜๋ฉฐ, ํ”„๋กœ์ ํŠธ๋Š” ๊ฐ ์‹œ์ ์— LLM ๋ชจ๋ธ ๋ฐœ์ „์— ๊ฐ€์žฅ ์˜ํ–ฅ๋ ฅ์žˆ๋Š” ๊ธฐ์ˆ  ์š”์†Œ์— ์ง‘์ค‘ํ•ฉ๋‹ˆ๋‹ค.

๊ทผ๋ฌด ํ˜•ํƒœ

  • ์ •๊ทœ์ง/์ธํ„ด์‹ญ(์ฒดํ—˜ํ˜•, 3๊ฐœ์›”~6๊ฐœ์›”)

๋ชจ์ง‘ ์ ˆ์ฐจ - ์ „์ฒด ์˜จ๋ผ์ธ์œผ๋กœ ์ง„ํ–‰

  • ์„œ๋ฅ˜ ์ „ํ˜•

  • ์•Œ๊ณ ๋ฆฌ์ฆ˜ ์ฝ”๋”ฉ ํ…Œ์ŠคํŠธ 

  • ๋”ฅ๋Ÿฌ๋‹ ์ฝ”๋”ฉํ…Œ์ŠคํŠธ

  • ๊ธฐ์ˆ  ์ธํ„ฐ๋ทฐ (1์ฐจ)

  • ๊ธฐ์ˆ  ์ธํ„ฐ๋ทฐ (2์ฐจ)

  • ์ปฌ์ฒ˜ ์ธํ„ฐ๋ทฐ

  • ์ตœ์ข… ์ธํ„ฐ๋ทฐ 

  • ์ตœ์ข… ๊ฒฐ๊ณผ ๋ฐœํ‘œ

*์ ˆ์ฐจ๋Š” ์ƒํ™ฉ์— ๋”ฐ๋ผ ์กฐ์ •๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
*์ตœ์ข… ์ธํ„ฐ๋ทฐ ํ›„, ๋ ˆํผ๋Ÿฐ์Šค ์ฒดํฌ ์ ˆ์ฐจ๊ฐ€ ์ง„ํ–‰๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๊ทผ๋ฌดํ™˜๊ฒฝ

  • Anywhere On Earth But Together! โ€˜์–ด๋””์„œ๋“ โ€™ ํ•จ๊ป˜ ์ผํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

  • ์›๊ฒฉ ๊ทผ๋ฌด์— ํ•„์š”ํ•œ ์žฅ๋น„๋ฅผ 500๋งŒ์› ์˜ˆ์‚ฐ ๋‚ด์— ์ž์œ ๋กญ๊ฒŒ ์„ ํƒํ•˜์‹ค ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

  • ๊ทผ๋ฌด๋ฅผ ์œ„ํ•œ ์นดํŽ˜ ์ด์šฉ ์‹œ ์Œ๋ฃŒ ๋น„์šฉ, ์Šคํ„ฐ๋””๋ฃธ ํ˜น์€ ๊ณต์œ ์˜คํ”ผ์Šค ์ด์šฉ ๋น„์šฉ ๋“ฑ์„ ์ง€์›ํ•ด๋“œ๋ฆฝ๋‹ˆ๋‹ค.

  • ์—…๋ฌด ๊ด€๋ จ ์†Œํ”„ํŠธ์›จ์–ด, ๋„์„œ, ์ž๋ฃŒ, ๊ต์œก ๋ฐ ์–ดํ•™ ์ˆ˜๊ฐ•๋น„ ๋“ฑ ์„ฑ์žฅ์— ํ•„์š”ํ•œ ๋น„์šฉ์„ ์ง€์›ํ•ด๋“œ๋ฆฝ๋‹ˆ๋‹ค.

  • ๊ฑด๊ฐ•์„ ์œ„ํ•œ ์šด๋™๋น„, ์ง์žฅ ๋‹จ์ฒด๋ณดํ—˜ ๋ฐ ์ข…ํ•ฉ๊ฑด๊ฐ•๊ฒ€์ง„์„ ์ง€์›ํ•ด๋“œ๋ฆฝ๋‹ˆ๋‹ค.

Requirements

  • Strongly wanted

    • LLM post-training/fine-tuning์„ ์ˆ˜ํ–‰ํ•˜์—ฌ ํŠน์ • ๋ฌธ์ œ์—์„œ ์ตœ๊ณ  ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ•ด๋ณธ ๊ฒฝํ—˜

    • ML๊ณผ NLP ํ† ํ”ฝ์œผ๋กœ ๊ตญ์ œ ํ•™ํšŒ์—์„œ ์ถœํŒ ๊ธฐ๋ก (1์ €์ž ํ˜น์€ ๊ต์‹ ์ €์ž)

  • May helpful

    • AI ๊ด€๋ จ ์—ฐ๊ตฌ ๋˜๋Š” ํ”„๋กœ๋•ํŠธ ๊ฐœ๋ฐœ์„ ๋ฆฌ๋”ฉํ•œ ๊ฒฝํ—˜

    • LLM Post-training์„ ์œ„ํ•œ ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘, ์ƒ์„ฑ, ์ •์ œ๋“ฑ์„ ์ˆ˜ํ–‰ํ•ด ๋ณธ ๊ฒฝํ—˜

    • ๊ตญ์ œ ํ˜น์€ ๊ตญ๋‚ด AI ๋Œ€ํšŒ (Kaggle ๋“ฑ) ์ƒ์œ„๊ถŒ ์ž…์ƒ

    • 0.1%์˜ ์„ฑ๋Šฅ์— ๋ฏผ๊ฐํ•˜์—ฌ ์ œํ•œ๋œ ์ž์›๊ณผ ์‹œ๊ฐ„์— ์ตœ์ ํ™”๋ฅผ ์ˆ˜ํ–‰ํ•  ์ˆ˜ ์žˆ๋Š” ์ง‘์ค‘๋ ฅ

    • ๋…ผ๋ฆฌ์ ์ธ ์‚ฌ๊ณ ์‹คํ—˜์„ ์ˆ˜ํ–‰ํ•˜๊ณ  ๊ฐ€์„ค/๊ฒ€์ฆ์˜ ๋ฐฉ์‹์œผ๋กœ ์‹คํ—˜ ์„ค๊ณ„ ๋ฐ ๊ฒฐ๊ณผ๋ฅผ ๋„์ถœํ•  ์ˆ˜ ์žˆ๋Š” ์‚ฌ๊ณ ๋ ฅ

    • ๋ ˆ์Šจ๋Ÿฐ์„ ํšจ๊ณผ์ ์ด๊ณ  ํšจ์œจ์ ์œผ๋กœ ์ „ํŒŒํ•˜๊ณ  ๋…ผ์˜ํ•  ์ˆ˜ ์žˆ๋Š” ์˜์‚ฌ์†Œํ†ต ๋Šฅ๋ ฅ

*๊ด€๋ จ ๋ฌธ์˜์‚ฌํ•ญ์€ joinstage@upstage.ai๋กœ ๋ฌธ์˜ ๋ถ€ํƒ๋“œ๋ฆฝ๋‹ˆ๋‹ค.

*CV๋ฅผ ํฌํ•จํ•œ ๋ชจ๋“  ์ œ์ถœ ์ž๋ฃŒ๋Š” PDF ํ˜•์‹์œผ๋กœ ์—…๋กœ๋“œ ํ•ด์ฃผ์‹œ๊ธฐ ๋ฐ”๋ž๋‹ˆ๋‹ค.
*์ง€์›์ž์˜ ๋ฏผ๊ฐ ์ •๋ณด(์—ฐ๋ด‰ ์ •๋ณด, ์ฃผ๋ฏผ๋ฒˆํ˜ธ ๋“ฑ) ๋ฐ ๊ณ ์œ ์‹๋ณ„๋ฒˆํ˜ธ๋Š” ์ด๋ ฅ์„œ์— ๊ธฐ์žฌํ•˜์ง€ ์•Š๋„๋ก ์œ ์˜ํ•ด์ฃผ์‹œ๊ธฐ๋ฅผ ๋ฐ”๋ž๋‹ˆ๋‹ค.

or