Skip to content

AI Research Engineer - LLM Eval

  • Remote
    • Yongin-si, ๊ฒฝ๊ธฐ๋„, ๋Œ€ํ•œ๋ฏผ๊ตญ
  • Data

Description

์—…์Šคํ…Œ์ด์ง€๋Š” AI ๊ธฐ์ˆ ์„ ํ™œ์šฉํ•˜์—ฌ ๋น„์ฆˆ๋‹ˆ์Šค ๋ฌธ์ œ ํ•ด๊ฒฐ์— ์ฃผ๋ ฅํ•˜๋Š” ๊ธฐ์—…์œผ๋กœ, โ€‹"Making AI Beneficial"โ€‹์ด๋ผ๋Š” ๋น„์ „๊ณผ โ€‹"Artificial General Intelligence (AGI) for Work"โ€‹๋ผ๋Š” ๋ฏธ์…˜์„ ๊ธฐ๋ฐ˜์œผ๋กœ ์šด์˜๋ฉ๋‹ˆ๋‹ค. ๋‹จ์ˆœํ•œ ์—…๋ฌด ์ž๋™ํ™”๋ฅผ ๋„˜์–ด, ๋ณต์žกํ•œ ์˜์‚ฌ๊ฒฐ์ • ์ง€์› ๋ฐ ๋น„์šฉ ์ ˆ๊ฐ์„ ํ†ตํ•ด ๊ธฐ์—…์˜ ์ƒ์‚ฐ์„ฑ์„ ํ˜์‹ ์ ์œผ๋กœ ํ–ฅ์ƒ์‹œํ‚ค๋Š” AI ์†”๋ฃจ์…˜ ๊ฐœ๋ฐœ์— ์ง‘์ค‘ํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

์ด๋Ÿฌํ•œ ๋น„์ „ ์‹คํ˜„์„ ์œ„ํ•ด ์—…์Šคํ…Œ์ด์ง€๋Š” AGI์˜ ํ•ต์‹ฌ ๊ธฐ๋ฐ˜ ๊ธฐ์ˆ ์ธ LLM(Large Language Model) ๋ชจ๋ธ์„ ์ง€์†์ ์œผ๋กœ ๋ฐœ์ „์‹œํ‚ค๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ๊ธฐ์ˆ  ๊ฒฝ์Ÿ๋ ฅ ๊ฐ•ํ™”๋ฅผ ์œ„ํ•ด โ€‹Global Frontierโ€‹์—์„œ ์ถ”์ ํ•˜๋Š” ๋ฒค์น˜๋งˆํฌ ์ง€ํ‘œ๋ฅผ ํ†ตํ•˜์—ฌ ๋ชจ๋ธ ์„ฑ๋Šฅ์„ ์ง„๋‹จ ๋ฐ ๊ฐœ์„ ํ•˜๋ฉฐ, ๋™์‹œ์— ๊ณ ๊ฐ์‚ฌ์˜ ์‹ค์ œ ๋‹ˆ์ฆˆ๋ฅผ ๋ฐ˜์˜ํ•œ โ€‹Workspace Benchmark Setโ€‹์„ ๊ตฌ์ถ•ํ•ด ๋ชจ๋ธ์˜ ์‹ค์šฉ์„ฑ๊ณผ ์„ฑ๋Šฅ์„ ๊ทน๋Œ€ํ™”์— ํ™œ์šฉํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ์—…์Šคํ…Œ์ด์ง€๋Š” ์‚ฐ์—… ํ˜„์žฅ์˜ ๋ณต์žกํ•œ ๋ฌธ์ œ๋ฅผ ํ•ด๊ฒฐํ•˜๋Š” ๋™์‹œ์— ๊ธ€๋กœ๋ฒŒ ์ˆ˜์ค€์˜ ๊ธฐ์ˆ  ํ‘œ์ค€์„ ์„ ๋„ํ•˜๊ธฐ ์œ„ํ•ด ๋…ธ๋ ฅํ•˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

LLM Eval ํŒ€์€ (1) ์ง€์‹/์ถ”๋ก  ๋Šฅ๋ ฅ, (2) ์ธ๊ฐ„ ์„ ํ˜ธ๋„ ์ •๋ ฌ(human preference alignment), (3) ์—์ด์ „ํŠธํ˜• ๋„๊ตฌ ํ™œ์šฉ(agentic tool use) ๋ถ„์•ผ์˜ ์„ฑ๋Šฅ ํ‰๊ฐ€ โ€‹๋ฒค์น˜๋งˆํฌ ๋ฐ ํˆดํ‚ทโ€‹์„ ์—ฐ๊ตฌยท๊ฐœ๋ฐœํ•˜๋ฉฐ, ๊ธ€๋กœ๋ฒŒ ํ”„๋ก ํ‹ฐ์–ด LLM๋“ค์ด ์ฃผ๋ชฉํ•˜๋Š” ๋ฒค์น˜๋งˆํฌ ๋™ํ–ฅ์„ ์‹ค์‹œ๊ฐ„ ๋ชจ๋‹ˆํ„ฐ๋งํ•ด Solar์˜ ๊ธฐ์ˆ  ์ „๋žต์— ๋ถ€ํ•ฉํ•˜๋Š” ํ‰๊ฐ€ ์ฒด๊ณ„๋ฅผ ๊ตฌ์ถ•ํ•ฉ๋‹ˆ๋‹ค. ๋ฒค์น˜๋งˆํฌ ๊ฐœ๋ฐœ์€ โ‘  ๋‹ค๊ตญ์–ด(ํ•œ๊ตญ์–ด ํฌํ•จ) ํ‰๊ฐ€ ๋ฐ์ดํ„ฐ์˜ ์–ธ์–ด ํŽธํ–ฅ์„ฑ ํ•ด์†Œ, โ‘ก ๋ฌธํ™”ยท์–ธ์–ด ์ดํ•ด๋„ ๋ฐ ์„ ํ˜ธ๋„ ์ธก์ •์„ ์œ„ํ•œ ๋ฐ์ดํ„ฐ ์„ค๊ณ„, โ‘ข ๊ธฐ์กด ํ‰๊ฐ€ ๋ฐ์ดํ„ฐ์˜ ํ•œ๊ณ„ ๊ทน๋ณต์„ ์œ„ํ•œ ํ™•์žฅ/์‹ ๊ทœ ๊ตฌ์ถ•์„ ํ•ต์‹ฌ ๋ชฉํ‘œ๋กœ ํ•ฉ๋‹ˆ๋‹ค. ์ด ํŒ€์— ํ•ฉ๋ฅ˜ํ•œ๋‹ค๋ฉด, ํ”„๋ก ํ‹ฐ์–ด ๋ชจ๋ธ๊ณผ Solar์„ ๋‹ค๊ฐ์ ์œผ๋กœ ํ‰๊ฐ€ยท์ง„๋‹จํ•˜๋ฉฐ ๋ฐ์ดํ„ฐ ๊ธฐ๋ฐ˜์˜ ๊ธฐ์ˆ  ๋กœ๋“œ๋งต์„ ๊ณต๋™์œผ๋กœ ์„ค๊ณ„ํ•ด ๋‚˜๊ฐˆ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

Representative projects

  • Automatic quality assessment system development

  • Solar safety benchmark development

  • Solar edge-case (failure or error) benchmark development

  • Complex structured text generation benchmark development

** ๊ธฐ์ˆ ์˜ ํ๋ฆ„๊ณผ ์ƒํ™ฉ์— ๋”ฐ๋ผ์„œ ๊ฐœ๋ฐœํ•˜๋Š” ํ”„๋กœ์ ํŠธ๋Š” ๋ณ€ํ™”ํ•˜๋ฉฐ, ํ”„๋กœ์ ํŠธ๋Š” ๊ฐ ์‹œ์ ์— LLM ๋ชจ๋ธ ๋ฐœ์ „์— ๊ฐ€์žฅ ์˜ํ–ฅ๋ ฅ์žˆ๋Š” ๊ธฐ์ˆ  ์š”์†Œ์— ์ง‘์ค‘ํ•ฉ๋‹ˆ๋‹ค.

๊ทผ๋ฌด ํ˜•ํƒœ

  • ์ •๊ทœ์ง

  • ์ธํ„ด์‹ญ(์ •๊ทœ์ง ์ „ํ™˜ํ˜•, ์ฒดํ—˜ํ˜•)

๋ชจ์ง‘ ์ ˆ์ฐจ - ์ „์ฒด ์˜จ๋ผ์ธ์œผ๋กœ ์ง„ํ–‰

  • ์„œ๋ฅ˜ ์ „ํ˜• 

  • ์•Œ๊ณ ๋ฆฌ์ฆ˜ ์ฝ”๋”ฉํ…Œ์ŠคํŠธ

  • ๊ธฐ์ˆ  ์ธํ„ฐ๋ทฐ (1์ฐจ/2์ฐจ)

  • ์ปฌ์ฒ˜ ์ธํ„ฐ๋ทฐ

  • ์ตœ์ข… ์ธํ„ฐ๋ทฐ (์ •๊ทœ์ง)

  • ์ตœ์ข… ๊ฒฐ๊ณผ ๋ฐœํ‘œ 

*์ ˆ์ฐจ๋Š” ์ƒํ™ฉ์— ๋”ฐ๋ผ ์กฐ์ •๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.
*ํ•„์š”์‹œ ๋ ˆํผ๋Ÿฐ์Šค ์ฒดํฌ ์ ˆ์ฐจ๊ฐ€ ์ง„ํ–‰๋  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

๊ทผ๋ฌดํ™˜๊ฒฝ

  • Anywhere On Earth But Together! โ€˜์–ด๋””์„œ๋“ โ€™ ํ•จ๊ป˜ ์ผํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

  • ๊ทผ๋ฌด๋ฅผ ์œ„ํ•œ ์นดํŽ˜ ์ด์šฉ ์‹œ ์Œ๋ฃŒ ๋น„์šฉ, ์Šคํ„ฐ๋””๋ฃธ ํ˜น์€ ๊ณต์œ ์˜คํ”ผ์Šค ์ด์šฉ ๋น„์šฉ ๋“ฑ์„ ์ง€์›ํ•ด๋“œ๋ฆฝ๋‹ˆ๋‹ค.

  • ์—…๋ฌด ๊ด€๋ จ ์†Œํ”„ํŠธ์›จ์–ด, ๋„์„œ, ๊ต์œก ์ž๋ฃŒ ๋“ฑ ์„ฑ์žฅ์— ํ•„์š”ํ•œ ๋น„์šฉ์„ ์ง€์›ํ•ด๋“œ๋ฆฝ๋‹ˆ๋‹ค.

Requirements

ํ•„์ˆ˜ ์‚ฌํ•ญ

  • Strongly wanted

    • AI ๋ชจ๋ธ ํ‰๊ฐ€ ๋ฐ ๋ถ„์„ ๊ด€๋ จ ํ† ํ”ฝ์œผ๋กœ ๊ตญ์ œ ํ•™ํšŒ์—์„œ ์ถœํŒ ๊ธฐ๋ก (๊ณต์ €์ž ํฌํ•จ)

    • ๋˜๋Š” ML๊ณผ NLP ํ† ํ”ฝ์œผ๋กœ ๊ตญ์ œ ํ•™ํšŒ์—์„œ ์ถœํŒ ๊ธฐ๋ก (1์ €์ž ํ˜น์€ ๊ต์‹ ์ €์ž)

  • May helpful

    • AI ๋ชจ๋ธ ํ‰๊ฐ€๋ฅผ ์œ„ํ•œ ๋ฐ์ดํ„ฐ ์ˆ˜์ง‘, ์ƒ์„ฑ, ์ •์ œ๋“ฑ์„ ์ˆ˜ํ–‰ํ•ด ๋ณธ ๊ฒฝํ—˜

    • Agentic flow (w/ tool use)๋ฅผ ์„ค๊ณ„ ๋ฐ ๊ฐœ๋ฐœํ•ด๋ณธ ๊ฒฝํ—˜

    • Failure analysis๋ฅผ ๊ธฐ๋ฐ˜์œผ๋กœ ๋ฐ์ดํ„ฐ๋ฅผ ํ•˜๋‚˜ํ•˜๋‚˜ ๋“ค์—ฌ๋‹ค ๋ณด๊ณ  ์ธ์‚ฌ์ดํŠธ๋ฅผ ์–ป์„ ์ˆ˜ ์žˆ๋Š” ์ง‘์ค‘๋ ฅ

    • ๋…ผ๋ฆฌ์ ์ธ ์‚ฌ๊ณ ์‹คํ—˜์„ ์ˆ˜ํ–‰ํ•˜๊ณ  ๊ฐ€์„ค/๊ฒ€์ฆ์˜ ๋ฐฉ์‹์œผ๋กœ ์‹คํ—˜ ์„ค๊ณ„ ๋ฐ ๊ฒฐ๊ณผ๋ฅผ ๋„์ถœํ•  ์ˆ˜ ์žˆ๋Š” ์‚ฌ๊ณ ๋ ฅ

    • ๋ณต์žกํ•œ ๋ฐ์ดํ„ฐ ํ˜‘์—… ํ”„๋กœํ† ์ฝœ (๊ทœ์น™) ์„ ์ •๋ˆํ•  ์ˆ˜ ์žˆ๋Š” ์‹œ์Šคํ…œ์  ์‚ฌ๊ณ  ๋Šฅ๋ ฅ 

    • ๋ ˆ์Šจ๋Ÿฐ์„ ํšจ๊ณผ์ ์ด๊ณ  ํšจ์œจ์ ์œผ๋กœ ์ „ํŒŒํ•˜๊ณ  ๋…ผ์˜ํ•  ์ˆ˜ ์žˆ๋Š” ์˜์‚ฌ์†Œํ†ต ๋Šฅ๋ ฅ

์šฐ๋Œ€ ์‚ฌํ•ญ

  • LLM์„ ํ™œ์šฉํ•œ ์ œํ’ˆ ๊ฐœ๋ฐœ ๋˜๋Š” ์šด์˜ ๊ฒฝํ—˜์ด ์žˆ์œผ์‹  ๋ถ„

  • AI ๋ชจ๋ธ๋ง ๊ฒฝํ—˜์ด ์žˆ์œผ์‹  ๋ถ„

  • ์ปดํ“จํ„ฐ๊ณตํ•™ ์ง€์‹ (Data Structure & Algorithm, Computer Network, Database, OS ๋“ฑ)์„ ๋ณด์œ ํ•˜์‹  ๋ถ„

*๊ด€๋ จ ๋ฌธ์˜์‚ฌํ•ญ์€ joinstage@upstage.ai๋กœ ๋ฌธ์˜ ๋ถ€ํƒ๋“œ๋ฆฝ๋‹ˆ๋‹ค.

*CV๋ฅผ ํฌํ•จํ•œ ๋ชจ๋“  ์ œ์ถœ ์ž๋ฃŒ๋Š” ๋ฐ˜๋“œ์‹œ PDF ํ˜•์‹์œผ๋กœ ์—…๋กœ๋“œ ํ•ด์ฃผ์‹œ๊ธฐ ๋ฐ”๋ž๋‹ˆ๋‹ค.
*์ง€์›์ž์˜ ๋ฏผ๊ฐ ์ •๋ณด(์—ฐ๋ด‰ ์ •๋ณด, ์ฃผ๋ฏผ๋ฒˆํ˜ธ ๋“ฑ) ๋ฐ ๊ณ ์œ ์‹๋ณ„๋ฒˆํ˜ธ๋Š” ์ด๋ ฅ์„œ์— ๊ธฐ์žฌํ•˜์ง€ ์•Š๋„๋ก ์œ ์˜ํ•ด์ฃผ์‹œ๊ธฐ๋ฅผ ๋ฐ”๋ž๋‹ˆ๋‹ค.

or