โ† ๐Ÿ“š ์ด๋ฒˆ ์ฃผ Weekly Digest๋กœ ๋Œ์•„๊ฐ€๊ธฐ

DD-042 Penguin-VL: Exploring the Efficiency Limits of VLM with LLM-based Vision Encoders

arXiv: 2603.06569 ๊ธฐ๊ด€: Tencent Upvotes: 104 | Comments: 4 ์ˆœ์œ„: ์ด๋ฒˆ ์ฃผ Top 2


์•ˆ๋…•ํ•˜์„ธ์š”, AI/ML ์ „๋ฌธ๊ฐ€๋กœ์„œ ์ด ํฅ๋ฏธ๋กœ์šด ๋…ผ๋ฌธ์„ ์‹ฌ๋„ ์žˆ๊ฒŒ ๋ถ„์„ํ•ด ๋“œ๋ฆฌ๊ฒ ์Šต๋‹ˆ๋‹ค. ์ฃผ๋‹ˆ์–ด ๊ฐœ๋ฐœ์ž๋ถ„๋“ค๋„ ์ง๊ด€์ ์œผ๋กœ ์ดํ•ดํ•˜์‹ค ์ˆ˜ ์žˆ๋„๋ก ์–ด๋ ค์šด ๊ฐœ๋…์„ ์ผ์ƒ์ ์ธ ๋น„์œ ๋กœ ํ’€์–ด์„œ ์„ค๋ช…ํ•˜๊ฒ ์Šต๋‹ˆ๋‹ค.


1. ์™œ ์ด ๋…ผ๋ฌธ์ด ์ค‘์š”ํ•œ๊ฐ€?

๊ธฐ์กด์˜ ์‹œ๊ฐ ์–ธ์–ด ๋ชจ๋ธ(VLM)๋“ค์€ ๋ชจ๋ธ์˜ ํฌ๊ธฐ๋ฅผ ๋ฌด์ž‘์ • ํ‚ค์šฐ๋Š” ๋ฐฉ์‹์œผ๋กœ ์„ฑ๋Šฅ์„ ๋†’์—ฌ์™”๊ธฐ ๋•Œ๋ฌธ์—, ์Šค๋งˆํŠธํฐ์ด๋‚˜ ๋กœ๋ด‡ ๊ฐ™์€ ์ €์ „๋ ฅ ๊ธฐ๊ธฐ์— ํƒ‘์žฌํ•˜๊ธฐ์—๋Š” ๋„ˆ๋ฌด ๋ฌด๊ฒ๊ณ  ๋А๋ ธ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ, ์ด๋ฏธ์ง€๋ฅผ ์ดํ•ดํ•˜๊ธฐ ์œ„ํ•ด ๋ฐ˜๋“œ์‹œ CLIP์ด๋‚˜ SigLIP์ฒ˜๋Ÿผ ๋ณ„๋„๋กœ ๊ฑฐ๋Œ€ํ•œ ๋ฐ์ดํ„ฐ์…‹์œผ๋กœ ์‚ฌ์ „ ํ•™์Šต๋œ ์ธ์ฝ”๋”๋ฅผ ์‚ฌ์šฉํ•ด์•ผ ํ•œ๋‹ค๋Š” ๊ณ ์ •๊ด€๋…์ด ์žˆ์—ˆ์Šต๋‹ˆ๋‹ค. ์ด ๋…ผ๋ฌธ์€ ๊ฑฐ๋Œ€ํ•œ ์‹œ๊ฐ ์ธ์ฝ”๋” ์—†์ด๋„ ์–ธ์–ด ๋ชจ๋ธ(LLM) ๊ตฌ์กฐ ์ž์ฒด๋ฅผ ํ™œ์šฉํ•˜์—ฌ ํ›จ์”ฌ ๊ฐ€๋ณ๊ณ  ํšจ์œจ์ ์ธ ๋ชจ๋ธ(Penguin-VL)์„ ๋งŒ๋“ค ์ˆ˜ ์žˆ์Œ์„ ์ฆ๋ช…ํ–ˆ์œผ๋ฉฐ, ์ด๋กœ์จ ๋ชจ๋ฐ”์ผ ๊ธฐ๊ธฐ์—์„œ๋„ ๊ฐ•๋ ฅํ•œ ๋ฉ€ํ‹ฐ๋ชจ๋‹ฌ AI๋ฅผ ๋Œ๋ฆด ์ˆ˜ ์žˆ๋Š” ๊ธธ์„ ์—ด์—ˆ์Šต๋‹ˆ๋‹ค.

2. ํ•ต์‹ฌ ์•„์ด๋””์–ด ์‰ฝ๊ฒŒ ์ดํ•ดํ•˜๊ธฐ

์ผ์ƒ์ƒํ™œ ๋น„์œ ๋กœ ์„ค๋ช…

๊ธฐ์กด VLM์„ โ€˜๋ฒˆ์—ญ๊ฐ€โ€™๋ฅผ ๊ณ ์šฉํ•œ โ€˜์†Œ์„ค๊ฐ€โ€™๋ผ๊ณ  ์ƒ๊ฐํ•ด ๋ณด์„ธ์š”. ์†Œ์„ค๊ฐ€(LLM)๋Š” ๊ธ€์„ ์ž˜ ์“ฐ์ง€๋งŒ, ๊ทธ๋ฆผ์„ ๋ณผ ์ค„ ๋ชจ๋ฆ…๋‹ˆ๋‹ค. ๊ทธ๋ž˜์„œ ๊ทธ๋ฆผ์„ ํ•ด์„ํ•ด ์ฃผ๋Š” ์ „๋ฌธ ๋ฒˆ์—ญ๊ฐ€(Vision Encoder, ์˜ˆ: CLIP)๋ฅผ ๋ณ„๋„๋กœ ๊ณ ์šฉํ•ฉ๋‹ˆ๋‹ค. ์ด ๋ฒˆ์—ญ๊ฐ€๋Š” ๊ณ ์šฉ ๋น„์šฉ์ด ๋น„์‹ธ๊ณ (ํฐ ํŒŒ๋ผ๋ฏธํ„ฐ), ๊ทธ๋ฆผ๋งŒ ๋ด…์„œ๋Š” ํ…์ŠคํŠธ๋ฅผ ๋ฒˆ์—ญํ•ด ์ค๋‹ˆ๋‹ค.

๋ฐ˜๋ฉด, ์ด ๋…ผ๋ฌธ์—์„œ ์ œ์•ˆํ•˜๋Š” Penguin-VL์€ โ€˜์™ธ๊ตญ์–ด๋ฅผ ๊ณต๋ถ€ํ•œ ์ฒœ์žฌ ์†Œ์„ค๊ฐ€โ€™์™€ ๊ฐ™์Šต๋‹ˆ๋‹ค. ์ด ์†Œ์„ค๊ฐ€๋Š” ๋ณ„๋„์˜ ๋ฒˆ์—ญ๊ฐ€ ์—†์ด, ์ž์‹ ์ด ๊ฐ€์ง„ ์–ธ์–ด์  ์ง€๋Šฅ(LLM ๊ตฌ์กฐ)์„ ํ™œ์šฉํ•ด ๊ทธ๋ฆผ์„ ์ง์ ‘ ์ดํ•ดํ•ฉ๋‹ˆ๋‹ค. ๋งˆ์น˜ ์–ธ์–ด์˜ ๊ตฌ์กฐ๋ฅผ ์ดํ•ดํ•˜๋“ฏ ์ด๋ฏธ์ง€์˜ ํŒจํ„ด์„ ๋ถ„์„ํ•˜๊ธฐ ๋•Œ๋ฌธ์—, ์ค‘๊ฐ„์— ๋ฒˆ์—ญ ๊ณผ์ •์ด ์—†์–ด ํ›จ์”ฌ ํšจ์œจ์ ์ด๊ณ  ๋น ๋ฆ…๋‹ˆ๋‹ค. ์ฆ‰, โ€œ๋ˆˆ๋„ ์–ธ์–ด์ฒ˜๋Ÿผ ์ดํ•ดํ•˜์žโ€๋Š” ์ ‘๊ทผ ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค.

๋‹จ๊ณ„๋ณ„ ๋™์ž‘ ์›๋ฆฌ

  1. ์ด๋ฏธ์ง€ ํŒจ์น˜ํ™”: ์ด๋ฏธ์ง€๋ฅผ ์ž‘์€ ์กฐ๊ฐ์œผ๋กœ ๋‚˜๋ˆ•๋‹ˆ๋‹ค. ์ด๊ฒƒ์„ ๋‹จ์–ด(Token) ์ชผ๊ฐœ๋Š” ๊ฒƒ๊ณผ ๋˜‘๊ฐ™์ด ์ทจ๊ธ‰ํ•ฉ๋‹ˆ๋‹ค.
  2. LLM ๊ธฐ๋ฐ˜ ๋น„์ „ ์ธ์ฝ”๋”ฉ: ์—ฌ๊ธฐ์„œ ํ•ต์‹ฌ์ด ๋‚˜์˜ต๋‹ˆ๋‹ค. ๊ธฐ์กด์˜ ๋ณ„๋„ ์ธ์ฝ”๋” ๋Œ€์‹ , ์–ธ์–ด ๋ชจ๋ธ๊ณผ ์œ ์‚ฌํ•œ ๊ตฌ์กฐ๋ฅผ ๊ฐ€์ง„ ๋„คํŠธ์›Œํฌ๊ฐ€ ์ด ์ด๋ฏธ์ง€ ์กฐ๊ฐ๋“ค์„ ์ฝ์–ด๋“ค์ž…๋‹ˆ๋‹ค. ์–ธ์–ด ๋ชจ๋ธ์ด ๋ฌธ๋งฅ์„ ํŒŒ์•…ํ•˜๋“ฏ, ์ด ๋„คํŠธ์›Œํฌ๋Š” ์ด๋ฏธ์ง€์˜ ๊ณต๊ฐ„์ , ์‹œ๊ฐ„์  ๋ฌธ๋งฅ์„ ํŒŒ์•…ํ•ฉ๋‹ˆ๋‹ค.
  3. ํ† ํฐ ํ†ตํ•ฉ: ์ฒ˜๋ฆฌ๋œ ์ด๋ฏธ์ง€ ์ •๋ณด๋Š” ํ…์ŠคํŠธ ํ† ํฐ๊ณผ ๋™์ผํ•œ ํ˜•์‹์œผ๋กœ ๋ณ€ํ™˜๋ฉ๋‹ˆ๋‹ค.
  4. ์ถ”๋ก : ๋ฉ”์ธ ์–ธ์–ด ๋ชจ๋ธ์ด ํ…์ŠคํŠธ์™€ ์ด๋ฏธ์ง€ ์ •๋ณด๋ฅผ ํ•ฉ์ณ์„œ ์งˆ๋ฌธ์— ๋‹ตํ•˜๊ฑฐ๋‚˜ ์ง€์‹œ๋ฅผ ์ˆ˜ํ–‰ํ•ฉ๋‹ˆ๋‹ค.

ํ•ต์‹ฌ ์•Œ๊ณ ๋ฆฌ์ฆ˜

์ด ๋…ผ๋ฌธ์˜ ํ•ต์‹ฌ์€ ์‚ฌ์ „ ํ•™์Šต๋œ ๋Œ€๊ทœ๋ชจ ๋Œ€์กฐ ํ•™์Šต(Contrastive Learning) ๋ชจ๋ธ์— ์˜์กดํ•˜์ง€ ์•Š๊ณ , LLM์˜ ๊ฐ€์ค‘์น˜๋ฅผ ์ดˆ๊ธฐํ™”๋‚˜ ์•„ํ‚คํ…์ฒ˜ ์„ค๊ณ„์— ํ™œ์šฉํ•˜์—ฌ ๋น„์ „ ์ธ์ฝ”๋”๋ฅผ ๊ตฌ์ถ•ํ•œ๋‹ค๋Š” ์ ์ž…๋‹ˆ๋‹ค. ์ด๋ฅผ ํ†ตํ•ด ๋ชจ๋ธ์€ ํ…์ŠคํŠธ์™€ ์‹œ๊ฐ ์ •๋ณด๋ฅผ ๋” ๋ฐ€์ ‘ํ•˜๊ฒŒ ํ†ตํ•ฉํ•  ์ˆ˜ ์žˆ์œผ๋ฉฐ, ํŒŒ๋ผ๋ฏธํ„ฐ ์ˆ˜๋ฅผ ํš๊ธฐ์ ์œผ๋กœ ์ค„์ด๋ฉด์„œ๋„ ์„ฑ๋Šฅ์„ ์œ ์ง€ํ•ฉ๋‹ˆ๋‹ค.

3. ์‹คํ—˜ ๊ฒฐ๊ณผ ๋ถ„์„

์–ด๋–ค ๋ฒค์น˜๋งˆํฌ์—์„œ ํ…Œ์ŠคํŠธํ–ˆ๋Š”๊ฐ€?

์—ฐ๊ตฌ์ง„์€ ์ด๋ฏธ์ง€ ์ดํ•ด(InfoVQA, ChartQA, DocVQA, MathVista ๋“ฑ)์™€ ๊ธด ์˜์ƒ ๋ฐ ์‹œ๊ฐ„์  ์ถ”๋ก (MVBench, LongVideoBench, ActivityNet QA ๋“ฑ)์„ ํฌํ•จํ•œ ๋‹ค์–‘ํ•œ ๋ฒค์น˜๋งˆํฌ์—์„œ ๋ชจ๋ธ์„ ํ…Œ์ŠคํŠธํ–ˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ ์ •์ ์ธ ์ด๋ฏธ์ง€๋ฟ๋งŒ ์•„๋‹ˆ๋ผ ์‹œ๊ฐ„์˜ ํ๋ฆ„์ด ์žˆ๋Š” ๋น„๋””์˜ค ์ดํ•ด ๋Šฅ๋ ฅ๋„ ์ค‘์ ์ ์œผ๋กœ ํ‰๊ฐ€ํ–ˆ์Šต๋‹ˆ๋‹ค.

๊ธฐ์กด SOTA(State-of-the-art) ๋Œ€๋น„ ์–ผ๋งˆ๋‚˜ ์ข‹์•„์กŒ๋Š”๊ฐ€?

์ œ๊ณต๋œ ๋ฐ์ดํ„ฐ์— ๋”ฐ๋ฅด๋ฉด, ์•ฝ 20์–ต ๊ฐœ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ(2B)๋ฅผ ๊ฐ€์ง„ Penguin-2B ๋ชจ๋ธ์€ ๊ฒฝ์Ÿ ๋ชจ๋ธ๋“ค์ธ SmolVLM2-2.2B, InternVL-3.5-2B, Qwen3VL-2B๋ฅผ ๋Œ€๋ถ€๋ถ„์˜ ํ•ญ๋ชฉ์—์„œ ์•ž์„œ๊ฑฐ๋‚˜ ๋Œ€๋“ฑํ•œ ์„ฑ๋Šฅ์„ ๋ณด์˜€์Šต๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, InfoVQA์—์„œ Penguin-2B๋Š” 70.8์ ์„ ๊ธฐ๋กํ•˜์—ฌ Qwen3VL-2B์˜ 65.9์ ์ด๋‚˜ InternVL-3.5-2B์˜ 61.7์ ๋ณด๋‹ค ํ˜„์ €ํžˆ ๋†’์€ ์ ์ˆ˜๋ฅผ ๊ธฐ๋กํ–ˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ, LongVideoBench ๊ฐ™์€ ์žฅ๊ธฐ ์˜์ƒ ์ดํ•ด ๊ณผ์ œ์—์„œ๋„ 54.5์ ์œผ๋กœ ๋‹ค๋ฅธ ๊ฒฝ์Ÿ ๋ชจ๋ธ๋“ค(์•ฝ 21~34์  ์ˆ˜์ค€)์„ ์••๋„์ ์ธ ๊ฒฉ์ฐจ๋กœ ์ด๊ฒผ์Šต๋‹ˆ๋‹ค.

์ฃผ๋ชฉํ•  ๋งŒํ•œ ์„ฑ๊ณผ

๊ฐ€์žฅ ์ธ์ƒ์ ์ธ ์ ์€ ๋ชจ๋ธ์˜ ํฌ๊ธฐ๊ฐ€ ์ž‘์Œ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ , ํŠนํžˆ ๋ณต์žกํ•œ ๋ฌธ์„œ ํ•ด์„(ChartQA)์ด๋‚˜ ์ˆ˜ํ•™์  ์‹œ๊ฐ ์ถ”๋ก (MathVista)์—์„œ ๊ฐ•๋ ฅํ•œ ์„ฑ๊ณผ๋ฅผ ๋ณด์—ฌ์ฃผ์—ˆ๋‹ค๋Š” ์ ์ž…๋‹ˆ๋‹ค. ์ด๋Š” โ€œ๊ฑฐ๋Œ€ ๋ชจ๋ธ๋งŒ์ด ์ข‹์€ ์„ฑ๋Šฅ์„ ๋‚ธ๋‹คโ€๋Š” ํ†ต๋…์„ ๊นจ๊ณ , ํšจ์œจ์ ์ธ ์•„ํ‚คํ…์ฒ˜ ์„ค๊ณ„๊ฐ€ ์–ผ๋งˆ๋‚˜ ์ค‘์š”ํ•œ์ง€๋ฅผ ์ฆ๋ช…ํ–ˆ์Šต๋‹ˆ๋‹ค. ํŠนํžˆ ์˜์ƒ ์ฒ˜๋ฆฌ์—์„œ์˜ ์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์€ ๊ธฐ์กด ์ด๋ฏธ์ง€ ์œ„์ฃผ ๋ชจ๋ธ๋“ค์˜ ์•ฝ์ ์„ ๊ทน๋ณตํ–ˆ์Œ์„ ์‹œ์‚ฌํ•ฉ๋‹ˆ๋‹ค.

4. ํ•œ๊ณ„์ ๊ณผ ํ–ฅํ›„ ์—ฐ๊ตฌ ๋ฐฉํ–ฅ

์ €์ž๊ฐ€ ์–ธ๊ธ‰ํ•œ ํ•œ๊ณ„

๊ธฐ์ˆ  ๋ฆฌํฌํŠธ์˜ ์„ฑ๊ฒฉ์ƒ ๋ช…์‹œ์ ์ธ ํ•œ๊ณ„์  ํ‘œํ˜„์€ ์ ์ง€๋งŒ, ์—ฐ๊ตฌ ์ „๋ฐ˜์—์„œ ์•”์‹œ๋˜๋Š” ํ•œ๊ณ„๋Š” ์ดˆ์†Œํ˜• ๋ชจ๋ธ(์˜ˆ: 1B ์ดํ•˜)์œผ๋กœ ๊ฐˆ์ˆ˜๋ก ๋ฐœ์ƒํ•˜๋Š” ์„ฑ๋Šฅ ์ €ํ•˜ ๋ฌธ์ œ์ž…๋‹ˆ๋‹ค. ๋˜ํ•œ, ๋งค์šฐ ๊ณ ํ•ด์ƒ๋„ ์ด๋ฏธ์ง€๋ฅผ ์ฒ˜๋ฆฌํ•  ๋•Œ ๋ฐœ์ƒํ•  ์ˆ˜ ์žˆ๋Š” ๊ณ„์‚ฐ ๋ณต์žก๋„์™€ ์ถ”๋ก  ์†๋„ ๊ฐ„์˜ ํŠธ๋ ˆ์ด๋“œ์˜คํ”„๋Š” ์—ฌ์ „ํžˆ ์ตœ์ ํ™”๊ฐ€ ํ•„์š”ํ•œ ์˜์—ญ์œผ๋กœ ๋ณด์ž…๋‹ˆ๋‹ค.

๊ฐœ์„  ๊ฐ€๋Šฅํ•œ ์ 

ํ–ฅํ›„ ์—ฐ๊ตฌ์—์„œ๋Š” ์ด LLM ๊ธฐ๋ฐ˜ ๋น„์ „ ์ธ์ฝ”๋”๋ฅผ ๋” ์ž‘์€ ๊ทœ๋ชจ์˜ ๋ชจ๋ธ(1B ๋˜๋Š” 0.5B)๋กœ ์••์ถ•ํ•˜๋ฉด์„œ๋„ ์„ฑ๋Šฅ์„ ์œ ์ง€ํ•˜๋Š” ๊ธฐ์ˆ ์ด ํ•„์š”ํ•  ๊ฒƒ์ž…๋‹ˆ๋‹ค. ๋˜ํ•œ, ํ˜„์žฌ์˜ ์„ฑ๋Šฅ์ด ์ฃผ๋กœ ์–‘์  ๋ฒค์น˜๋งˆํฌ ์ ์ˆ˜๋กœ ๋‚˜ํƒ€๋‚˜ ์žˆ์œผ๋ฏ€๋กœ, ์‹ค์ œ ์‚ฌ์šฉ์ž ๊ฒฝํ—˜(๋Œ€ํ™”์˜ ์ž์—ฐ์Šค๋Ÿฌ์›€, ๋ณต์žกํ•œ ์ง€์‹œ ์ˆ˜ํ–‰ ๋Šฅ๋ ฅ ๋“ฑ)์„ ํ–ฅ์ƒ์‹œํ‚ค๊ธฐ ์œ„ํ•œ ์ •์„ฑ์  ์—ฐ๊ตฌ์™€ ์˜จ๋””๋ฐ”์ด์Šค ๋””๋ฐ”์ด์Šค์—์„œ์˜ ์‹ค์‹œ๊ฐ„ ์ถ”๋ก  ์ตœ์ ํ™”๊ฐ€ ์ด์–ด์งˆ ๊ฒƒ์œผ๋กœ ๊ธฐ๋Œ€๋ฉ๋‹ˆ๋‹ค.

5. ์‹ค๋ฌด ์ ์šฉ ๊ฐ€๋Šฅ์„ฑ

์–ด๋””์— ๋ฐ”๋กœ ์ ์šฉ ๊ฐ€๋Šฅํ• ๊นŒ?

์ด ๋ชจ๋ธ์€ ๋ชจ๋ฐ”์ผ ๊ธฐ๊ธฐ๋‚˜ ์—ฃ์ง€(Edge) ๋””๋ฐ”์ด์Šค์— ๋‚ด์žฅ๋˜๋Š” AI ์–ด์‹œ์Šคํ„ดํŠธ๋กœ ๊ฐ€์žฅ ์ ํ•ฉํ•ฉ๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ์‚ฌ์šฉ์ž๊ฐ€ ์Šค๋งˆํŠธํฐ ์นด๋ฉ”๋ผ๋กœ ๋ณต์žกํ•œ ์ฐจํŠธ๋ฅผ ์ฐ๊ฑฐ๋‚˜ ๊ธด ์˜์ƒ์„ ์ดฌ์˜ํ–ˆ์„ ๋•Œ, ์ธํ„ฐ๋„ท ์—ฐ๊ฒฐ ์—†์ด๋„ ๊ธฐ๊ธฐ ์ž์ฒด์ ์œผ๋กœ ์ด๋ฅผ ๋ถ„์„ํ•˜๊ณ  ์š”์•ฝํ•ด ์ฃผ๋Š” โ€˜๋กœ์ปฌ ์˜คํ”„๋ผ์ธ AIโ€™ ์„œ๋น„์Šค์— ์ฆ‰์‹œ ํ™œ์šฉํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋˜ํ•œ, ์„œ๋ฒ„ ๋น„์šฉ์ด ์ค‘์š”ํ•œ ์Šคํƒ€ํŠธ์—…์˜ ์„œ๋ฒ„ ์‚ฌ์ด๋“œ ๋ชจ๋ธ๋กœ๋„ ๋น„์šฉ ํšจ์œจ์„ฑ ๋•Œ๋ฌธ์— ๋งค์šฐ ๋งค๋ ฅ์ ์ž…๋‹ˆ๋‹ค.

ํ•„์š”ํ•œ ๋ฆฌ์†Œ์Šค

ํ•™์Šต์„ ์œ„ํ•ด์„œ๋Š” ๊ณ ํ’ˆ์งˆ์˜ ์ด๋ฏธ์ง€-ํ…์ŠคํŠธ ์Œ ๋ฐ์ดํ„ฐ์…‹๊ณผ ๋น„๋””์˜ค ๋ฐ์ดํ„ฐ์…‹์ด ๋Œ€๋Ÿ‰์œผ๋กœ ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. ์ถ”๋ก  ๋‹จ๊ณ„์—์„œ๋Š” ๋ชจ๋ธ์ด ์ž‘๊ธฐ ๋•Œ๋ฌธ์—(2B~8B ํŒŒ๋ผ๋ฏธํ„ฐ), ๊ณ ์„ฑ๋Šฅ ์†Œ๋น„์ž์šฉ GPU(์˜ˆ: NVIDIA RTM 4090 ์ˆ˜์ค€)๋Š” ๋ฌผ๋ก , ์ตœ์‹  ์Šค๋งˆํŠธํฐ์ด๋‚˜ ํƒœ๋ธ”๋ฆฟ์— ๋“ค์–ด๊ฐ€๋Š” NPU(Neural Processing Unit)์—์„œ๋„ ์ถฉ๋ถ„ํžˆ ๊ตฌ๋™ ๊ฐ€๋Šฅํ•  ๊ฒƒ์œผ๋กœ ์˜ˆ์ƒ๋ฉ๋‹ˆ๋‹ค. ํŠนํžˆ ๋ฉ”๋ชจ๋ฆฌ ์‚ฌ์šฉ๋Ÿ‰์ด ์ ์–ด ์ŠคํŠธ๋ฆฌ๋ฐ ์„œ๋น„์Šค๋‚˜ ์‹ค์‹œ๊ฐ„ ๋กœ๋ด‡ ์ œ์–ด์—๋„ ์œ ๋ฆฌํ•ฉ๋‹ˆ๋‹ค.

6. ์ด ๋…ผ๋ฌธ์„ ์ดํ•ดํ•˜๊ธฐ ์œ„ํ•œ ์‚ฌ์ „ ์ง€์‹

  1. VLM(Vision Language Model): ์ด๋ฏธ์ง€์™€ ํ…์ŠคํŠธ๋ฅผ ๋™์‹œ์— ์ดํ•ดํ•˜๊ณ  ์ฒ˜๋ฆฌํ•  ์ˆ˜ ์žˆ๋Š” ์ธ๊ณต์ง€๋Šฅ ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค. (์˜ˆ: GPT-4V)
  2. LLM(Large Language Model): ๋Œ€๋Ÿ‰์˜ ํ…์ŠคํŠธ ๋ฐ์ดํ„ฐ๋กœ ์‚ฌ์ „ ํ•™์Šต๋˜์–ด ์ž์—ฐ์–ด ์ƒ์„ฑ ๋ฐ ์ดํ•ด์— ํŠนํ™”๋œ ๊ฑฐ๋Œ€ ์–ธ์–ด ๋ชจ๋ธ์ž…๋‹ˆ๋‹ค.
  3. ์ธ์ฝ”๋”(Encoder): ์ž…๋ ฅ ๋ฐ์ดํ„ฐ(์ด๋ฏธ์ง€, ํ…์ŠคํŠธ ๋“ฑ)๋ฅผ ์ปดํ“จํ„ฐ๊ฐ€ ์ดํ•ดํ•  ์ˆ˜ ์žˆ๋Š” ์ˆซ์ž ํ˜•ํƒœ์˜ ๋ฒกํ„ฐ๋กœ ๋ณ€ํ™˜ํ•˜๋Š” ์‹ ๊ฒฝ๋ง์˜ ํ•œ ๋ถ€๋ถ„์ž…๋‹ˆ๋‹ค.
  4. CLIP(Contrastive Language-Image Pre-training): ํ…์ŠคํŠธ์™€ ์ด๋ฏธ์ง€๋ฅผ ์—ฐ๊ฒฐํ•˜์—ฌ ํ•™์Šตํ•œ ์˜คํ”ˆAI์˜ ๋ชจ๋ธ๋กœ, ๋Œ€๋ถ€๋ถ„์˜ VLM์ด ์ด๋ฏธ์ง€ ์ดํ•ด๋ฅผ ์œ„ํ•ด ๊ธฐ๋ณธ์œผ๋กœ ์‚ฌ์šฉํ•˜๋Š” ์ธ์ฝ”๋”์ž…๋‹ˆ๋‹ค.
  5. ํ† ํฐ(Token): ํ…์ŠคํŠธ๋‚˜ ์ด๋ฏธ์ง€ ๊ฐ™์€ ๋ฐ์ดํ„ฐ๋ฅผ AI๊ฐ€ ์ฒ˜๋ฆฌํ•˜๊ธฐ ์œ„ํ•ด ์ž˜๊ฒŒ ์ชผ๊ฐ  ๊ธฐ๋ณธ ๋‹จ์œ„์ž…๋‹ˆ๋‹ค.
  6. ๋ฒค์น˜๋งˆํฌ(Benchmark): AI ๋ชจ๋ธ์˜ ์„ฑ๋Šฅ์„ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•œ ํ‘œ์ค€ํ™”๋œ ํ…Œ์ŠคํŠธ ์„ธํŠธ์ž…๋‹ˆ๋‹ค. (์˜ˆ: MMBench, VQAv2)
  7. ์—ฃ์ง€ ์ปดํ“จํŒ…(Edge Computing): ํด๋ผ์šฐ๋“œ๊ฐ€ ์•„๋‹Œ ๋ฐ์ดํ„ฐ๊ฐ€ ์ƒ์„ฑ๋˜๋Š” ํ˜„์žฅ(์Šค๋งˆํŠธํฐ, ์‚ฌ๋ฌผ์ธํ„ฐ๋„ท ๊ธฐ๊ธฐ ๋“ฑ)์—์„œ ์ง์ ‘ ๋ฐ์ดํ„ฐ๋ฅผ ์ฒ˜๋ฆฌํ•˜๋Š” ์ปดํ“จํŒ… ๋ฐฉ์‹์ž…๋‹ˆ๋‹ค.

๐Ÿ“š ์ด๋ฒˆ ์ฃผ ๊ด€๋ จ Deep Dive

์ˆœ์œ„๋…ผ๋ฌธDeep Dive
๐Ÿฅ‡Geometry-Guided Reinforcement Learnโ€ฆDD-041
๐ŸฅˆPenguin-VL: Exploring the Efficiencโ€ฆ๐Ÿ“ ํ˜„์žฌ ๋ฌธ์„œ
๐Ÿฅ‰OpenClaw-RL: Train Any Agent Simplyโ€ฆDD-043
4.Lost in Stories: Consistency Bugs iโ€ฆDD-044
5.Holi-Spatial: Evolving Video Streamโ€ฆDD-045

๐Ÿ“… ์ƒ์„ฑ์ผ: 2026-03-15 | ๐Ÿค– GLM-4.7 Deep Dive