โ ๐ ์ด๋ฒ ์ฃผ Weekly Digest๋ก ๋์๊ฐ๊ธฐ
DD-044 Lost in Stories: Consistency Bugs in Long Story Generation by LLMs
arXiv: 2603.05890 Upvotes: 81 | Comments: 4 ์์: ์ด๋ฒ ์ฃผ Top 4
์ ์ด ๋ ผ๋ฌธ์ด ์ค์ํ๊ฐ?
์ต๊ทผ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM)์ด ์์ค๊ณผ ๊ฐ์ ์์ฃผ ๊ธด ํ ์คํธ๋ฅผ ์ธ ์ ์๊ฒ ๋์์ง๋ง, ๋ชจ๋ธ์ด ์์ ์ด ๋ด์ฉ์ ์์ด๋ฒ๋ฆฌ๊ณ ์ค์ ์ ๋ค์ง๋ โ์ผ๊ด์ฑ ์ค๋ฅโ๊ฐ ์ฌ๊ฐํ ๋ฌธ์ ๋ก ๋๋๋์์ต๋๋ค. ๊ธฐ์กด์ ํ๊ฐ ๋ฐฉ์๋ค์ ์ฃผ๋ก ๋ฌธ์ฅ์ด ๋งค๋๋ฌ์ด์ง(์ ์ฐฝ์ฑ)๋ ์ค๊ฑฐ๋ฆฌ๊ฐ ์ฌ๋ฏธ์๋์ง์๋ง ์ง์คํ์ฌ, ๊ธด ๊ธ์ ์ธ ๋ ๋ฐ์ํ๋ ๋ชจ์์ ์ฒด๊ณ์ ์ผ๋ก ์ธก์ ํ์ง ๋ชปํ์ต๋๋ค. ์ด ๋ ผ๋ฌธ์ ๊ธด ์์ฌ ์์ฑ์์์ ์ผ๊ด์ฑ์ ํ๊ฐํ๋ ์๋ก์ด ๋ฒค์น๋งํฌ(ConStory-Bench)์ ์ด๋ฅผ ์๋์ผ๋ก ๊ฒ์ฆํ๋ ๋๊ตฌ(ConStory-Checker)๋ฅผ ์ ์ํ์ฌ, LLM์ด ์ฅ๊ธฐ์ ์ธ ๊ธฐ์ต๊ณผ ๋ ผ๋ฆฌ๋ฅผ ์ผ๋ง๋ ์ ์ ์งํ๋์ง ์ ๋์ ์ผ๋ก ํ๊ฐํ ์ ์๋ ๊ธธ์ ์ด์์ต๋๋ค.
ํต์ฌ ์์ด๋์ด ์ฝ๊ฒ ์ดํดํ๊ธฐ
์ผ์์ํ ๋น์ : ๊ธฐ์ต๋ ฅ ๋์ ์์ค๊ฐ
์ด ๋ ผ๋ฌธ์ ๋ฌธ์ ์์์ โ๊ธฐ์ต๋ ฅ์ด ๋์ ์์ค๊ฐโ๋ฅผ ์๊ฐํ๋ฉด ์ฝ์ต๋๋ค. ํ ์๊ฐ๊ฐ ์์ค์ ์ฐ๋๋ฐ, 1์ฅ์์๋ ์ฃผ์ธ๊ณต์ด ๋์ด ํ๋ ๋จ์๋ผ๊ณ ์ค์ ํ๋๋ฐ, 10์ฅ์ ๊ฐ์๋ ๊ฐ์๊ธฐ ๋์ด ๊ฐ์์ธ ์ฌ์๋ผ๊ณ ๋ฌ์ฌํ๊ฑฐ๋, ์ฃฝ์ ์ธ๋ฌผ์ด ๋ค์ ์ด์๋๋ ๋ฑ ์ค์ ์ ์๋ง์ผ๋ก ๋ง๋๋ ์ํฉ๊ณผ ๊ฐ์ต๋๋ค. ๋ ์ ์ ์ฅ์์๋ ์ด๋ฐ ๋ชจ์ ๋๋ฌธ์ ์ด์ผ๊ธฐ์ ๋ชฐ์ ํ ์ ์์ฃ . ๊ธฐ์กด ํ๊ฐ๋ ๋ฌธ์ฅ์ด ์์๊ฒ ์ฐ์ฌ ์๋์ง๋ง ํ์ธํ๋ค๋ฉด, ์ด ๋ ผ๋ฌธ์ โ์ผ, ๋ ๋ฐฉ๊ธ ์ด ๊ฑฐ๋ ์์ ์ด ๊ฑฐ๋ ๋ง์ง ์๋๋ฐ?โ๋ผ๊ณ ๋ฐ์ง๋ ๋นํ๊ฐ๋ฅผ ๋ก๋ด์ผ๋ก ๋ง๋ ๊ฒ์ ๋๋ค.
๋จ๊ณ๋ณ ๋์ ์๋ฆฌ
์ด ์์คํ ์ ํฌ๊ฒ ๋ ๊ฐ์ง ๋ถ๋ถ์ผ๋ก ๋๋ฉ๋๋ค. ๋จผ์ ConStory-Bench๋ ๋ชจ๋ธ์๊ฒ ๊ธด ์ด์ผ๊ธฐ๋ฅผ ์ฐ๋ผ๊ณ ์ํค๋ 2,000๊ฐ์ ์ํ์ง ์ญํ ์ ํฉ๋๋ค. ๋ชจ๋ธ์ด ์ด์ผ๊ธฐ๋ฅผ ์ฐ๋ฉด, ConStory-Checker๋ผ๋ ๊ฒ์ฆ๊ธฐ๊ฐ ํ ์คํธ๋ฅผ ๊ผผ๊ผผํ ์ฝ์ผ๋ฉด์ ๋ชจ์์ ์ฐพ์๋ ๋๋ค. ๋จ์ํ โํ๋ ธ๋คโ๊ณ ๋งํ๋ ๊ฒ์ด ์๋๋ผ, โ1์ฅ 3์ค์์๋ A๋ผ๊ณ ํ๋๋ฐ 5์ฅ 2์ค์์๋ B๋ผ๊ณ ํ์ผ๋ฏ๋ก ๋ชจ์์ด๋คโ๋ผ๋ ์์ผ๋ก ์ ํํ ๋ฌธ์ฅ ๋จ์์ ์ฆ๊ฑฐ(Quotation)๋ฅผ ๋๋ฉด์ ํ๋จ ๊ทผ๊ฑฐ๋ฅผ ์ ์ํฉ๋๋ค. ์ด๋ฅผ ํตํด ์ฌ๋์ด ์ง์ ๊ธด ๊ธ์ ๋ค ์ฝ์ง ์์๋๋ ์ด๋์ ์ค๋ฅ๊ฐ ๋ฌ๋์ง ์ฆ์ ์ ์ ์์ต๋๋ค.
ํต์ฌ ์๊ณ ๋ฆฌ์ฆ: ์ผ๊ด์ฑ ์ค๋ฅ ๋ฐ๋(CED)
๊ธด ์ด์ผ๊ธฐ๋ฅผ ์ฐ๋ ๋ชจ๋ธ์ ๊ณต์ ํ๊ฒ ํ๊ฐํ๊ธฐ ์ํด ์ฐ๊ตฌ์ง์ Consistency Error Density(CED)๋ผ๋ ์งํ๋ฅผ ์ ์ํ์ต๋๋ค. ๋จ์ํ ์ค๋ฅ ๊ฐ์๋ง ์ธ๋ฉด ๊ธธ๊ฒ ์ด ๋ชจ๋ธ์ด ๋ถ๋ฆฌํ ์ ์๊ธฐ ๋๋ฌธ์ ๋๋ค. ์ด๋ ์์์ผ๋ก ํํํ๋ฉด ๋ชจ๋ธ m์ด ์ด ์ด์ผ๊ธฐ i์์ ๋ฐ์ํ ์ด ์ค๋ฅ ์(e)๋ฅผ ์ด์ผ๊ธฐ์ ์ ์ฒด ๊ธธ์ด(w)๋ก ๋๋ ๋ค, 10,000 ๋จ์ด๋น ์ค๋ฅ์จ๋ก ํ์ฐํ ๊ฐ์ ๋๋ค. ์ฆ, ์ด์ผ๊ธฐ๊ฐ ๊ธธ์ด์ง์๋ก ์ค์ํ ํ๋ฅ ์ด ๋๋ค๋ ์ ์ ๊ณ ๋ คํ์ฌ, ๋จ์ด ์ ๋๋น ์ผ๋ง๋ ์ด์ดํ๊ฒ ์ค๋ฅ๊ฐ ๋์ค๋์ง๋ฅผ ์ธก์ ํ๋ ๊ฒ์ ๋๋ค.
์คํ ๊ฒฐ๊ณผ ๋ถ์
์ด ์ฐ๊ตฌ๋ ConStory-Bench์ 2,000๊ฐ ํ๋กฌํํธ๋ฅผ ์ฌ์ฉํ์ฌ ์์ฉ ๋ชจ๋ธ(์: GPT, Claude ๋ฑ), ์คํ ์์ค ๋ชจ๋ธ(์: Qwen, DeepSeek ๋ฑ), ๊ทธ๋ฆฌ๊ณ ์คํ ๋ฆฌ ์์ฑ์ ํนํ๋ ๋ชจ๋ธ๊ณผ ์์ด์ ํธ ์์คํ ๊น์ง ์ด 4๊ฐ์ง ์ ํ์ ์์คํ ์ ํ๊ฐํ์ต๋๋ค.
๋ถ์ ๊ฒฐ๊ณผ, ๋ชจ๋ ๋ชจ๋ธ์์ ์ผ๊ด์ฑ ์ค๋ฅ๊ฐ ๋ช ํํ ๊ฒฝํฅ์ฑ์ ๋ณด์์ต๋๋ค. ์ฒซ์งธ, ์ด์ผ๊ธฐ๊ฐ ๊ธธ์ด์ง์๋ก(๊ธธ์ด๊ฐ ์ฆ๊ฐํ ์๋ก) ๋ชจ๋ธ์ด ์ด๊ธฐ ์ค์ ์ ์์ด๋ฒ๋ฆฌ๋ ๋น๋๊ฐ ๋์์ก์ต๋๋ค. ๋์งธ, ์ค๋ฅ ์ ํ ์ค์์๋ โํ์๋ผ์ธ ๋ฐ ์ค๊ฑฐ๋ฆฌ ๋ ผ๋ฆฌโ ์ค๋ฅ์ โ์บ๋ฆญํฐ ์ค์ โ ์ค๋ฅ๊ฐ ๊ฐ์ฅ ๋น๋ฒํ๊ฒ ๋ฐ์ํ์ต๋๋ค. ์ ์งธ, ๋จ์ํ ๋ชจ๋ธ์ ์ฑ๋ฅ์ด ์ข๋ค๊ณ ํด์ ๊ธด ์์ฌ์ ์ผ๊ด์ฑ๊น์ง ์๋ฒฝํ ๋ณด์ฅ๋์ง๋ ์๋๋ค๋ ์ ์ ํ์ธํ์ต๋๋ค. ์ฆ, ์ต์ ๋ชจ๋ธ์ผ์ง๋ผ๋ ๊ธด ํธํก์ ์ด์ผ๊ธฐ๋ฅผ ์ธ ๋๋ ์ฌ์ ํ ์๋ค๊ฐ ์ ๋ง๋ ์ค์๋ฅผ ํ๋ฉฐ, ์ด๋ฅผ ๋ณด์ํ๊ธฐ ์ํ ์ถ๊ฐ์ ์ธ ๊ธฐ์ ์ด ํ์ํจ์ ์์น๋ก ์ฆ๋ช ํ์ต๋๋ค.
ํ๊ณ์ ๊ณผ ํฅํ ์ฐ๊ตฌ ๋ฐฉํฅ
์ ์๋ค์ LLM์ ํ์ฌ(Judge)๋ก ์ฌ์ฉํ์ฌ ์๋ํ๋ ํ๊ฐ ํ์ดํ๋ผ์ธ์ ๊ตฌ์ถํ์ง๋ง, ํ์ฌ ๋ชจ๋ธ ์์ฒด๊ฐ ๊ฐ์ง ํธํฅ์ฑ์ด๋ ๋ฏธ๋ฌํ ๋ฌธ๋งฅ์ ๋์น ์ ์๋ ํ๊ณ๋ฅผ ์ธ์ ํ๊ณ ์์ต๋๋ค. ๋ํ, ํ์ฌ์ ๋ฒค์น๋งํฌ๋ ์ฃผ๋ก ํ ์คํธ ๋ด์ ๋ช ์์ ์ธ ๋ชจ์์ ์ง์คํ๊ณ ์์ด, ์๋ฌต์ ์ธ ๋ถ์๊ธฐ๋ ์ฌ๋ฆฌ์ ์ผ๊ด์ฑ๊น์ง ํ๊ฐํ๊ธฐ์๋ ์ด๋ ต์ต๋๋ค.
ํฅํ ์ฐ๊ตฌ์์๋ ์ด๋ฌํ ์๋ํ๋ ๊ฒ์ฆ๊ธฐ๋ฅผ ํตํด ๋ฐ๊ฒฌ๋ ์ค๋ฅ ๋ฐ์ดํฐ๋ฅผ ํ์ฉํด ๋ชจ๋ธ์ ์ฌํ์ต์ํค๊ฑฐ๋, ๋ชจ๋ธ์ด ๊ธด ํ ์คํธ๋ฅผ ์์ฑํ ๋ ์ค๊ฐ ์ค๊ฐ ์ค์ ์ ํ์ธํ๊ณ ์์ ํด์ฃผ๋ ๋ฅ๋์ ์ธ ํผ๋๋ฐฑ ๋ฉ์ปค๋์ฆ์ ๊ฐ๋ฐํ๋ ๋ฐฉํฅ์ผ๋ก ๋์๊ฐ ๊ฒ์ ๋๋ค. ๋์๊ฐ ๋จ์ํ ์ค๋ฅ๋ฅผ ์ก๋ ๊ฒ์ ๋์ด, ์ค๋ฅ๊ฐ ๋์ฌ ๊ฐ๋ฅ์ฑ์ด ๋์ ์ง์ ์ ๋ฏธ๋ฆฌ ์์ธกํ์ฌ ๋ฐฉ์งํ๋ ๊ธฐ์ ๋ ๊ธฐ๋๋ฉ๋๋ค.
์ค๋ฌด ์ ์ฉ ๊ฐ๋ฅ์ฑ
์ด ์ฐ๊ตฌ๋ AI๋ฅผ ํ์ฉํ ์ฝํ ์ธ ์ ์ ํ์ฅ์ ์ฆ์ ์ ์ฉ๋ ์ ์์ต๋๋ค. ์น์์ค์ด๋ ์๋๋ฆฌ์ค ์์ฑ ๋์ฐ๋ฏธ, ํน์ ๋กคํ๋ ์ ๊ฒ์(RPG)์ ์๋ ํ์คํธ ์์ฑ ์์คํ ๋ฑ์์ ์ด ConStory-Checker๋ฅผ ํํฐ๋ง ๋จ๊ณ๋ก ๋๋ฉด, LLM์ด ์์ฑํ ๊ธด ๊ธ์ ์ค์ ์ถฉ๋์ด ์๋์ง ์๋์ผ๋ก ๊ฒ์ฌํ์ฌ ํ์ง์ ๋์ผ ์ ์์ต๋๋ค.
ํ์ํ ๋ฆฌ์์ค ์ธก๋ฉด์์๋ ๊ฒ์ฆ์ ์ํ ๋ณ๋์ ๊ฐ๋ ฅํ LLM(์: GPT-4o๊ธ)์ด ํ์ํ๋ฏ๋ก API ํธ์ถ ๋น์ฉ์ด ๋ฐ์ํ๋ฉฐ, ์์ฑ๋ ํ ์คํธ๋ฅผ ์ ๋ถ ๋ค์ ๊ฒ์ฆํด์ผ ํ๋ฏ๋ก ์ฒ๋ฆฌ ์๊ฐ(Latency)์ด ๋ค์ ์์๋ ์ ์์ต๋๋ค. ํ์ง๋ง ๋ฐฉ๋ํ ๋ถ๋์ ํ ์คํธ๋ฅผ ๊ฒ์ํ๋ ์ธ๋ ฅ ๋น์ฉ์ ๊ณ ๋ คํ๋ฉด ๋งค์ฐ ํจ์จ์ ์ธ ์๋ฃจ์ ์ด ๋ ์ ์์ต๋๋ค.
์ด ๋ ผ๋ฌธ์ ์ดํดํ๊ธฐ ์ํ ์ฌ์ ์ง์
- Large Language Models (LLM): ๋๋์ ํ ์คํธ ๋ฐ์ดํฐ๋ก ํ์ตํ์ฌ ์ฌ๋์ฒ๋ผ ํ ์คํธ๋ฅผ ์ดํดํ๊ณ ์์ฑํ๋ ์ธ๊ณต์ง๋ฅ ๋ชจ๋ธ์ ๋๋ค.
- Context Window (์ปจํ ์คํธ ์๋์ฐ): ๋ชจ๋ธ์ด ํ ๋ฒ์ ์ฒ๋ฆฌํ ์ ์๋ ์ต๋ ํ ์คํธ ๊ธธ์ด๋ก, ๊ธธ์๋ก ๊ธด ์ด์ผ๊ธฐ๋ฅผ ๋ ์ ๊ธฐ์ตํ ์ ์์ต๋๋ค.
- Hallucination (ํ ๋ฃจ์๋ค์ด์ ): AI๊ฐ ์ฌ์ค์ด ์๋ ๋ด์ฉ์ ๋ง์น ์ง์ค์ธ ๊ฒ์ฒ๋ผ ๊ทธ๋ด์ธํ๊ฒ ์์ฑํ๋ ํ์์ ๋๋ค.
- LLM-as-a-judge (LLM ํ์ฌ): ๋ค๋ฅธ AI์ ์ถ๋ ฅ ๊ฒฐ๊ณผ๋ฅผ ํ๊ฐํ๊ธฐ ์ํด LLM์ ํ๊ฐ์๋ก ํ์ฉํ๋ ๊ธฐ๋ฒ์ ๋๋ค.
- Fine-tuning (ํ์ธํ๋): ์ด๋ฏธ ํ์ต๋ ๊ฑฐ๋ ๋ชจ๋ธ์ ํน์ ์์ ์ด๋ ๋ฐ์ดํฐ์ ๋ง์ถฐ ์ถ๊ฐ๋ก ๋ฏธ์ธ ์กฐ์ ํ๋ ๊ณผ์ ์ ๋๋ค.
- Retrieval-Augmented Generation (RAG): ์ธ๋ถ ๋ฐ์ดํฐ๋ฒ ์ด์ค์์ ์ ๋ณด๋ฅผ ์ฐพ์์ ๋ต๋ณ์ ์์ฑํ ๋ ํ์ฉํ์ฌ ์ฌ์ค ๊ธฐ๋ฐ์ ๋ต๋ณ์ ๋๋ ๊ธฐ์ ์ ๋๋ค.
- Consistency (์ผ๊ด์ฑ): ํ ์คํธ ์ ์ฒด์ ๊ฑธ์ณ ๋ฑ์ฅ์ธ๋ฌผ์ ์ฑ๊ฒฉ, ์ฌ๊ฑด์ ์๊ธฐ, ์ธ๊ณ๊ด ์ค์ ๋ฑ์ด ์๋ก ๋ชจ์๋์ง ์๊ณ ์ ์ง๋๋ ์ฑ์ง์ ๋๋ค.
๐ ์ด๋ฒ ์ฃผ ๊ด๋ จ Deep Dive
| ์์ | ๋ ผ๋ฌธ | Deep Dive |
|---|---|---|
| ๐ฅ | Geometry-Guided Reinforcement Learnโฆ | DD-041 |
| ๐ฅ | Penguin-VL: Exploring the Efficiencโฆ | DD-042 |
| ๐ฅ | OpenClaw-RL: Train Any Agent Simplyโฆ | DD-043 |
| 4. | Lost in Stories: Consistency Bugs iโฆ | ๐ ํ์ฌ ๋ฌธ์ |
| 5. | Holi-Spatial: Evolving Video Streamโฆ | DD-045 |
๐ ์์ฑ์ผ: 2026-03-15 | ๐ค GLM-4.7 Deep Dive