Elements of reinforcement learning
๊ฐํํ์ต ๊ธฐ๋ณธ ์์
๊ฐํํ์ต์์ ๊ฐ์ฅ ์ค์ํ setting์ state, action, reward์ด๋ค. Action์ ๊ฒฝ์ฐ ์ฃผ์ด์ง ํ๊ฒฝ์ ๋ฐ๋ผ์ ์์ฐํ ๊ฒฐ์ ๋๋ ๊ฒฝ์ฐ๊ฐ ๋ง์ผ๋ state์ reward๋ ๋ค๋ฅด๋ค. ๋์ผํ ํ๊ฒฝ, ์๊ณ ๋ฆฌ์ฆ์ด์ฌ๋ state feature ๊ตฌ์ฑ๊ณผ reward function์ ์ค๊ณ์ ๋ฐ๋ผ ์์ดํ ๊ฒฐ๊ณผ๋ฅผ ๊ฐ์ ธ์จ๋ค. ๋ค์ ๊ธ์ ํตํด state, action, reward์ ์ ์๋ฅผ ์์๋ณด๋๋ก ํ์.
State
State (์ํ)๋ ๊ฐํํ์ต์์ ํ์์ ์ฃผ์ฒด์ธ agent๊ฐ ์ฒํด์๋ ์ํฉ์ ๋งํ๋ฉฐ ํ๋์ ์ทจํ ๋ ์ฌ์ฉ๋๋ ์ ๋ณด์ด๋ค. ์์ ์์จ์ฃผํ agent์ ๊ฒฝ์ฐ ์ ๋ฐฉ ์นด๋ฉ๋ผ์ ๋ด๊ธด ๋๋ก์ ์ํฉ, ์,๋ค ์ผ์๋ฅผ ํตํ ์ฃผ์ ์๋์ฐจ์ ์, ๋น์ผ ๋ ์จ ์ ๋ณด ๋ฑ์ด state๊ฐ ๋ ์ ์๋ค. ์ด์ ๊ฐ์ state๋ agent์๊ฒ ์ฃผ์ด์ง๋ ์ ๋ณด๊ธฐ ๋๋ฌธ์ ์ด๋ป๊ฒ ๊ตฌ์ฑํ๋๋์ ๋ฐ๋ผ์ ๋์ผํ ์๊ณ ๋ฆฌ์ฆ๋ ์ฑ๋ฅ ์ฐจ์ด๋ฅผ ๋ณด์ผ ์ ์๋ค.
State์ ๋ฐ๋ผ์ agent๋ ์ธ์์ ์ด๋ป๊ฒ ๋ฐ๋ผ๋ณผ๊น? ๋ค์ ์๋ฅผ ํตํด์ agent์ ์ ์ฅ์ ํ ๋ฐ์๊ตญ ๋ค๊ฐ๊ฐ๋ณด์. ์ฌ๋ฌ๋ถ์ Figure 02๋ฅผ ๋ณด๊ณ ๊ณผ์ฐ ๋ฌด์จ ๋ฌธ์ ๋ฅผ ํธ๋ ๊ฒ์ธ์ง ์ ์ ์๊ฒ ๋๊ฐ?

๋ฌด์์ ํ๊ณ ์ ํ๋์ง ์ ํํ ์ ์ ์๋ค. ๋จ ํ์ฌ agent๊ฐ S์ ์์นํ์ฌ ์๋ค๋ ๊ฒ์ ์ ๋์ขํ(3,0)๋ฅผ ํตํด ์ ์ ์์ ๋ฟ์ด๋ค. ๊ทธ๋ ๋ค๋ฉด ๋ค์๊ณผ ๊ฐ์ด state๋ฅผ ์ถ๊ฐํด๋ณด์.

Figure 03์ D์ ์ ๋ ์ขํ๊ฐ ์ถ๊ฐ ๋์์ ๋์ ๋ํ์ด๋ฉฐ state๋ฅผ ํ๋์ vector๋ก ํ๊ธฐํ๋ฉด Fsโ์ ๊ฐ๋ค. ์ฌ๋์ ๊ฒฝ์ฐ ์ง๊ฐ์ ์ผ๋ก 'ํ์ฌ ํ๊ฒฝ์ grid world์ธ๋ฐ S์์ ์์ํ์ฌ D์ ๋์ฐฉํ๋๊ฒ ๋ชฉํ์ธ๊ฐ?'๋ผ๋ ์๊ฐ์ ๋๋ฌํ ์ ์์ผ๋ agent๋ ๊ทธ๋ ์ง ์๋ค. ์ค๋ น agent๊ฐ ์ด๋ฅผ ํ์ ํ์๋ค ํ๋๋ผ๋ ํ์ฌ ์ํฉ์์ ์ด๋ค action์ ์ทจํด์ผ destination์ ๋๋ฌํ ์ ์๋์ง ์์ง ๋ชปํ๋ค.
Figure 03๊ณผ ๊ฐ์ด start์ ์ ๋์ขํ์ destination์ ์ ๋์ขํ๋ง์ ์ฃผ์ด์ก์ ๋, ๋น๊ธ๋ unseen state๋ฅผ ํต๊ณผํ์ฌ ๋ชฉ์ ์ง์ ๋๋ฌํ๊ธฐ ์ํด์ ์ด๋ค ๊ณผ์ ์ ๊ฑฐ์ณ์ผ ํ๋์ง ์์๋ณด๋๋กํ์.
Action
Action (ํ๋)์ agent๊ฐ ํ์ฌ ์ทจํ ์ ์๋ ์ ํ์ง๋ฅผ ๋ปํ๋ค. ์์จ์ฃผํ agent์ ๊ฒฝ์ฐ handle ๊ฐ๋, acceler-ator, brake ๋ฑ์ด ์กด์ฌํ ๊ฒ์ด๋ฉฐ ์ฃผ์ ํฌ์ agent์ ๊ฒฝ์ฐ ๋งค์, ๋งค๋, ๊ด๋ง์ด ์์ ๊ฒ์ด๋ค. Figure 04์ ๊ฐ์ด grid world์ agent๋ ์, ํ, ์ข, ์ฐ์ ๋ํ discrete action์ด ์กด์ฌํ๋ค๊ณ ๊ฐ์ ํด๋ณด์.
๋จผ์ ๊ฐ๋ฅํ ํ๋ ์ค ์, ํ, ์ข์ ๋ํ action์ ์ทจํ๊ณ ์ฌ์ ํ (3,0)์ ์์น์์ ๋ฒ์ด๋ ์ ์์๋ค๊ณ ๊ฐ์ ํ์. ๊ทธ๋ ๊ฒ ๋ ๊ฒฝ์ฐ agent๊ฐ ๋ฐ๊ฒฌํ environment๋ Figure 04์ ๊ฐ์ด ๋ณ๊ฒฝ๋์์ ๊ฒ์ด๋ค.

์ด์ ํ๋ ๋จ์ action์ธ "์ฐ"๋ฅผ ํํด๋ณด์.

๋น๊ธ์ผ๋ก ํ๊ธฐ๋ unseen state์ ๋ํ ๋ถ๋ถ์ด ์ผ๋ถ ํด์๋์๋ค. ์ด์ ๊ฐ์ด ๋ชจ๋ state๋ง๋ค ๊ฐ๋ฅํ action์ ์์๋ก ์งํํ๊ณ , destination์ ๋๋ฌํ๋ ํ๋์ ๊ธฐ์ตํ๋ค๊ฐ ์ด๋ฅผ ๋ฐ๋ณตํ๋ฉด ์ task๋ ํ ์ ์์ ๊ฒ์ผ๋ก ๋ณด์ธ๋ค. ๊ทธ๋ฌ๋ ๋ชจ๋ action์ ์์๋ก ํํ๋ ๋์ agent๊ฐ ์ทจํ ํ๋์ ๋ํด์ ๊ฐ์น๋ฅผ ํ๊ฐํ๊ณ ๋ ๋์ ๊ฐ์น๋ฅผ ๋ณด์ด๋ action๋ง์ ์ทจํ๋ค๋ฉด ๋ณด๋ค ํจ์จ์ ์ผ๋ก task๋ฅผ ํ ์ ์์ ๊ฒ์ผ๋ก ๋ณด์ธ๋ค. ์ด๋ฅผ ์ํด ํ์ํ ๊ฐ๋ ์ด reward์ด๋ค.
Reward
Reward (๋ณด์)์ agent๊ฐ ์ทจํ ํ๋์ ์ข๊ณ ๋์จ์ ํ๊ฐํ๋ ๊ธฐ์ค์ผ๋ก state์ ๋ง์ฐฌ๊ฐ์ง๋ก ์ฌ๋์ด ์ค๊ณํ๋ ๊ฐ์ด๋ค. ๊ฐํํ์ต agent๊ฐ ํ์ตํ ์ ์๋ ์ ์ผํ ์ ๋ณด์ ํด๋นํ๋ฉฐ ๋ชจ๋ ๊ฐํํ์ต ์๊ณ ๋ฆฌ์ฆ์ ์ด reward๋ฅผ ์ต๋ํํ๋ ๊ฒ์ ๋ชฉํ๋ก ํ๋ค.
๋ง์ฝ ์์์ ์ ์ํ grid world์ task๊ฐ ์ต๋จ ๊ฑฐ๋ฆฌ๋ก destination์ ๋๋ฌํ๋ ๊ฒ์ด๋ผ๋ฉด Figure 04์์ ํน์ ํ๋์ ์ทจํ์์๋ ์ ์๋ฆฌ๋ก ๋์์ค๋ ๊ฒฝ์ฐ๋ ์์ ๋ณด์์ ์ฃผ์ด์ผ ๋ง๋ ํ ๊ฒ์ด๋ค. ์ ์์ ์ผ๋ก ์ค๊ณ๋ ํ๊ฒฝ ๋ฐ reward function์ด๋ผ๋ ๊ฐ์ ํ์ Figure 04์ ํ๋์ ์ทจํ ๊ฒฝ์ฐ -2์ ๋ณด์์ ๋ฐ์๋ค๊ณ ๊ฐ์ ํ์. ๋ํ ํ๋์ ์ทจํ์ ๋ state์ ๋ณํ๊ฐ ์กด์ฌํ๋ฉฐ, destination์ ๋๋ฌํ์ง ์์๋ค๋ฉด 0์ ๋ณด์์ ๋ฐ์๋ค๊ณ ๊ฐ์ ํด๋ณด์. ์ฆ initial state (S)์์ agent๊ฐ ๋ฐ์ ์ ์๋ ํ๋๋ณ reward๋ ๋ค์๊ณผ ๊ฐ๋ค.

๋ง์ฝ agent๊ฐ initial state์์ ๋ค์ ์์ํ๊ฒ ๋๋ค๋ฉด ์, ํ, ์ข action ๋์ ์ฐ action์ ์ทจํ๊ฒ ๋ ๊ฒ์ด๋ค. Figure 04-05์ ๊ณผ์ ์ ํตํด action "์ฐ"๊ฐ ๋ ์ข์ reward๋ฅผ ๋ฐ์ ์ ์๋ค๋ ์ฌ์ค์ ์์๊ธฐ ๋๋ฌธ์ด๋ค.
๋ค์ agent์ ์ ์ฅ์ผ๋ก ๋์๊ฐ์ (3,1) ์ขํ์์ ์, ํ, ์ข, ์ฐ action์ ์ทจํด๋ณด์. ์ค๋ฅธ์ชฝ์ผ๋ก ๊ฐ๋ ํ๋์ ์ทจํ์ ๋ state์ ๋ณํ ์์ด ์ ์๋ฆฌ๋ก ๋์์๊ณ ๋๋จธ์ง๋ ์์น ๋ณํ๊ฐ ์์๋ค๋ฉด ๋ค์๊ณผ ๊ฐ์ด unseen state๋ฅผ ๊ฐ์ฒํ ์ ์์ ๊ฒ์ด๋ค.

Figure 07์ ์ดํด๋ณด๋ฉด ํ๋ "์ฐ"์ ๋ํด์ -2์ reward๋ฅผ, ๋๋จธ์ง actions์ ๋ํด์๋ 0์ reward๋ฅผ ๋ฐ์์ ์ ์ ์๋ค. Agent ์ ์ฅ์์ destination์ ๋๋ฌํ๊ธฐ ์ํด์ ์๋ก ๊ฐ๋ ๊ธธ๊ณผ ์๋๋ก ๊ฐ๋ ๊ธธ ๋ ๊ฐ์ง๊ฐ ์๋ค๋ ๊ฒ์ ํ์ ํ ์ ์๋ค.
์ถ๊ฐ๋ก Figure 07 ์๋ฅผ ํตํด์ reward function์ ์ค๊ณ๊ฐ agent์ ํจ์จ์ฑ ๋ฐ ์ฑ๋ฅ์ ์ํฅ์ ์ค๋ค๋ ์ฌ์ค์ ์ ์ ์๋ค. ๋ง์ฝ ๊ธฐ์กด์ ๋ฐฉ๋ฌธํ state๋ฅผ ๋ค์ ๋์๊ฐ์ ๊ฒฝ์ฐ ์์ penalty๊ฐ ์๋ค๋ฉด (3,1)์ state์์ action "์ข"๋ฅผ ๊ฑฐ๋ฅผ ์ ์์ด ๋ณด๋ค ํจ์จ์ ์ธ ํ์์ด ๊ฐ๋ฅํ์ ๊ฒ์ด๋ค.
(์์ฑ์ค)
Last updated