Elements of reinforcement learning
๊ฐํํ์ต ๊ธฐ๋ณธ ์์
๊ฐํํ์ต์์ ๊ฐ์ฅ ์ค์ํ setting์ state, action, reward์ด๋ค. Action์ ๊ฒฝ์ฐ ์ฃผ์ด์ง ํ๊ฒฝ์ ๋ฐ๋ผ์ ์์ฐํ ๊ฒฐ์ ๋๋ ๊ฒฝ์ฐ๊ฐ ๋ง์ผ๋ state์ reward๋ ๋ค๋ฅด๋ค. ๋์ผํ ํ๊ฒฝ, ์๊ณ ๋ฆฌ์ฆ์ด์ฌ๋ state feature ๊ตฌ์ฑ๊ณผ reward function์ ์ค๊ณ์ ๋ฐ๋ผ ์์ดํ ๊ฒฐ๊ณผ๋ฅผ ๊ฐ์ ธ์จ๋ค. ๋ค์ ๊ธ์ ํตํด state, action, reward์ ์ ์๋ฅผ ์์๋ณด๋๋ก ํ์.
State
State (์ํ)๋ ๊ฐํํ์ต์์ ํ์์ ์ฃผ์ฒด์ธ agent๊ฐ ์ฒํด์๋ ์ํฉ์ ๋งํ๋ฉฐ ํ๋์ ์ทจํ ๋ ์ฌ์ฉ๋๋ ์ ๋ณด์ด๋ค. ์์ ์์จ์ฃผํ agent์ ๊ฒฝ์ฐ ์ ๋ฐฉ ์นด๋ฉ๋ผ์ ๋ด๊ธด ๋๋ก์ ์ํฉ, ์,๋ค ์ผ์๋ฅผ ํตํ ์ฃผ์ ์๋์ฐจ์ ์, ๋น์ผ ๋ ์จ ์ ๋ณด ๋ฑ์ด state๊ฐ ๋ ์ ์๋ค. ์ด์ ๊ฐ์ state๋ agent์๊ฒ ์ฃผ์ด์ง๋ ์ ๋ณด๊ธฐ ๋๋ฌธ์ ์ด๋ป๊ฒ ๊ตฌ์ฑํ๋๋์ ๋ฐ๋ผ์ ๋์ผํ ์๊ณ ๋ฆฌ์ฆ๋ ์ฑ๋ฅ ์ฐจ์ด๋ฅผ ๋ณด์ผ ์ ์๋ค.
State์ ๋ฐ๋ผ์ agent๋ ์ธ์์ ์ด๋ป๊ฒ ๋ฐ๋ผ๋ณผ๊น? ๋ค์ ์๋ฅผ ํตํด์ agent์ ์ ์ฅ์ ํ ๋ฐ์๊ตญ ๋ค๊ฐ๊ฐ๋ณด์. ์ฌ๋ฌ๋ถ์ Figure 02๋ฅผ ๋ณด๊ณ ๊ณผ์ฐ ๋ฌด์จ ๋ฌธ์ ๋ฅผ ํธ๋ ๊ฒ์ธ์ง ์ ์ ์๊ฒ ๋๊ฐ?

๋ฌด์์ ํ๊ณ ์ ํ๋์ง ์ ํํ ์ ์ ์๋ค. ๋จ ํ์ฌ agent๊ฐ S์ ์์นํ์ฌ ์๋ค๋ ๊ฒ์ ์ ๋์ขํ(3,0)๋ฅผ ํตํด ์ ์ ์์ ๋ฟ์ด๋ค. ๊ทธ๋ ๋ค๋ฉด ๋ค์๊ณผ ๊ฐ์ด state๋ฅผ ์ถ๊ฐํด๋ณด์.

Figure 03์ D์ ์ ๋ ์ขํ๊ฐ ์ถ๊ฐ ๋์์ ๋์ ๋ํ์ด๋ฉฐ state๋ฅผ ํ๋์ vector๋ก ํ๊ธฐํ๋ฉด ์ ๊ฐ๋ค. ์ฌ๋์ ๊ฒฝ์ฐ ์ง๊ฐ์ ์ผ๋ก 'ํ์ฌ ํ๊ฒฝ์ grid world์ธ๋ฐ S์์ ์์ํ์ฌ D์ ๋์ฐฉํ๋๊ฒ ๋ชฉํ์ธ๊ฐ?'๋ผ๋ ์๊ฐ์ ๋๋ฌํ ์ ์์ผ๋ agent๋ ๊ทธ๋ ์ง ์๋ค. ์ค๋ น agent๊ฐ ์ด๋ฅผ ํ์ ํ์๋ค ํ๋๋ผ๋ ํ์ฌ ์ํฉ์์ ์ด๋ค action์ ์ทจํด์ผ destination์ ๋๋ฌํ ์ ์๋์ง ์์ง ๋ชปํ๋ค.
Figure 03๊ณผ ๊ฐ์ด start์ ์ ๋์ขํ์ destination์ ์ ๋์ขํ๋ง์ ์ฃผ์ด์ก์ ๋, ๋น๊ธ๋ unseen state๋ฅผ ํต๊ณผํ์ฌ ๋ชฉ์ ์ง์ ๋๋ฌํ๊ธฐ ์ํด์ ์ด๋ค ๊ณผ์ ์ ๊ฑฐ์ณ์ผ ํ๋์ง ์์๋ณด๋๋กํ์.
Action
Action (ํ๋)์ agent๊ฐ ํ์ฌ ์ทจํ ์ ์๋ ์ ํ์ง๋ฅผ ๋ปํ๋ค. ์์จ์ฃผํ agent์ ๊ฒฝ์ฐ handle ๊ฐ๋, acceler-ator, brake ๋ฑ์ด ์กด์ฌํ ๊ฒ์ด๋ฉฐ ์ฃผ์ ํฌ์ agent์ ๊ฒฝ์ฐ ๋งค์, ๋งค๋, ๊ด๋ง์ด ์์ ๊ฒ์ด๋ค. Figure 04์ ๊ฐ์ด grid world์ agent๋ ์, ํ, ์ข, ์ฐ์ ๋ํ discrete action์ด ์กด์ฌํ๋ค๊ณ ๊ฐ์ ํด๋ณด์.
๋จผ์ ๊ฐ๋ฅํ ํ๋ ์ค ์, ํ, ์ข์ ๋ํ action์ ์ทจํ๊ณ ์ฌ์ ํ (3,0)์ ์์น์์ ๋ฒ์ด๋ ์ ์์๋ค๊ณ ๊ฐ์ ํ์. ๊ทธ๋ ๊ฒ ๋ ๊ฒฝ์ฐ agent๊ฐ ๋ฐ๊ฒฌํ environment๋ Figure 04์ ๊ฐ์ด ๋ณ๊ฒฝ๋์์ ๊ฒ์ด๋ค.

์ด์ ํ๋ ๋จ์ action์ธ "์ฐ"๋ฅผ ํํด๋ณด์.

๋น๊ธ์ผ๋ก ํ๊ธฐ๋ unseen state์ ๋ํ ๋ถ๋ถ์ด ์ผ๋ถ ํด์๋์๋ค. ์ด์ ๊ฐ์ด ๋ชจ๋ state๋ง๋ค ๊ฐ๋ฅํ action์ ์์๋ก ์งํํ๊ณ , destination์ ๋๋ฌํ๋ ํ๋์ ๊ธฐ์ตํ๋ค๊ฐ ์ด๋ฅผ ๋ฐ๋ณตํ๋ฉด ์ task๋ ํ ์ ์์ ๊ฒ์ผ๋ก ๋ณด์ธ๋ค. ๊ทธ๋ฌ๋ ๋ชจ๋ action์ ์์๋ก ํํ๋ ๋์ agent๊ฐ ์ทจํ ํ๋์ ๋ํด์ ๊ฐ์น๋ฅผ ํ๊ฐํ๊ณ ๋ ๋์ ๊ฐ์น๋ฅผ ๋ณด์ด๋ action๋ง์ ์ทจํ๋ค๋ฉด ๋ณด๋ค ํจ์จ์ ์ผ๋ก task๋ฅผ ํ ์ ์์ ๊ฒ์ผ๋ก ๋ณด์ธ๋ค. ์ด๋ฅผ ์ํด ํ์ํ ๊ฐ๋ ์ด reward์ด๋ค.
Reward
Reward (๋ณด์)์ agent๊ฐ ์ทจํ ํ๋์ ์ข๊ณ ๋์จ์ ํ๊ฐํ๋ ๊ธฐ์ค์ผ๋ก state์ ๋ง์ฐฌ๊ฐ์ง๋ก ์ฌ๋์ด ์ค๊ณํ๋ ๊ฐ์ด๋ค. ๊ฐํํ์ต agent๊ฐ ํ์ตํ ์ ์๋ ์ ์ผํ ์ ๋ณด์ ํด๋นํ๋ฉฐ ๋ชจ๋ ๊ฐํํ์ต ์๊ณ ๋ฆฌ์ฆ์ ์ด reward๋ฅผ ์ต๋ํํ๋ ๊ฒ์ ๋ชฉํ๋ก ํ๋ค.
๋ง์ฝ ์์์ ์ ์ํ grid world์ task๊ฐ ์ต๋จ ๊ฑฐ๋ฆฌ๋ก destination์ ๋๋ฌํ๋ ๊ฒ์ด๋ผ๋ฉด Figure 04์์ ํน์ ํ๋์ ์ทจํ์์๋ ์ ์๋ฆฌ๋ก ๋์์ค๋ ๊ฒฝ์ฐ๋ ์์ ๋ณด์์ ์ฃผ์ด์ผ ๋ง๋ ํ ๊ฒ์ด๋ค. ์ ์์ ์ผ๋ก ์ค๊ณ๋ ํ๊ฒฝ ๋ฐ reward function์ด๋ผ๋ ๊ฐ์ ํ์ Figure 04์ ํ๋์ ์ทจํ ๊ฒฝ์ฐ -2์ ๋ณด์์ ๋ฐ์๋ค๊ณ ๊ฐ์ ํ์. ๋ํ ํ๋์ ์ทจํ์ ๋ state์ ๋ณํ๊ฐ ์กด์ฌํ๋ฉฐ, destination์ ๋๋ฌํ์ง ์์๋ค๋ฉด 0์ ๋ณด์์ ๋ฐ์๋ค๊ณ ๊ฐ์ ํด๋ณด์. ์ฆ initial state (S)์์ agent๊ฐ ๋ฐ์ ์ ์๋ ํ๋๋ณ reward๋ ๋ค์๊ณผ ๊ฐ๋ค.

๋ง์ฝ agent๊ฐ initial state์์ ๋ค์ ์์ํ๊ฒ ๋๋ค๋ฉด ์, ํ, ์ข action ๋์ ์ฐ action์ ์ทจํ๊ฒ ๋ ๊ฒ์ด๋ค. Figure 04-05์ ๊ณผ์ ์ ํตํด action "์ฐ"๊ฐ ๋ ์ข์ reward๋ฅผ ๋ฐ์ ์ ์๋ค๋ ์ฌ์ค์ ์์๊ธฐ ๋๋ฌธ์ด๋ค.
๋ค์ agent์ ์ ์ฅ์ผ๋ก ๋์๊ฐ์ (3,1) ์ขํ์์ ์, ํ, ์ข, ์ฐ action์ ์ทจํด๋ณด์. ์ค๋ฅธ์ชฝ์ผ๋ก ๊ฐ๋ ํ๋์ ์ทจํ์ ๋ state์ ๋ณํ ์์ด ์ ์๋ฆฌ๋ก ๋์์๊ณ ๋๋จธ์ง๋ ์์น ๋ณํ๊ฐ ์์๋ค๋ฉด ๋ค์๊ณผ ๊ฐ์ด unseen state๋ฅผ ๊ฐ์ฒํ ์ ์์ ๊ฒ์ด๋ค.

Figure 07์ ์ดํด๋ณด๋ฉด ํ๋ "์ฐ"์ ๋ํด์ -2์ reward๋ฅผ, ๋๋จธ์ง actions์ ๋ํด์๋ 0์ reward๋ฅผ ๋ฐ์์ ์ ์ ์๋ค. Agent ์ ์ฅ์์ destination์ ๋๋ฌํ๊ธฐ ์ํด์ ์๋ก ๊ฐ๋ ๊ธธ๊ณผ ์๋๋ก ๊ฐ๋ ๊ธธ ๋ ๊ฐ์ง๊ฐ ์๋ค๋ ๊ฒ์ ํ์ ํ ์ ์๋ค.
์ถ๊ฐ๋ก Figure 07 ์๋ฅผ ํตํด์ reward function์ ์ค๊ณ๊ฐ agent์ ํจ์จ์ฑ ๋ฐ ์ฑ๋ฅ์ ์ํฅ์ ์ค๋ค๋ ์ฌ์ค์ ์ ์ ์๋ค. ๋ง์ฝ ๊ธฐ์กด์ ๋ฐฉ๋ฌธํ state๋ฅผ ๋ค์ ๋์๊ฐ์ ๊ฒฝ์ฐ ์์ penalty๊ฐ ์๋ค๋ฉด (3,1)์ state์์ action "์ข"๋ฅผ ๊ฑฐ๋ฅผ ์ ์์ด ๋ณด๋ค ํจ์จ์ ์ธ ํ์์ด ๊ฐ๋ฅํ์ ๊ฒ์ด๋ค.
(์์ฑ์ค)
Last updated
Was this helpful?