Elements of reinforcement learning

๊ฐ•ํ™”ํ•™์Šต ๊ธฐ๋ณธ ์š”์†Œ

๊ฐ•ํ™”ํ•™์Šต์—์„œ ๊ฐ€์žฅ ์ค‘์š”ํ•œ setting์€ state, action, reward์ด๋‹ค. Action์˜ ๊ฒฝ์šฐ ์ฃผ์–ด์ง„ ํ™˜๊ฒฝ์— ๋”ฐ๋ผ์„œ ์ž์—ฐํžˆ ๊ฒฐ์ •๋˜๋Š” ๊ฒฝ์šฐ๊ฐ€ ๋งŽ์œผ๋‚˜ state์™€ reward๋Š” ๋‹ค๋ฅด๋‹ค. ๋™์ผํ•œ ํ™˜๊ฒฝ, ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด์—ฌ๋„ state feature ๊ตฌ์„ฑ๊ณผ reward function์˜ ์„ค๊ณ„์— ๋”ฐ๋ผ ์ƒ์ดํ•œ ๊ฒฐ๊ณผ๋ฅผ ๊ฐ€์ ธ์˜จ๋‹ค. ๋‹ค์Œ ๊ธ€์„ ํ†ตํ•ด state, action, reward์˜ ์ •์˜๋ฅผ ์•Œ์•„๋ณด๋„๋ก ํ•˜์ž.

State

State (์ƒํƒœ)๋Š” ๊ฐ•ํ™”ํ•™์Šต์—์„œ ํ–‰์œ„์˜ ์ฃผ์ฒด์ธ agent๊ฐ€ ์ฒ˜ํ•ด์žˆ๋Š” ์ƒํ™ฉ์„ ๋งํ•˜๋ฉฐ ํ–‰๋™์„ ์ทจํ•  ๋•Œ ์‚ฌ์šฉ๋˜๋Š” ์ •๋ณด์ด๋‹ค. ์•ž์˜ ์ž์œจ์ฃผํ–‰ agent์˜ ๊ฒฝ์šฐ ์ „๋ฐฉ ์นด๋ฉ”๋ผ์— ๋‹ด๊ธด ๋„๋กœ์˜ ์ƒํ™ฉ, ์•ž,๋’ค ์„ผ์„œ๋ฅผ ํ†ตํ•œ ์ฃผ์œ„ ์ž๋™์ฐจ์˜ ์ˆ˜, ๋‹น์ผ ๋‚ ์”จ ์ •๋ณด ๋“ฑ์ด state๊ฐ€ ๋  ์ˆ˜ ์žˆ๋‹ค. ์ด์™€ ๊ฐ™์€ state๋Š” agent์—๊ฒŒ ์ฃผ์–ด์ง€๋Š” ์ •๋ณด๊ธฐ ๋•Œ๋ฌธ์— ์–ด๋–ป๊ฒŒ ๊ตฌ์„ฑํ•˜๋А๋ƒ์— ๋”ฐ๋ผ์„œ ๋™์ผํ•œ ์•Œ๊ณ ๋ฆฌ์ฆ˜๋„ ์„ฑ๋Šฅ ์ฐจ์ด๋ฅผ ๋ณด์ผ ์ˆ˜ ์žˆ๋‹ค.

State์— ๋”ฐ๋ผ์„œ agent๋Š” ์„ธ์ƒ์„ ์–ด๋–ป๊ฒŒ ๋ฐ”๋ผ๋ณผ๊นŒ? ๋‹ค์Œ ์˜ˆ๋ฅผ ํ†ตํ•ด์„œ agent์˜ ์ž…์žฅ์— ํ•œ ๋ฐœ์ž๊ตญ ๋‹ค๊ฐ€๊ฐ€๋ณด์ž. ์—ฌ๋Ÿฌ๋ถ„์€ Figure 02๋ฅผ ๋ณด๊ณ  ๊ณผ์—ฐ ๋ฌด์Šจ ๋ฌธ์ œ๋ฅผ ํ‘ธ๋Š” ๊ฒƒ์ธ์ง€ ์•Œ ์ˆ˜ ์žˆ๊ฒ ๋Š”๊ฐ€?

Figure 02: agent in environment

๋ฌด์—‡์„ ํ•˜๊ณ ์ž ํ•˜๋Š”์ง€ ์ •ํ™•ํžˆ ์•Œ ์ˆ˜ ์—†๋‹ค. ๋‹จ ํ˜„์žฌ agent๊ฐ€ S์— ์œ„์น˜ํ•˜์—ฌ ์žˆ๋‹ค๋Š” ๊ฒƒ์„ ์ ˆ๋Œ€์ขŒํ‘œ(3,0)๋ฅผ ํ†ตํ•ด ์•Œ ์ˆ˜ ์žˆ์„ ๋ฟ์ด๋‹ค. ๊ทธ๋ ‡๋‹ค๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™์ด state๋ฅผ ์ถ”๊ฐ€ํ•ด๋ณด์ž.

Figure 03: agent in environment

Figure 03์€ D์˜ ์ ˆ๋Œ€ ์ขŒํ‘œ๊ฐ€ ์ถ”๊ฐ€ ๋˜์—ˆ์„ ๋•Œ์˜ ๋„ํ‘œ์ด๋ฉฐ state๋ฅผ ํ•˜๋‚˜์˜ vector๋กœ ํ‘œ๊ธฐํ•˜๋ฉด FsF_{s}์™€ ๊ฐ™๋‹ค. ์‚ฌ๋žŒ์˜ ๊ฒฝ์šฐ ์ง๊ฐ์ ์œผ๋กœ 'ํ˜„์žฌ ํ™˜๊ฒฝ์€ grid world์ธ๋ฐ S์—์„œ ์‹œ์ž‘ํ•˜์—ฌ D์— ๋„์ฐฉํ•˜๋Š”๊ฒŒ ๋ชฉํ‘œ์ธ๊ฐ€?'๋ผ๋Š” ์ƒ๊ฐ์— ๋„๋‹ฌํ•  ์ˆ˜ ์žˆ์œผ๋‚˜ agent๋Š” ๊ทธ๋ ‡์ง€ ์•Š๋‹ค. ์„ค๋ น agent๊ฐ€ ์ด๋ฅผ ํŒŒ์•…ํ•˜์˜€๋‹ค ํ•˜๋”๋ผ๋„ ํ˜„์žฌ ์ƒํ™ฉ์—์„œ ์–ด๋–ค action์„ ์ทจํ•ด์•ผ destination์— ๋„๋‹ฌํ•  ์ˆ˜ ์žˆ๋Š”์ง€ ์•Œ์ง€ ๋ชปํ•œ๋‹ค.

Figure 03๊ณผ ๊ฐ™์ด start์˜ ์ ˆ๋Œ€์ขŒํ‘œ์™€ destination์˜ ์ ˆ๋Œ€์ขŒํ‘œ๋งŒ์„ ์ฃผ์–ด์กŒ์„ ๋•Œ, ๋น—๊ธˆ๋œ unseen state๋ฅผ ํ†ต๊ณผํ•˜์—ฌ ๋ชฉ์ ์ง€์— ๋„๋‹ฌํ•˜๊ธฐ ์œ„ํ•ด์„œ ์–ด๋–ค ๊ณผ์ •์„ ๊ฑฐ์ณ์•ผ ํ•˜๋Š”์ง€ ์•Œ์•„๋ณด๋„๋กํ•˜์ž.

Action

Action (ํ–‰๋™)์€ agent๊ฐ€ ํ˜„์žฌ ์ทจํ•  ์ˆ˜ ์žˆ๋Š” ์„ ํƒ์ง€๋ฅผ ๋œปํ•œ๋‹ค. ์ž์œจ์ฃผํ–‰ agent์˜ ๊ฒฝ์šฐ handle ๊ฐ๋„, acceler-ator, brake ๋“ฑ์ด ์กด์žฌํ•  ๊ฒƒ์ด๋ฉฐ ์ฃผ์‹ ํˆฌ์ž agent์˜ ๊ฒฝ์šฐ ๋งค์ˆ˜, ๋งค๋„, ๊ด€๋ง์ด ์žˆ์„ ๊ฒƒ์ด๋‹ค. Figure 04์™€ ๊ฐ™์ด grid world์˜ agent๋Š” ์ƒ, ํ•˜, ์ขŒ, ์šฐ์— ๋Œ€ํ•œ discrete action์ด ์กด์žฌํ•œ๋‹ค๊ณ  ๊ฐ€์ •ํ•ด๋ณด์ž.

๋จผ์ € ๊ฐ€๋Šฅํ•œ ํ–‰๋™ ์ค‘ ์ƒ, ํ•˜, ์ขŒ์— ๋Œ€ํ•œ action์„ ์ทจํ–ˆ๊ณ  ์—ฌ์ „ํžˆ (3,0)์˜ ์œ„์น˜์—์„œ ๋ฒ—์–ด๋‚  ์ˆ˜ ์—†์—ˆ๋‹ค๊ณ  ๊ฐ€์ •ํ•˜์ž. ๊ทธ๋ ‡๊ฒŒ ๋  ๊ฒฝ์šฐ agent๊ฐ€ ๋ฐœ๊ฒฌํ•œ environment๋Š” Figure 04์™€ ๊ฐ™์ด ๋ณ€๊ฒฝ๋˜์—ˆ์„ ๊ฒƒ์ด๋‹ค.

Figure 04: agent in environment

์ด์ œ ํ•˜๋‚˜ ๋‚จ์€ action์ธ "์šฐ"๋ฅผ ํƒํ•ด๋ณด์ž.

Figure 05: agent in environment

๋น—๊ธˆ์œผ๋กœ ํ‘œ๊ธฐ๋œ unseen state์— ๋Œ€ํ•œ ๋ถ€๋ถ„์ด ์ผ๋ถ€ ํ•ด์†Œ๋˜์—ˆ๋‹ค. ์ด์™€ ๊ฐ™์ด ๋ชจ๋“  state๋งˆ๋‹ค ๊ฐ€๋Šฅํ•œ action์„ ์ž„์˜๋กœ ์ง„ํ–‰ํ•˜๊ณ , destination์— ๋„๋‹ฌํ•˜๋Š” ํ–‰๋™์„ ๊ธฐ์–ตํ–ˆ๋‹ค๊ฐ€ ์ด๋ฅผ ๋ฐ˜๋ณตํ•˜๋ฉด ์œ„ task๋Š” ํ’€ ์ˆ˜ ์žˆ์„ ๊ฒƒ์œผ๋กœ ๋ณด์ธ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜ ๋ชจ๋“  action์„ ์ž„์˜๋กœ ํƒํ•˜๋Š” ๋Œ€์‹  agent๊ฐ€ ์ทจํ•œ ํ–‰๋™์— ๋Œ€ํ•ด์„œ ๊ฐ€์น˜๋ฅผ ํ‰๊ฐ€ํ•˜๊ณ  ๋” ๋†’์€ ๊ฐ€์น˜๋ฅผ ๋ณด์ด๋Š” action๋งŒ์„ ์ทจํ•œ๋‹ค๋ฉด ๋ณด๋‹ค ํšจ์œจ์ ์œผ๋กœ task๋ฅผ ํ’€ ์ˆ˜ ์žˆ์„ ๊ฒƒ์œผ๋กœ ๋ณด์ธ๋‹ค. ์ด๋ฅผ ์œ„ํ•ด ํ•„์š”ํ•œ ๊ฐœ๋…์ด reward์ด๋‹ค.

Reward

Reward (๋ณด์ƒ)์€ agent๊ฐ€ ์ทจํ•œ ํ–‰๋™์˜ ์ข‹๊ณ  ๋‚˜์จ์„ ํ‰๊ฐ€ํ•˜๋Š” ๊ธฐ์ค€์œผ๋กœ state์™€ ๋งˆ์ฐฌ๊ฐ€์ง€๋กœ ์‚ฌ๋žŒ์ด ์„ค๊ณ„ํ•˜๋Š” ๊ฐ’์ด๋‹ค. ๊ฐ•ํ™”ํ•™์Šต agent๊ฐ€ ํ•™์Šตํ•  ์ˆ˜ ์žˆ๋Š” ์œ ์ผํ•œ ์ •๋ณด์— ํ•ด๋‹นํ•˜๋ฉฐ ๋ชจ๋“  ๊ฐ•ํ™”ํ•™์Šต ์•Œ๊ณ ๋ฆฌ์ฆ˜์€ ์ด reward๋ฅผ ์ตœ๋Œ€ํ™”ํ•˜๋Š” ๊ฒƒ์„ ๋ชฉํ‘œ๋กœ ํ•œ๋‹ค.

๋งŒ์•ฝ ์œ„์—์„œ ์ œ์‹œํ•œ grid world์˜ task๊ฐ€ ์ตœ๋‹จ ๊ฑฐ๋ฆฌ๋กœ destination์— ๋„๋‹ฌํ•˜๋Š” ๊ฒƒ์ด๋ผ๋ฉด Figure 04์—์„œ ํŠน์ • ํ–‰๋™์„ ์ทจํ–ˆ์Œ์—๋„ ์ œ์ž๋ฆฌ๋กœ ๋Œ์•„์˜ค๋Š” ๊ฒฝ์šฐ๋Š” ์Œ์˜ ๋ณด์ƒ์„ ์ฃผ์–ด์•ผ ๋งˆ๋•…ํ•  ๊ฒƒ์ด๋‹ค. ์ •์ƒ์ ์œผ๋กœ ์„ค๊ณ„๋œ ํ™˜๊ฒฝ ๋ฐ reward function์ด๋ผ๋Š” ๊ฐ€์ •ํ•˜์— Figure 04์˜ ํ–‰๋™์„ ์ทจํ•  ๊ฒฝ์šฐ -2์˜ ๋ณด์ƒ์„ ๋ฐ›์•˜๋‹ค๊ณ  ๊ฐ€์ •ํ•˜์ž. ๋˜ํ•œ ํ–‰๋™์„ ์ทจํ–ˆ์„ ๋•Œ state์˜ ๋ณ€ํ™”๊ฐ€ ์กด์žฌํ•˜๋ฉฐ, destination์— ๋„๋‹ฌํ•˜์ง€ ์•Š์•˜๋‹ค๋ฉด 0์˜ ๋ณด์ƒ์„ ๋ฐ›์•˜๋‹ค๊ณ  ๊ฐ€์ •ํ•ด๋ณด์ž. ์ฆ‰ initial state (S)์—์„œ agent๊ฐ€ ๋ฐ›์„ ์ˆ˜ ์žˆ๋Š” ํ–‰๋™๋ณ„ reward๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™๋‹ค.

Figure 06: reward per actions

๋งŒ์•ฝ agent๊ฐ€ initial state์—์„œ ๋‹ค์‹œ ์‹œ์ž‘ํ•˜๊ฒŒ ๋œ๋‹ค๋ฉด ์ƒ, ํ•˜, ์ขŒ action ๋Œ€์‹  ์šฐ action์„ ์ทจํ•˜๊ฒŒ ๋  ๊ฒƒ์ด๋‹ค. Figure 04-05์˜ ๊ณผ์ •์„ ํ†ตํ•ด action "์šฐ"๊ฐ€ ๋” ์ข‹์€ reward๋ฅผ ๋ฐ›์„ ์ˆ˜ ์žˆ๋‹ค๋Š” ์‚ฌ์‹ค์„ ์•Œ์•˜๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค.

๋‹ค์‹œ agent์˜ ์ž…์žฅ์œผ๋กœ ๋Œ์•„๊ฐ€์„œ (3,1) ์ขŒํ‘œ์—์„œ ์ƒ, ํ•˜, ์ขŒ, ์šฐ action์„ ์ทจํ•ด๋ณด์ž. ์˜ค๋ฅธ์ชฝ์œผ๋กœ ๊ฐ€๋Š” ํ–‰๋™์„ ์ทจํ–ˆ์„ ๋•Œ state์˜ ๋ณ€ํ™” ์—†์ด ์ œ์ž๋ฆฌ๋กœ ๋Œ์•„์™”๊ณ  ๋‚˜๋จธ์ง€๋Š” ์œ„์น˜ ๋ณ€ํ™”๊ฐ€ ์žˆ์—ˆ๋‹ค๋ฉด ๋‹ค์Œ๊ณผ ๊ฐ™์ด unseen state๋ฅผ ๊ฐœ์ฒ™ํ•  ์ˆ˜ ์žˆ์„ ๊ฒƒ์ด๋‹ค.

Figure 07: agent in environment

Figure 07์„ ์‚ดํŽด๋ณด๋ฉด ํ–‰๋™ "์šฐ"์— ๋Œ€ํ•ด์„œ -2์˜ reward๋ฅผ, ๋‚˜๋จธ์ง€ actions์— ๋Œ€ํ•ด์„œ๋Š” 0์˜ reward๋ฅผ ๋ฐ›์Œ์„ ์•Œ ์ˆ˜ ์žˆ๋‹ค. Agent ์ž…์žฅ์—์„œ destination์— ๋„๋‹ฌํ•˜๊ธฐ ์œ„ํ•ด์„œ ์œ„๋กœ ๊ฐ€๋Š” ๊ธธ๊ณผ ์•„๋ž˜๋กœ ๊ฐ€๋Š” ๊ธธ ๋‘ ๊ฐ€์ง€๊ฐ€ ์žˆ๋‹ค๋Š” ๊ฒƒ์„ ํŒŒ์•…ํ•  ์ˆ˜ ์žˆ๋‹ค.

์ถ”๊ฐ€๋กœ Figure 07 ์˜ˆ๋ฅผ ํ†ตํ•ด์„œ reward function์˜ ์„ค๊ณ„๊ฐ€ agent์˜ ํšจ์œจ์„ฑ ๋ฐ ์„ฑ๋Šฅ์— ์˜ํ–ฅ์„ ์ค€๋‹ค๋Š” ์‚ฌ์‹ค์„ ์•Œ ์ˆ˜ ์žˆ๋‹ค. ๋งŒ์•ฝ ๊ธฐ์กด์— ๋ฐฉ๋ฌธํ•œ state๋ฅผ ๋‹ค์‹œ ๋Œ์•„๊ฐ”์„ ๊ฒฝ์šฐ ์Œ์˜ penalty๊ฐ€ ์žˆ๋‹ค๋ฉด (3,1)์˜ state์—์„œ action "์ขŒ"๋ฅผ ๊ฑฐ๋ฅผ ์ˆ˜ ์žˆ์–ด ๋ณด๋‹ค ํšจ์œจ์ ์ธ ํƒ์ƒ‰์ด ๊ฐ€๋Šฅํ–ˆ์„ ๊ฒƒ์ด๋‹ค.

(์ž‘์„ฑ์ค‘)

Last updated

Was this helpful?