End-To-End AI

AI for Prosthetics 6주차: 강화학습 실전 기술

이번 주에는 대회에서 조금 벗어나서, 강화학습 연구 등에서 많이 쓰이는 실전 기술에 대해서 알아보자.

AI for Prosthetics 5주차: Reward 이해하기

강화학습의 목표는 reward signal (보상 신호)로 정의된다. 에이전트의 목표는 한 에피소드에서 총 reward를 최대화하는 것이다. 어떻게 보면, 보상은 환경 중 에이전트에게 가장 중요한 부분이다. 에이전트가 state (상태) 나 action (행동) 의 value (가치) 에 대해 잘 몰라도, 만약 높은 return (총 보상) 을 꾸준히 받는다면, 그 에이전트는 좋은 에이전트이기 때문이다.

AI for Prosthetics 3-4주차: Observation Space 이해하기

Observation 은 크게 신체 부위, 관절, 근육, 힘, 무게중심 이렇게 5가지로 나눌 수 있다. 각 신체 부위마다 위치, 속도, 가속도, 각도, 각속도, 각가속도를 관측할 수 있고, 비슷하게, 각 관절마다 위치, 속도, 가속도를 관측할 수 있다. 또, 각 근육마다 activation, fiber force, fiber length, fiber velocity를 관측할 수 있고, 힘들은 신체 부위에 작용하는 힘들을 관측한 것을 나타낸다. 마지막으로, 무게중심 역시 위치, 속도, 그리고 가속도를 관측할 수 있다.

AI for Prosthetics 2주차: Action Space 이해하기

저번 주에, 우리는 한 Action (행동)이 0과 1 사이의 19개의 숫자로 이루어져 있는 것을 발견하였다. 이 19개의 숫자는 각 근육에 어느 정도의 힘을 줄 것인지를 나타내었다. 나는 근육이 어떤 방식으로 작동하는지 전혀 모르므로, 각각의 근육에 힘을 주고 그것이 모델에 어떤 영향을 미치는지 알아보았다.

AI for Prosthetics 1주차: 대회 이해하기

AI for Prosthetics 대회는 2018년 NIPS 대회 중 하나로, 의족이 달린 3D 모델을 뛰게 하는 에이전트를 개발해는 것이 참가자들의 목적이다. 이 대회는 2017년의 Learning to Run 대회의 연장선상에 있으며, 작년 대회에서부터 크게 세 가지가 발전되었다.