while(1) work();
반응형
본 게시글은 KUEE 정보공개 프로젝트에 포함된 글입니다.
https://blog.youhogeon.com/65

본 자료의 저작권은 모두 저에게 있으며
학업에 참고 자료로만 사용하시길 바랍니다.
부득이하게 인용해야 하는 경우 반드시 출처(KUEE 정보공개 프로젝트)와 링크를 남겨주시길 바랍니다.

1.pdf
0.17MB

1. [기초 지식 확인] 강화학습 기술이 미래 모빌리티 기술에 많이 사용된다고 수업 시간에 언급했습니다. 해당 기술이 어떤 특징이 있길래 미래 모빌리티 기술에 사용된다고 했을까 요? 강화학습은 어떠한 ‘행동’(action)을 했을 때 ‘보상’(reward)를 얻는 에이전트가 ‘주어진 환경’에 서 선택 가능한 행동들 중 보상을 극대화하는 행동을 선택하도록 하여 결과적으로 최적의 해를 얻을 수 있도록 하는 기계 학습 방법이다. 강화학습을 통해 기계를 학습시키기 위해서는 에이전트의 행동에 대한 보상을 어떻게, 얼마나 지급 할 것 인지에 대한 기준이 필요하다. 또한 강화학습은 최적의 해(결과)만을 알 수 있는 것이 아니라, 해를 찾기 위한 과정까지도 파악할 수 있다. (미래 혹은 현재의) 모빌리티 기술은 ‘최적의 해’의 기 준이 명확하고, 보상을 쉽게 정의할 수 있기 때문에 강화학습을 적용하기에 매우 적절하다. 또한 이 러한 강화학습의 특징들은 미래 모빌리티 자체를 넘어, 미래 모빌리티가 활성화 되기 위해 필요한 미 래의 모빌리티 인프라에 사용하기도 매우 적합하다. 미래의 모빌리티를 대표하는 가장 큰 요소중 하나는 자율주행 기술이다. 자율주행 기술은 목적지까 지의 최적의 경로를 찾는 기술과, 적절한 차선, 속도 등을 찾아 외부와의 충돌 없이 안전하게 차량을 조작하는 기술로 나누어 볼 수 있다. 경로를 찾음에 있어서 최적의 해는 목적지까지 얼마나 빠르게 (혹은 얼마나 적은 비용으로) 도달할 수 있는지가 될 것이다. 이 때 보상은 길을 선택했을 때 목적 지까지 걸리는 시간(또는 비용)이 얼마나 줄어드는지를 통해 명확하게 결정할 수 있다. 또한 환경(교 통 상황, 보행자, 현재 위치와 속도 등)이 주어졌을 때 목적지까지 차를 조작하는 과정을 강화학습을 통해 결정할 수 있다. 더불어, 미래의 도로는 토지의 효율적인 활용을 위해 단순화(직선화)되고 지하화 될 가능성이 높 다. 이는 우리나라의 지하화 사례(서부·동부간선도로, 경부고속도로 지하화 등)나 해외의 하이퍼루프 등의 사례를 통해 확인할 수 있다. 이러한 도로 환경의 변화는 에이전트의 ‘주어진 환경’이 단순화되 기 때문에 에이전트가 더 효율적으로 학습할 수 있는 여건을 만드는데 유리하다. 마지막으로, 미래 모빌리티가 동작하는 인프라에도 강화학습이 사용될 수 있다. 미래 모빌리티를 사용하기 위해서는 충전 시설, 교통 시스템 등의 인프라가 필요하다. 미래 모빌리티는 전기나 수소 같은 친환경 에너지를 이용해 작동하는데, 이러한 에너지의 저장에는 많은 비용이 필요하다. 따라서 에너지의 저장량을 줄이고 수요에 맞게 에너지를 공급하는 기술이 필요하다. 수요의 예측은 경제학 측면에서도 매우 어려운 분야인데, 이를 환경(에너지 공급 가격, 현재의 수요 등)과 보상(낭비된 에 너지량 등)을 적절히 선택하여 강화학습을 통해 예측할 수 있다. 또, 미래의 교통 시스템에도 강화학습의 사용은 매우 적절하다. 도로가 능동적으로 사고 여부를 판 단해 모빌리티 에이전트에게 상황을 전달하거나, 모빌리티 에이전트와의 통신을 통해 교통 체증을 줄 이기 위한 최적의 신호를 결정하는데에 강화학습을 사용할 수 있다. 미래모빌리티기술 레포트 1 2. [기초 지식 응용 가능성 확인] 본인이 강화학습을 써서 자율이동체(드론이나 드론 택시 나 뭐든 상관없습니다.)을 위한 알고리즘을 만든다면 어떤 알고리즘이 있을까요? Action과 Reward를 명확히 정의하시기 바랍니다. 강화학습을 자율이동체에 직접적으로 적용하는 방법도 있지만, 저는 자율이동체를 위한 미래의 모 빌리티 인프라에 강화학습 알고리즘을 접목시키고자 합니다. 자율이동체가 활성화 되기 위해서는 수 소나 전기 등의 자율이동체 충전 인프라, 자율이동체 간의 충돌을 방지하기 위한 신호 인프라, 자율 이동체의 물리적 이동 경로인 도로(항공) 인프라 등이 필요합니다. 이 중에서 본 과제에서는 자율이 동체 전기 충전 인프라를 위한 알고리즘을 구상하고자 합니다. 전기 에너지의 저장 비용은 비쌀 뿐 아니라 저장을 위해서는 거대한 설비가 필요합니다. 따라서 적정량의 에너지만을 저장하기 위한 기술이 필요합니다. 더불어, 전기 요금은 시간대별로 상이하기 때문에 저렴한 시간에 전기를 구매해 저장해두는 것이 경제적입니다. 이러한 수요에 따른 전력 구매 스케줄링을 강화학습으로 구현할 수 있습니다. 먼저, 시간에 대한 자율이동체의 충전량(소비량)을 라고 정의합니다. 그리고 action은 {전력저 장, 시스템 미가동, 전력방출}로 정의할 수 있습니다. 전력저장은 보다 더 많은 양의 전력을 구 매해 전력 저장 시스템에 남은 양을 저장하는 action이고, 시스템 미가동은 저장 시스템 없이,  만큼의 전력을 구매해 자율이동체에 곧바로 공급하는 action이며, 전력방출은 보다 적은 양의 전력을 구매해 구매전력과 전력 저장 시스템에 저장해둔 전력을 합쳐서 공급한다는 의미입니다. Reward를 전력 구매에 사용하는 비용(원가)으로 정의한다면, 강화학습을 통해 reward의 누적값 이 최소화되는 선택을 하도록 모델을 구상할 수 있습니다. 시간에 따른 전력 원가를 라고 하고, 시스템의 단위 시간당 충·방전량을  라고 정의한다면 각 action에 따른 reward를 정의할 수 있습 니다. 먼저 전력저장 action의 경우, 저장시스템과 자율이동체의 충전전력의 비용 합이 reward가 되 는데, 이는  ×   와 같이 나타낼 수 있습니다. 또, 시스템 미가동 action의 경우 자율 이동체만이 충전을 하므로 ×  와 같이 reward를 나타낼 수 있습니다. 마지막으로 전력방출 action의 경우 reward는 × min    이 됩니다. 다만 전력 저장 시스템의 저장 용량에는 한계가 있기 때문에 이 용량을 넘어서는 경우 전력저장 action이 선택될 수 없고, 전력 저장 시스템의 저장 용량이 없을 때는 전력방출 action을 택할 수 없기 때문에 아래와 같이 reward를 변경해주어야 강화학습 모델이 정상적으로 작동할 수 있습니다.       전력저장 시스템미가동 전력방출         ∞ 저장용량가득찬경우 ×      if   전력저장 ×  if   시스템미가동  ∞ 저장용량이인경우 × min      if   전력방출 이러한 효율적인 전력 저장 강화학습 모델을 통해 자율이동체의 충전 인프라를 개선할 수 있으며, 궁극적으로 자율이동체의 충전 비용을 낮추는 효과가 발생할 수 있을 것입니다. 더불어 이러한 충전 비용의 감소는 자율이동체가 활성화되는데 기여할 수 있을 것입니다. 3. [아이디어 깜짝 문제] 만약에 타임슬립이 가능한 UAM이 만들어졌다고 합시다. 어떤 서 비스가 가능할까요? 타임슬립이 가능한 UAM이 만들어져 모두가 이용할 수 있게 된다면 사회적 혼란이 발생할 것으로 예상된다. 미래로 이동한 사람들은 미래의 정보를 이용해 현재를 바꾸려고 시도할 것이고, 과거로 이 동한 사람들은 과거를 바꾸어 결과적으로 ‘현재’라는 것이 사라지고 ‘새로운 현재’가 만들어지는 불상 사가 일어날 것이다. 따라서 먼저 타임슬립을 할 수 있는 사람에 제한을 두는 것이 필요하다. 만약 타임슬립이 가능한 UAM 기술을 내가 가지고 있다면, ‘잘 훈련된’ 에이전트(과거를 변화시키거나 미 래의 정보를 악용하지 않는 이상적인 에이전트)만이 타임 슬립을 할 수 있도록 기술을 통제한다고 가정한다. 본 문항에 대한 답을 작성하기 위해 주변 사람들에게 ‘수요 조사’를 실시하였다. 타임슬립 서비스 를 받을 수 있다면 어떤 일을 하고 싶냐는 조사의 질문에, 대부분의 사람들은 미래 정보(주식 등의 정보)를 이용해 현재를 바꾸고자 하였다. 이러한 의견들은 첫 문단에서의 가정에 어긋나기 때문에 배 제하고 가정을 해치지 않는 의견들을 수렴한 결과 아래의 서비스 들을 제공할 수 있을 것으로 판단 했다.

반응형
profile

while(1) work();

@유호건

❤️댓글은 언제나 힘이 됩니다❤️ 궁금한 점이나 잘못된 내용이 있다면 댓글로 남겨주세요.

검색 태그