강화 학습 - 자율 기계를 위한 지능적 의사결정 마스터링
Fouad Sabry
Translator Baek Hyun
Publisher: 10 억 지식이 걸립니다 [Korean]
Summary
빠르게 진화하는 로봇공학 분야에서 강화 학습은 자율 시스템을 구축하는 가장 유망한 방법 중 하나로 자리 잡고 있습니다. 이 책인 강화 학습은 이 강력한 기술에 대한 심층적인 탐구를 제공하며, 독자들에게 기본 원리에서 최신 발전 사항까지 안내합니다. 전문가, 대학원생, 애호가 모두에게 적합한 이 책은 로봇공학의 맥락에서 강화 학습을 이해하는 데 자세하면서도 접근하기 쉬운 접근 방식을 제공합니다. 장 간략한 개요: 1: 강화 학습: 자율 시스템에서의 강화 학습의 역할을 강조하면서 강화 학습의 핵심 개념을 소개합니다. 2: 마르코프 결정 과정: 불확실성 하에서 의사 결정을 위한 수학적 프레임워크를 설명하며, 이는 강화 학습의 핵심 기반입니다. 3: 시간적 차이 학습: 환경 모델이 필요 없이 경험으로부터 학습하는 방법을 탐구합니다. 4: 벨만 방정식: 많은 강화 학습 알고리즘의 기반이 되는 중요한 재귀적 관계를 논의합니다. 5: 큐러닝: 환경 모델 없이 최적의 행동을 학습하는 오프정책 강화 학습 알고리즘에 초점을 맞춥니다. 6: 멀티암드 밴딧: 불확실한 환경에서 의사 결정을 모델링하는 더 간단한 강화 학습 문제를 다룹니다. 7: 부분적으로 관찰 가능한 마르코프 결정 프로세스: 숨겨진 상태를 통합하여 기존 마르코프 결정 프로세스를 확장합니다. 8: 기틴스 인덱스: 멀티암드 밴딧 문제에서 탐색과 활용을 균형 있게 조절하는 전략을 소개합니다. 9: 상태-행동-보상-상태-행동: 의사 결정 전략에 정보를 제공하는 강화 학습의 시간적 패턴을 탐구합니다. 10: 프로토가치 함수: 학습의 효율성을 높이는 데 도움이 되는 가치 함수를 근사하는 방법을 탐구합니다. 11: 자동 기반 함수 구성: 학습 효율성을 개선하기 위해 기능을 구성하는 자동 방법에 초점을 맞춥니다. 12: 평균장 게임 이론: 대규모 다중 에이전트 시스템에서 상호 작용을 모델링하기 위한 프레임워크를 논의합니다. 13: 다중 에이전트 경로 찾기: 여러 에이전트가 목적지에 효율적으로 도달하도록 조정하는 알고리즘을 소개합니다. 14: 모델 프리(강화 학습): 학습을 위해 환경 모델에 의존하지 않는 방법을 논의합니다. 15: 심층 강화 학습: 복잡하고 고차원적인 환경을 처리하기 위해 심층 학습과 강화 학습을 결합합니다. 16: 다중 에이전트 강화 학습: 여러 상호 작용 에이전트가 있는 환경에서 학습하기 위한 전략에 중점을 둡니다. 17: 셀프 플레이: 고급 학습 전략의 중요한 구성 요소인 에이전트가 스스로와의 경쟁을 통해 학습하는 개념을 탐구합니다. 18: 근접 정책 최적화: 안정성과 성능이 향상된 강화 학습에서 정책을 최적화하기 위한 알고리즘을 소개합니다. 19: 탐색-활용 딜레마: 새로운 전략의 탐색과 알려진 전략의 활용을 균형 있게 조절하는 근본적인 과제를 논의합니다. 20: 인간 피드백을 통한 강화 학습: 인간의 입력을 사용하여 강화 학습을 개선하는 방법을 살펴봅니다. 21: 모방 학습: 에이전트가 인간 전문가의 행동을 모방하여 학습하는 기술에 초점을 맞춥니다. 강화 학습은 단순한 기술 가이드가 아니라 자율 시스템이 광범위한 환경에서 어떻게 적응하고 결정을 내릴 수 있는지 이해하는 데 필수적인 리소스입니다. 로봇 전문가, 학생 또는 취미인이든 이 책은 강화 학습을 마스터하고 실제 로봇 시스템에 적용하는 데 필요한 지식을 제공하는 통찰력을 제공합니다.