In januari 2020 begon ik aan mijn afstudeerproject voor de master Systems & Control. De opdracht was om een nieuwe veilige valcontroller te ontwikkelen voor een exoskelet voor de onderbenen, gebruikmakend van een optimale regeltechniek. Ik was vrij om de optimale regeltechniek te kiezen, dus, grotendeels op basis van persoonlijke interesse, besloot ik om Reinforcement Learning als de optimale regeltechniek te kiezen.
Het probleem dat werd aangepakt, was gerelateerd aan het toekomstige gebruik van het onderbeenexoskelet, aangezien de meeste exoskeletten momenteel worden gebruikt met een veiligheidsmechanisme (bijvoorbeeld krukken). Dit betekent dat de veilige valcontroller voornamelijk verantwoordelijk is voor zo voorspelbaar en gemakkelijk mogelijk te zijn om te vangen. Dit betekent echter dat deze veilige valcontrollers sterk afhankelijk zijn van de veiligheidsmechanismen om het mens-exoskelet-systeem daadwerkelijk op te vangen, en zonder deze mechanismen is een harde impact te verwachten. In de toekomst is het echter zeer waarschijnlijk dat de exoskeletten voornamelijk zonder externe veiligheidsmechanismen worden gebruikt, en dat de veilige valcontroller verantwoordelijk is voor het minimaliseren van schade als het exoskelet zichzelf niet kan balanceren. Het creëren van deze veilige valcontroller is het doel van deze opdracht geweest.
Zoals eerder genoemd, is deze veilige valcontroller ontwikkeld met behulp van Reinforcement Learning. Hiervoor is een simulatieomgeving gecreëerd om een Soft Actor-Critic Reinforcement Learning algoritme op te trainen. Het beloningssignaal waarop het algoritme werd getraind, was gebaseerd op vier maatregelen voor een goede valstrategie, die werden gevonden door literatuuronderzoek naar het vallen van mensen en humanoïden. Met behulp van deze simulatie werden twee controllers ontwikkeld: een voorwaartse en een achterwaartse valcontroller. Deze valcontrollers werden vervolgens geëvalueerd met een set testgevallen waarin de beginposities werden ingesteld op verschillende randgevallen. Ten eerste kwalitatief door visuele inspectie met een set evaluatiecriteria en ten tweede kwantitatief door de impactkrachten en snelheden van de verschillende lichaamssegmenten te vergelijken met een “vergrendelings”-valcontroller (die momenteel in sommige onderbeenexoskeletten wordt gebruikt). Deze evaluaties toonden aan dat de gemaakte controllers de hoofdimpact aanzienlijk verlaagden, zowel in aantal keren als in impactkracht en snelheid als het hoofd werd geraakt. De achterwaartse valcontroller voorkwam zelfs volledig de hoofdimpact tijdens alle testgevallen.
Tijdens dit afstudeerproject heb ik geleerd om zelfstandig te werken en gemotiveerd te blijven, vooral vanaf het begin van de coronacrisis, aangezien al het werk vanuit huis moest worden gedaan. Daarnaast heb ik geleerd om Reinforcement Learning te gebruiken, aangezien ik dit nooit eerder had toegepast.