Blir 2024 året för förkroppsligad AI?

2023 var det stora genombrottsåret för generativ AI – med ibland övermänsklig och kreativ förmåga att skapa och analysera texter och bilder, till och med video.

Många förutser att 2024 blir året då vi gör motsvarande genombrott vad gäller förmågan att styra maskiner som rör sig och manipulerar den fysiska världen. Detta har hittills bara lyckats med smala AI-system, designade att klara av väldigt specifika uppgifter. De misslyckas ofta helt när problemet ser lite annorlunda ut än vad de har tränats för. Många tror att 2024 blir året för stora grundmodeller för fysisk robotik. Alltså, en eller ett fåtal stora modeller som kan generera innovativa och ändamålsenliga rörelser på in princip vilken robot eller maskin som helst, få dem att röra sig i ostrukturerade miljöer och ändamålsenligt manipulera sin fysiska omgivning. Är det realistiskt? Och vad skulle det innebära exempelvis för automatiserade skogsmaskiner?

Redan 2022 kopplade vi in en AI i styrsystemet på en skotare på Skogforsks testområde Jälla utanför Uppsala. Vi lät den ta över kontrollen på pendelarmsskotaren XT28. AI:n hade vi tränat i förväg i simulerad miljö på Umeå universitets superdator. Modellen hade genomgått många miljoner träningssteg för lära sambanden mellan styrsignaler, sensordata och vad det säger om maskinens tillstånd i miljön den rör sig samt vilken styrning som är trolig att leda till målluppfyllnad. Det vill säga att säkert och effektivt ta sig fram i ojämn terräng. Nu var den redo att kopplas in och ta över styrningen på den fysiska maskinen. Så vitt vi vet var detta första gången något liknande gjorts på den här typen av maskin.

Resultatet var… helt okej. Långt ifrån perfekt och absolut inte säkert att börja användas. Vi hade lyckats överkomma många av diskrepanserna som finns mellan en simulerad träningsmiljö och den fysiska verkligheten (vilket är ”förvirrande” för AI:n) och därmed visa att metodiken fungerar principiellt. Vi kan, inte utan möda, träna ”smala” AI-modeller att styra enskilda funktioner i simulerad miljö och har nu en metodik för att överföra lösningen till fysiska maskiner.

Bilden visar en simulator för träning och testning av AI-modeller för automatiserad skotning. Bild: Anders Backman, Algoryx Simulation

Nu uppstår två intressanta följdfrågor. Vilka nya smarta förarstöd kan vi skapa redan nu som avlastar maskinföraren i situationer där detta är önskvärt? Där riktar vi nu blicken mot lastning av stockar på timmerbilar vid avlägg.

Den andra frågan är, hur skalbar är denna metodik? Om vi använder mycket större beräkningsresurser och kan träna mycket större modeller, kan vi då nå mänsklig förmåga i att kreativt planera och styra maskinen i de många arbetsuppgifter och varierade förhållande som råder i skogen? Här ska man notera att modellerna vi hittills tränat har någon enstaka miljon modellparameters medan exempelvis OpenAI:s GPT-4 har ca 1 biljon (1012) parameters och har tränats på ansenliga delar av världens samlade böcker och artiklar. Därför ägnar vi nu mycket tid och resurser i Mistra Digital Forest att samla data från maskiner i fält och från alltmer realistiska simulatorer.

Skeptikerna tror inte att det är möjligt att träna generiska grundmodeller för förkroppsligad AI ännu. Ett av argumenten som lyfts fram är att det finns inte nog med träningsdata i världen i förhållande till hur olika maskiner och fysiska situationer kan se ut. Andra argument är att förkroppsligad AI kräver långtidsminne och förmåga till hierarkisk planering, det vill säga bryta ned ett problem i delproblem vilka bryts ned i ännu färre problem osv., men utan att fastna i ovidkommande detaljer. Motargumenten slutar i att modellerna kräver mer energi att tränas och användas än vad mänskligheten kan sätta av – detta då kopplat till nuvarande metodik.

Därför tror jag nog att det kan vara bra om det inte går för snabbt. Vi måste hinna föra diskussionen om vad det är vi försöker bygga och förstå konsekvenserna av det.

Martin Servin, universitetslektor vid Umeå universitet och leder arbetspaketet Automation i forskningsprogrammet Mistra Digital Forest

Fotograf: Johan Olsson