10-Revolution der Large Action Models & Bots: AI & LLMs für Entscheidungsträger

Erstellt von Terrence Schweizer am Jun 11, 2024 7:49:40 AM
Terrence Schweizer
Vernetzen auf:

Large Language Models (LLMs) haben sich als direkte Schnittstelle zwischen Mensch und Maschine etabliert. Sie verstehen und erzeugen Sprache, was sie für viele Anwendungsfälle extrem nützlich macht. Von der Beantwortung von Fragen über die Zusammenfassung von Texten bis hin zur Erstellung von neuen Kommunikationsslogans – die Einsatzmöglichkeiten sind vielfältig. Doch eine Sache können diese Modelle nicht: tatsächliche Handlungen ausführen. Genau hier kommen Bots und Large Action Models (LAMs) ins Spiel.

Let's dive in …

LLMs wie Copilot und ChatGPT haben in vielen Bereichen beeindruckende Ergebnisse erzielt. Sie können Informationen verarbeiten, Texte überarbeiten und sogar Daten visuell darstellen. Aber sie bleiben stets innerhalb der Grenzen von Sprache (oder Bildern) als Ein- und Ausgabe. Wenn es darum geht, konkrete Aktionen durchzuführen – wie einen Termin in Outlook zu buchen, ein Uber zu bestellen oder ein Zugticket zu kaufen – stossen sie an ihre Grenzen.
Die Fähigkeit, in einer gegebenen Umgebung Aktionen auszuführen, ist ein wesentlicher Bestandteil autonomer Agenten (Bots). Ein zentrales Thema in diesem Bereich ist, inwieweit die Ausführung von Aktionen auf externen Komponenten beruht oder in das Modell selbst integriert ist. Eine der faszinierendsten Ansätze in dieser Debatte sind die Large Action Models (LAMs).
LAMs wurden erstmals von dem Team hinter dem beeindruckenden Rabbit R1-Gerät als einer der zentralen Bausteine ihrer Architektur vorgeschlagen.

https://www.rabbit.tech/research

Die Präsentation des Rabbit R1 auf der CES in Las Vegas erregte viel Aufmerksamkeit und wurde sogar von Microsoft-CEO Satya Nadella als die spannendste Präsentation der CES bezeichnet. Es bleibt abzuwarten, ob der Rabbit R1 tatsächlich die Zukunft der Technologie prägen wird.

Einfach ausgedrückt, ist ein Large Action Model (LAM) ein Modell, das lernt, jede Software, auf die es trifft, zu bedienen, Aktionen auszuführen und sich im Laufe der Zeit zu verbessern. Es lernt, indem es beobachtet, wie Menschen Online-Schnittstellen nutzen, und kann diese Schnittstellen anschliessend auf die gleiche Weise bedienen wie ein Mensch. Wichtig ist, dass es auch natürliche Sprache versteht, sodass man mit ihm sprechen kann, wie man es mit einem persönlichen Assistenten tun würde. Man bittet es, etwas zu erledigen, und es kümmert sich darum.

Architektonisch gesehen wird eine LLMs mit einem symbolischen Netzwerk kombiniert, das auf die Interpretation und Ausführung von Aktionen spezialisiert ist. Im Gegensatz zu neuronalen Netzwerken, die auf Wahrscheinlichkeiten und numerischen Berechnungen basieren, arbeiten symbolische Netzwerke mit expliziten Regeln und logischen Operationen. Diese duale Architektur ermöglicht es, die Kreativität von LLMs zur Interpretation von Benutzeraktionen zu nutzen und gleichzeitig spezialisierte Modelle für deren Ausführung einzusetzen.

Die Entwicklung von LAMs könnte die Art und Weise, wie wir mit Technologie interagieren, grundlegend verändern. Es ist spannend zu beobachten, wann wir erstmals Pizza bestellen oder Zugtickets kaufen können, einfach indem wir unserem Assistenten einen Befehl geben. Wie so oft in der Geschichte der Technologie ist es jedoch selten der erste Pionier, der mit seiner neuen Lösung die Welt erobert und den Durchbruch schafft.

✍️✍️✍️

 

Hast du weitere Fragen? Dann zögere nicht und kontaktiere uns. Wir helfen dir gerne unter marketing@bithawk.ch weiter.


Weitere Themen auf unserem Blog

 

Themen: Artificial intelligence