Blog
dranbleiben!
Marcelo Emmerich

Der eigentliche Knaller beim OpenAI DevDay

In den sozialen Medien gab es sehr viele Reaktionen auf das OpenAI DevDay. War ja zu erwarten. Was mich wundert ist, dass die meisten dieser Reaktionen einen naiven und romantisierenden Unterton haben. Wie so oft ist der größte Knaller nämlich in dem zu finden, was nicht gesagt wurde, und das ist recht unromantisch.

Der edle KI-Konzern

Ich quatsche seit Anfang 2023 jeden, der nicht schnell genug weglaufen kann, damit voll: der nächste große Sprung in der KI wird durch autonome Agenten getrieben werden. Jetzt hat OpenAI die "Assistants" eingeführt, also nicht-autonome Agenten. Und es gab etliche Beiträge, in denen argumentiert wurde, dass OpenAI die Agenten nur deswegen noch nicht autonom gemacht hat, weil wir armen Empfänger des göttlichen US-Konzern-Mana noch nicht bereit sind dafür. Es würde die Gesellschaft überfordern usw. heißt es in vielen Reaktionen auf das Event.

Meine bescheidene Meinung ist, dass der wahre Grund weit weniger romantisch ist. Um das besser zu verstehen müssen wir uns kurz das Potential und die aktuelle Entwicklungen autonomer Agenten anschauen.

Es gibt bereits diverse Open-Source-Projekte, die versuchen, autonome Agenten umzusetzen. Diese scheitern meistens darin, dass es keine geeigneten Schnittstellen in die reale Welt gibt. Autonome Agenten haben nämlich erst dann einen echten Nutzen, wenn ich mit ihnen auch etwas echtes anfangen kann. In der echten Welt (wobei damit nicht unbedingt die materielle Welt gemeint ist).

Um das zu veranschaulichen, hier ein paar Beispiele wie man mit einem intelligenten, autonomen Agenten interagieren würde, zuerst im privatem Umfeld:

Agent: "Hey Marcelo, du hast bisher alle Teile von The Expendables im Kino geschaut. Der 4te Teil kommt am Samstag ins Kino XY. Soll ich dir eine Karte für Samstag 19.00 Uhr kaufen?"

Agent: "Hey Marcelo, deine letzte Zahnreinigung ist 12 Monate her, soll ich einen Termin bei Dr. XY buchen?"

Agent: "Hey Marcelo, In Flames tritt am 6.12.2023 im Palladium auf. Soll ich für dich und die Mädels Karten buchen?"

usw.

Im geschäftlichen Umfeld könnte das in etwa so aussehen:

Agent: "Dein Google Chat Meeting beginnt in 5 Minuten, soll ich dazu kommen und Protokoll schreiben?"

Agent: "Guten Morgen Marcelo, du hast 5 überfällige Jira Issues die du dir anschauen solltest. Auf LinkedIn hast du 5 neue Kontaktanfragen. 5 Mails habe ich als Spam markiert, 4 sind aber noch ungelesen. Im Firmen-Chat wurdest du 2 Mal erwähnt, solltest du dir auch anschauen. Soll ich die Kontaktanfragen für dich annehmen und die 2 Erwähnungen im Firmenchat vorlesen?"

Agent: "Die Zeiten der Kollegen für Projekt XY sind eingetragen worden. Soll ich die Rechnung schreiben und sie dir zur Kontrolle vorlegen?"

usw.

Egal ob im privatem oder geschäftlichem Umfeld, wenn wir mit dem Thema ernst machen wollen, kommen wir um zwei Hürden nicht vorbei:

  1. Die Agenten müssen wirklich autonom sein
  2. Die Agenten müssen Zugriff auf unsere Konten und Daten haben

Nummer 1 ist mit den heute verfügbaren Technologien bereits machbar. Ist zwar noch lange nicht Enduser-freundlich, aber machbar. Wie mein Setup dafür aussieht beschreibe ich mal in einen anderen Beitrag, falls das jemand interessiert.

Nummer 2 ist das, wo es interessant wird.

APIs, Prozesse und Automatisierung

Folgendes muss technologisch erfüllt sein, damit wir autonome Agenten wie oben exemplarisch beschrieben, bauen können:

  1. Der Agent muss über all meine Daten verfügen, insbesondere: Alle besuchten Webseiten, alle E-Mails, alle Dokumente, alle Kontakte, Kalendereinträge, Einkäufe, gesehene YouTube Videos, gelesene Tweets, usw.Status: ✅ Das ist technisch bereits machbar. Auch hier muss es noch Enduser-freundlich werden, evtl. durch ein Browser-Plugin, der automatisch jede besuchte Webseite indiziert usw.
  2. Der Agent muss sich in meinem Namen bei all den o.g. Diensten und auch bei Diensten, bei denen ich noch nicht angemeldet bin, anmelden bzw. registrieren können.Status: ❌ Das gibt es m. W. noch nicht. Scheint aber ein lösbares Problem zu sein, wenn man 3. in den Griff bekommt:
  3. Der Agent muss mit jeder bekannten und unbekannten REST API kommunizieren können und semantisch Befehle in API calls autonom umwandel könnenStatus: ❌ Das gibt es m. W. auch noch nicht. Hier stelle ich mir ein LLM vor, der darauf trainiert ist, REST API Dokumentation zu lesen und zu verstehen und diese in echte API Aufrufe anhand von Befehlen in natürlicher Sprache umzusetzen. Das würde automatisch Punkt 2 lösen, weil ich dann den Assistenten bspw. mit der API meines Passwort-Managers verbinden würde. So hätte der Assistent Zugriff auf meine Zugangsdaten und könnte auch gleich neue anlegen, falls dieser ein Dienst nutzt, für den ich noch keinen Account habe. Ich stelle mir hier eine App vor, die als zentrale Auth-Instanz fungiert und mit dem Assistenten verbunden ist. Jedesmal, wenn der Assistent sich irgendwo anmelden oder registrieren möchte, erhalte ich eine Push-Nachricht und kann die Aktion in der App freigeben oder nicht und ggf. mit dem Agenten diskutieren, ob das nicht auch anders geht.

Übrigens, ich rede vereinfacht vom "Assistenten". Ich gehe stark davon aus, dass ähnliche Funktionalitäten eher durch dynamische Assistenten-Schwärme erledigt werden. Dabei wird es vermutlich Assistenten mit unterschiedlichen Rollen geben, also welche die nur ausführen, andere die orchestrieren usw.

Mir ist klar, dass diese "Vision" teilweise erschreckend wirkt. Im skizzierten Szenario ist noch extrem viel Regulierung, Datenschutz usw. zu beachten, das habe ich bewusst außen vor gelassen, weil es mir um folgenden Punkt geht:

OpenAI hat nicht aus Altruismus noch keine autonomen Assistenten vorgestellt, sondern weil es die Lösung von Punkt 2 und 3 auf uns alle abwälzen möchte und damit nebenbei enorm viel Geld verdienen wird. Das ist das App-Store Konzept, welches im Rahmen des DevDays angesprochen wurde. Wir selbst sollen ein Ökosystem an AI kompatiblem Diensten aufsetzen, um autonome Agenten möglich zu machen.

Die gute Nachricht ist aber, dass das alles auch ohne OpenAI geht, mit Open Source Technologie und dezentral. Allerdings ist dieser Beitrag jetzt schon viel zu lang geworden, also widme ich mich einer möglichen Umsetzung in einem zukünftigen Beitrag.

Ebenfalls erschienen hier: https://www.linkedin.com/pulse/der-eigentliche-knaller-beim-openai-devday-marcelo-emmerich-vfwae/

none
Conventic Icon
Standort Bonn
Burgstraße 69
53177 Bonn
Deutschland
+49 228 76 37 69 70
Standort Braunschweig
Westbahnhof 11
38118 Braunschweig
Deutschland
+49 228 76 37 69 70
Wir sind Mitglied bei
Grouplink Icon
Newsletter abonnieren
Impressum, Haftungsausschluss, Datenschutzerklärung und
© 2024 conventic GmbH · Alle Rechte vorbehalten.