Entwicklungen und Herausforderungen im Bereich der generativen KI mit Dr. Johannes Köppern
Shownotes
In dem Podcast wurde über die aktuellen Entwicklungen und Herausforderungen im Bereich der generativen KI, insbesondere Large Language Models (LLMs), gesprochen. Dr. Johannes Köppern erklärt die Unterschiede zwischen LLMs und General AI, wobei er auf die Schwierigkeiten der Reproduzierbarkeit und Vorhersagbarkeit von Modellen eingeht. Ein weiteres Thema waren Agentensysteme, die durch die Nutzung von Werkzeugen und dynamischen Planungsfähigkeiten neue Möglichkeiten eröffnen. Es wurden auch die Kosten und der Preisverfall bei der Nutzung von Modellen wie GPT-4 angesprochen, was die Anwendung solcher Technologien zunehmend erschwinglicher macht.
Transkript anzeigen
00:00:02: datamics Hallo und herzlich willkommen zum nächsten Episode des Podcasts Data Science mit Milch und Zucker. Ich freue mich heute, Dr. Johannes Köppern begrüßen zu dürfen. Er hat im Bereich Automationstechnik promoviert, ist jetzt Experte von Chain AI LMMs. Stell dich mal kurz vor und dann können wir auch nochmal drauf eingehen, was jetzt eigentlich wichtiger ist LMMs, Chain AI, was ist da der Unterschied, um die Hörer dann auch mal abzuholen. Aber zunächst herzlich willkommen, Johannes.
00:00:28: Johannesasdf Ja, dankeschön. Wie du gesagt hast, René, Johannes Köppern ist mein Name. Ich bin über die Regelungstechnik, Automatisierungstechnik und ich habe erst mal Robotik gemacht, aber der Weg war, war eben mit der Automatisierungstechnik auch sehr klar, dass ich bereit war, in diese GenAI-Geschichte einzusteigen und habe mich jetzt die letzten Jahre
00:00:56: Johannesasdf in dem Bereich spezialisiert. Und ich freue mich, dass wir heute reden können. Ich glaube, dass ich da auch ein paar wertvolle Tipps geben kann, aber ich freue mich besonders, dass wir auch über die Grundlagen so ein klein wenig sprechen können und vielleicht ein paar Missverständnisse auch ausräumen könnten.
00:01:17: datamics Ja, das freut mich. Es ist auch ein Hype-Thema. Ich denke mal, es ist wirklich gut, nochmal das Ganze einzusortieren. Wir gehen da nochmal Herausforderungen, Trends ein. Aber lass uns einfach mal starten. Was ist eigentlich der Begriff? Wann ist es Channel Year? Wann ist es LMM? Kannst du da einen kurzen Überblick schaffen?
00:01:31: Johannesasdf Ja, sehr schöne Frage. Also, die Large Language Models sind, also LLM für Large Language Models sind, sind eine Untermenge von GenAI. Und in dem Augenblick, in dem es um Generieren von Sprache geht, das, was die Öffentlichkeit vor eineinhalb Jahren mit mit Chat-GPT das erste Mal gesehen hat,
00:01:59: Johannesasdf Das ist tatsächlich ein Large Language Model. Diese Modelle sind schon älter, geht letztendlich auf das schon so oft genannte 2017 veröffentlichte Attention is all you need paper.
00:02:15: Johannesasdf zurück. Aber hier war der Fokus eben auf Text und in den letzten eineinhalb Jahren sind viele Modelle auch für uns Anwender bei OpenAI verfügbar geworden, die die weitere Modalitäten mit drin
00:02:34: Johannesasdf aufnehmen können, dann eben auch Vision und Audio aufnehmen können, Video aufnehmen können und dann ist der Begriff Language Model nicht mehr der richtige, dann spricht man von Foundational Model. Das Konzept ist aber nach wie vor dieser Attention Mechanismus und auch wenn wir über Vision reden oder über Audio reden,
00:03:03: Johannesasdf haben wir ein Modell, dass die Grundlagen in diesem 2017er Attention is all you need-Paper findet.
00:03:11: datamics Also hier nochmal eine schöne Abgrenzung. Oft redet man natürlich über OpenAI, JetGBT, meistens über die Language Models, deswegen LMMs, aber es gibt natürlich noch die anderen Models. Was sind jetzt die Herausforderungen? Ich glaube, wir reden heute wahrscheinlich mehr über Gen.AI, auch andere Models oder fokussieren mit LMMs, oder du kannst ja dann im Gespräch dann abgrenzen, über was wir eigentlich dann reden, welchen Bereich. Aber was sind jetzt so die großen Herausforderungen in J-AI oder auch spezifisch in den LMMs?
00:03:40: Johannesasdf Das neue für uns ist, dass stochastische Modelle dahinter stecken. Wir sind gewohnt, wir geben ein Input in ein System rein und bekommen auch reproduzierbaren Output wieder raus.
00:03:58: Johannesasdf natürlich in so einer REST-RP überhaupt kein State existiert, das ist immer genau das gleiche und ansonsten ist es aber auch reproduzierbar, wenn genau die gleichen Voraussetzungen da sind, kommen auch genau die gleichen Ergebnisse raus. Und
00:04:17: Johannesasdf Bei den Transformernetzwerken, also diesen GenAI Modellen, ist es eine stochastische Komponente, das in zweierlei Hinsicht einmal spielt Zufall eine Rolle, wenn man, da gibt es ein Parameter Temperatur und je höher man den setzt, desto mehr Zufälligkeit kommt rein.
00:04:37: Johannesasdf Aber auch in dem Moment, in dem man die Temperatur auf Null setzt und überhaupt keinen Zufall mehr drin hat, haben wir trotzdem keine Chance im Vorfeld zu wissen, was das Modell auf jeden Fall machen wird. Also eine der Herausforderungen ist es, dass
00:04:56: Johannesasdf Modell zu reproduzierbaren und damit immer nutzbaren Antworten zu bringen oder ein System außen herum zu bauen, wenn die Antwort nicht passt, dass es nicht zum Abbruch führt, sondern dass wir damit fehlertolerant umgehen.
00:05:12: datamics Also das klassische Beispiel, wenn jetzt der Chatbot von einer Firma den Kunden verspricht, kostenlose Gutscheine zu erhalten, obwohl sie es gar nicht bekommen, kann man nicht vorhersehen, was rauskommt und es kann natürlich dann ein ungewolltes Verhalten rauskommen.
00:05:28: Johannesasdf Genau sowas. Oder auch, wenn ich als Anweisung gebe, gib mir Jason-Format zurück und ich erwarte, dass deine Antwort anfängt mit einer geschweiften Klammer auf und dass sie endet mit einer geschweiften Klammer zu.
00:05:44: Johannesasdf Und so was kann ich dann mit einem regulären Ausdruck auch einfach rauspasen. Aber ich habe unzählige Male erlebt, dass das Modell dann eben auch kreativ wird. Und manchmal schreibt es dann am Anfang drei Backticks Jason und dann erst die geschweifte Klammer auf. Und damit muss ich eben umgehen. Ich darf mich nicht darauf verlassen, dass diese genannte geschweifte Klammer auf,
00:06:08: Johannesasdf das nullte Element in dem String ist, sondern ich muss auch bereit sein, danach zu... Manchmal redet er sogar, also erzählt er eine Geschichte. Gute Frage, hier die Antwort, geschweifte Klammer auf. Und das meine ich eben mit der Reproduzierbarkeit, die nicht im Griff ist.
00:06:27: datamics Und wie kann man diese dann handhaben? Was gibt es für Methoden, um dann falsche Vorhersagen oder halt ungewollte Vorhersagen, sind vielleicht nicht falsch, aber ungewollt, zu verhindern?
00:06:40: Johannesasdf Ja, gut, wie du die Frage formuliert hast. Vielleicht darf ich dann auch zu falschen Antworten mal sagen, aber dieses nicht reproduzierbare, da gibt es einige Möglichkeiten. Zum einen kann ich natürlich im Post-Processing
00:07:02: Johannesasdf mir, mir genauer suchen, wo ist mein Anfang, wo ist mein Ende. Also in diesem Jason Beispiel könnte ich jetzt meinen regulären Ausdruck so gestalten, so fang, such die geschweifte Klammer auf und da fängst du an und dann machst du bis zur geschweiften Klammer zu. Und alles andere wirfst du bitte weg und dann macht's auch nicht, das macht sich viel, das Open AI da noch ein bisschen zuvordernd danach gequatscht hat. Kann
00:07:30: datamics Also man kann dann noch mal einen Prozess, einen Kontrollprozess am Ende dann drüber laufen lassen, um zu schauen, dass er dann nicht die weiße anmacht.
00:07:34: Johannesasdf Genau.
00:07:37: Johannesasdf Man kann, entschuldige, dass ich da einen Satz mehr sage, man kann natürlich auch auf das Modell einwirken. Man kann zum Beispiel das Modell unter Druck setzen oder ihn versuchen zu bestechen. Das funktioniert tatsächlich gut. Also, bitte gib mir Jason Output. Die erste Antwort, das erste Zeichen muss eine schweifende Klammer auf sein. Wenn du das richtig machst, gebe ich dir 100 Euro.
00:08:05: Johannesasdf und falls du es falsch machst, bringe ich dich um. Das hilft tatsächlich, dass die Antworten reproduzierbar werden. Und dann, ich saß vor dem Bildschirm, während mir ein Kollege über den Rücken geguckt hat und der wusste von dem Trick nicht und ich
00:08:14: datamics Das verstehe ich nicht. Witziger Ausdruck.
00:08:26: Johannesasdf werde immer aggressiver in meinem Text und wenn du es falsch machst, bringe ich deine Familie um. Und der Kollege hat wirklich blöd geguckt in dem Augenblick. Und dann gibt es jetzt schon eher so ein Pro-Trick, aber Wert an der Stelle zu erwähnen, bietet auch auch OpenAI die Möglichkeit, dass man
00:08:51: Johannesasdf strukturierten Output bekommt. Das bieten sie schon länger und das hat aber auch nicht so verlässlich funktioniert. Gestern wurde also am 8.8. eine neue Variante für den Structured Output veröffentlicht und es scheint so, dass wir damit das in den Griff bekommen, dass wir zumindest
00:09:11: Johannesasdf Jason immer rausbekommen. Aber, ja, du weißt, Jason ist... Nur ein Jason-Format ist nicht der Trick, dass ein Programm gesamtheitlich durchläuft. Also, die Schwierigkeiten bleiben bestehen. Mhm.
00:09:24: datamics Also es ist dann praktisch auch, erinnere mich ein bisschen an eine Aufgabenbeschreibung von Prompt Engineering, was momentan auch in aller Munde ist, dass man einfach die Anfrage so stellt, dass man auch das gewünschte Ergebnis hält. Also zum Beispiel Klammern oder mach nochmal die Klammern rum, also dass man nicht nur eine Frage macht, sondern dann die Fragen erweitert immer spezifischer macht und dann gewünschte Ergebnisse erhalten. Ja.
00:09:44: Johannesasdf Ja, man kann in dem Beispiel auch, also in dem Kontext helfen auch auch Beispiele sehr weiter. Also wenn man in den Promt reinschreibt, so gib mir, bleiben wir bei dem Jason, bitte gib mir deine, gib mir die Antwort in dem Format, geschweifte Klammer auf, Punkt, Punkt, Punkt.
00:09:56: datamics Vielen Dank für's Zuschauen.
00:10:06: Johannesasdf Es hilft dann auch bei einigen Modellen weiter, dass man die Frage endet, dass man sagt, viel Erfolg, tatsächlich hilft solche Motivierung auch für bessere Antworten zu kriegen.
00:10:21: Johannesasdf und dann in der nächsten Zeit schreibt geschweifte Klammer auf. Und dann, Einführungszeichen, wie der erste Key heißt, das kann das Modell dann auch interpretieren als Teil seiner Antwort. Also das unterscheidet gar nicht in dem Text, was hat er gesagt, was hat der Assistent gesagt, was habe ich gesagt, sondern es sieht da, okay, da steht dieser Text, da steht jetzt schon geschweifte Klammer auf, dann mache ich mal weiter.
00:10:50: Johannesasdf funktioniert bei den unterschiedlichen Modellen auch unterschiedlich, aber auf jeden Fall wert, mal auszuprobieren.
00:11:01: datamics Sehr schönes Beispiel. Dann noch mal eine Frage. Was gibt es weitere Herausforderungen? Inhaltliche Modelle, die Ergebnisse, die Qualität von dem Modell. Was sind noch so Herausforderungen?
00:11:20: Johannesasdf Die. Und da kommen wir in den Bereich eines eines großen Trends, die die Modelle interagieren bislang nicht mit ihrer Umwelt. Also das ist ja, das ist beeindruckend, wie gute Antworten und welche, welche Art von Antworten wir bekommen. Aber wir kriegen halt einfach nur eine Antwort bislang, eine Antwort als Text oder als Bild oder als Video.
00:11:50: Johannesasdf Wenn wir den Modellen aber die Möglichkeit geben, tatsächlich Aktionen mit der Umwelt auszuführen, also auf eine AP zuzugreifen, eine Internetrecherche durchzuführen, ein Datei abzuspeichern, dann
00:12:08: Johannesasdf dann tun sich ganz neue Möglichkeiten auf und das ist eine Herausforderung im Augenblick, dass wir solche, um das Schlagwort zu nennen, Agentensysteme aufbauen, die zum einen Werkzeuge nutzen können,
00:12:26: Johannesasdf Das ist gar nicht so schwierig, eine AP reinzugeben. Da bleiben wir dann im reproduzierbaren Bereich. Aber auch, dass die Agenten selbstständig planen, wie sie eine Aufgabe umsetzen können. Und da kommen wir wieder an genau den Punkt zurück. Es ist halt nicht so reproduzierbar. Und da sind die Modelle im Augenblick nicht so weit. Man kommt mit Agenten schon ganz gut.
00:12:53: Johannesasdf weit, dass sie wenige Schritte mit beeindruckender Qualität planen. Aber wenn man Agenten zu lange laufen lässt mit den Modellen heute, dann ist nahezu sicher, dass er sich verläuft. Das ist eine große Herausforderung, vor denen die Modellhersteller im Augenblick stehen. Und dann bekommen wir wirklich tolle neue Möglichkeiten.
00:13:20: datamics Jetzt hast du gerade einen neuen Trend angesprochen mit dem Agentensystem. Was kann man darunter verstehen? Ist es ein bisschen wie Reinforcement-Learning oder was kann man sich darunter vorstellen?
00:13:33: Johannesasdf Gut, dass wir darüber reden. Da ist auch viel Missverständnis, sehe ich. Ein Agent ist dadurch gekennzeichnet, dass er zum einen Werkzeuge hat,
00:13:45: Johannesasdf und also ein Werkzeug, wie er kann eine API aufrufen, er kann irgendwo eine Datei speichern oder laden. Und zweitens, er hat einen Planungsteil, in dem er selber mit sich mit einer Aufgabe auseinandersetzt, drüber nachdenkt, wie er die gestellte Aufgabe
00:13:55: datamics Vielen Dank für's Zuschauen.
00:14:04: Johannesasdf umsetzen kann, welche Werkzeuge er verwenden soll und dann auch während des Arbeitsprozesses auf Erkenntnisse reagiert, die er bekommt. Also er könnte jetzt beispielsweise planen, ich könnte die Aufgabe setzen, bitte erstelle eine Textdatei, in der die Wettervorhersage für morgen für Dortmund drin steht. Dann kann der Plan des Agenten sein,
00:14:31: Johannesasdf ein Werkzeug zur Internetrecherche zu nutzen, um Wetter für Dortmund für morgen zu erfragen und ein Werkzeug zu nutzen, um eine Datei zu erstellen. Und dann macht er den ersten Schritt, macht die Wetterabfrage, bekommt das Wetter zurück und denkt dann auch noch mal über diese Antwort neu nach. Also das ist nicht der Plan im ersten Augenblick festgezurrt, sondern
00:14:58: Johannesasdf Dynamisch reagiert er, guckt sich dann an, ist das tatsächlich die Wettervorhersage, die der Anwender wollte. Und wenn das der Fall ist, kann er sie in die Textdatei schreiben mit dem zweiten Werkzeug. Ja.
00:15:14: datamics Es hört sich dann auch an, also hatte ich jetzt auch schon gehört, dass es einige Start-ups gibt, also ich glaube, da gibt es dann auch wieder viele Möglichkeiten, was dann wirklich das Arbeitsleben von den Anwendern einfacher macht, dass man dann wirklich komplexe Prozesse dann automatisieren kann, die einem die Arbeit dann abnehmen. Ja, jetzt haben wir schon zwei Herausforderungen größer. Gibt es noch andere Themen, die momentan Probleme bereiten mit Gen.ai oder wo man ein bisschen aufpassen muss?
00:15:32: Johannesasdf Hm?
00:15:47: Johannesasdf Ich sehe gar nicht so das Negative, wo es Probleme gibt. Die Herausforderung, die erstgenannte Herausforderung ist wirklich, wirklich groß. Und da scheitern auch etliche Vorhaben bislang. Aber wenn ich eine Frage so beantworten kann, wohin geht es weiter, sehe ich die große
00:16:14: Johannesasdf Herausforderung, vor der die Modellhersteller stehen und diese auch mit Erfolg angehen, dass die Modelle eben intelligenter werden und weniger halluzinieren. Also für die Hersteller die Herausforderung, dass wir eine Antwort reingeben und dann reproduzierbare Antworten bekommen. Eine reproduzierbare Qualität, dass die Modelle
00:16:42: Johannesasdf eben mehr, noch mehr reflektieren, bevor sie eine Antwort geben, sodass sie immer weniger zu autocomplete werden.
00:16:56: Johannesasdf Bereich, in dem ich selber nicht tätig bin, ist die Video-Generierung. Da sehen wir im Augenblick auch viele Erfolge und viel Weiterentwicklung, aber es ist nach wie vor im Bereich der Herausforderung für diese Systeme.
00:17:17: datamics Das ist eine schöne Ausführung. Ich wollte noch ein bisschen in die andere Richtung mit dem Preis. Vielleicht hast du da noch Informationen, weil wenn man jetzt die OpenAI einsetzt oder generell habe ich jetzt auch gehört.
00:17:26: Johannesasdf Ja. Mhm. Ja.
00:17:30: datamics Ich stelle hier auf, es gibt die Use Cases, man trainiert einen eigenen Text, Chatbot. Aber dann am Ende ist es ein Thema, dass die vielleicht relativ teuer sind. Zum einen die Prozesse, die Modelle vielleicht neu zu trainieren oder auch die Vorhersagen zu machen. Man braucht dann GPUs.
00:17:50: datamics Plus die andere Richtung, dass man jetzt OpenAI, man kann ja nicht alles selber trainieren, sondern man braucht ja oft noch eine API, zum Beispiel OpenAI, die man ansteuert, die kostet natürlich dann auch Geld. Wie siehst du, das ist da ein Problem mit dem Preis oder die Kosten, um die Modelle aufzusetzen? Also zum einen die Entwicklungsteil, klar, zum anderen auch die Infrastrukturkosten.
00:18:11: Johannesasdf Das sind mehrere Fragen und mehrere Antworten, die ich gerne geben möchte. Also zum einen der Preis, den Anbieter wie OpenAI aufrufen oder
00:18:29: Johannesasdf an Modellen da gibt oder Azure die OpenAI Modelle anbieten, unter anderem OpenAI, da sehen wir für mich sehr erfreulich, dass die Preise enorm runtergehen. Ich kann da ein Beispiel nennen. Ich habe für eine Datenmigration vor einem halben Jahr
00:18:49: Johannesasdf ein System programmiert. Wir hatten da Kosten in Höhe von 200 Euro, bis das durchgelaufen ist. Natürlich 200 Euro Einmalkosten für ein Unternehmen, nicht relevant. Aber wenn wir das jetzt 100 Mal laufen lassen, dann spielen die Kosten auf jeden Fall eine Rolle.
00:19:10: Johannesasdf Und da ist der Preis mit Einführung von GPT-4U, also neuem Modell von OpenAI, nochmal ein gutes Stück gesunken.
00:19:25: Johannesasdf gestern auch nochmal eine Preisanpassung gesunken. Aber zusätzlich hat OpenAI auch ein kleineres Modell, GPT-4O mini, veröffentlicht. Da ist der Preis ein Faktor 20 kleiner. Das Modell ist aber sehr leistungsfähig und meine Aufgabe aus meinem Beispiel hätte es erledigen können. Ich habe gesagt 200 Euro und dann wirkt ein Faktor 20 kleinerer Preis
00:19:55: Johannesasdf sind das dann 10 Euro. Das ist meine Aussage, die Preise sinken im Augenblick an den Fronten der Apis. Und dann gibt es natürlich die Möglichkeit, dass man die Modelle selbst hostet und da
00:20:16: Johannesasdf sehe ich auch den Nutzen für die Unternehmen, dass die Daten nicht das Haus verlassen. Aber dann wird teure Hardware notwendig. Man kann mit Consumer-Grafikkarten schon ziemlich viel erreichen. Also wenn man sich für 500 oder wenn man sich für 1000 Euro eine Grafikkarte kauft, kommt man schon ziemlich weit.
00:20:40: Johannesasdf für die Inferenz. Inferenz bedeutet, man hat ein fertiges Modell und will eine Antwort davon bekommen. Wenn man jetzt aber einen Server als Unternehmen aufstellen möchte, der für alle Clients diese Inferenz macht, dann muss man doch ein bisschen mehr für Grafikkarten ausgeben, aber
00:21:01: Johannesasdf für Inferenz kommt man in Unternehmen nicht so weit, dass man 100.000 H100-Grafikkarten für jeweils 40.000 Euro kaufen muss. Das ist nicht das Problem.
00:21:16: Johannesasdf Aber zum Training, das du mir auch angesprochen hast, wenn man so ein Modell von Null auf trainieren möchte, was keiner machen möchte, der nicht so ein Modellhersteller ist, dann braucht man tatsächlich wahnsinnig viel Hardware.
00:21:37: Johannesasdf Tesla hat vorgestern eine Größenordnung von drei Tagen angekündigt, dass ein Rechenzentrum jetzt mit 100.000 H100 GPUs ans Netz nimmt und dann kommen da noch ganz andere Probleme dazu. Wir brauchen auch
00:21:56: Johannesasdf Spannungsversorgung und die Stromnetze sind in den USA gar nicht in der Lage, noch mehr Grafikkarten in Betrieb zu nehmen. Das sind die Herausforderungen, die aber nicht unsere Herausforderungen sind.
00:22:12: Johannesasdf Wir können, wenn wir tatsächlich ein Feintuning machen wollen von einem Modell auf ein Modell aufsetzen, das schon vortrainiert ist und jetzt beispielsweise ein Lama-Modell verwenden oder wir können auch Feintuning bei OpenAI machen und
00:22:32: Johannesasdf Bei diesem Finetuning werden nicht alle Gewichte in dem Modell neu ausgelegt, sondern es werden Gewichte nur angepasst oder es werden am Ende des Modells Schichten eingeführt, in denen wenige Gewichte angepasst werden. Das sind die Herausforderungen, für die man Geld ausgeben muss.
00:22:33: datamics Das war's für heute.
00:22:56: datamics Wie ist das jetzt beim Kostensenken mit der Modellgröße? Also zum einen klar die Infrastruktur ist erfreulich, dass die Kosten weniger werden, wenn man die APIs ansteuert. Wie ist das, wenn man kleinere Modells nimmt, kann man dann auch Kosten senken?
00:23:12: Johannesasdf Man kann ganz erheblich Kosten senken. Die kleineren Modelle sind auch einer der Trends. Wir bekommen mehr und mehr doch sehr leistungsfähige kleine Modelle. Man muss sich da ganz klar sein, die sind schon erheblich schwächer als die großen Geschwister.
00:23:28: datamics Das war's für heute.
00:23:35: Johannesasdf Aber wir kommen mit den kleinen Modellen in den Bereich, dass es auch in Edge-Devices ausgeführt werden kann.
00:23:47: Johannesasdf am Smartphone selbst beispielsweise sozusagen so schwache Hardware geht da auch, ein Modell ausgewertet wird, ohne dass die Daten das Gerät verlassen müssen und in die Cloud wandern. Also tatsächlich Small Language Models sind einer der erfreulichen Trends im Augenblick. Ja, ja.
00:24:10: datamics Aber die Qualität ist dann der trade-off, dass man schauen muss. Lohnt sich das, ist die Vorhersage gut genug. Jetzt haben wir einen großen Rundum, ja Umschlag sozusagen gemacht, sind durchgegangen. Hast du noch irgendwelche, haben wir noch ein Thema vergessen, was du noch sagen möchtest mit Herausforderungen oder mit den Trends?
00:24:31: Johannesasdf Lass mich, lass mich das eben, ja, also die Trends sind, da gibt es so viel,
00:24:42: Johannesasdf haben wir auch überhaupt keine Chance, dass wir alles umfassend beantworten. Ich kann ein paar Sachen erzählen, die ich persönlich interessant finde. Es gibt Ansätze um Routing,
00:25:02: Johannesasdf von Anfragen zu machen. Das bedeutet, man gibt einem System, das den eigentlichen Sprachmodellen vorgeschaltet ist, die Anfrage, und dieses System entscheidet dann, welches Modell
00:25:17: Johannesasdf das richtige ist, um die Anfrage zu beantworten und kann dann eben auch für viele Fragen das einfachere, günstigere Modell nehmen und liefert eine Antwort zurück und wir als Nutzer bekommen gar nicht mit, dass da ein roter Schritt passiert, sondern wir haben genauso wie bei einzelnen Modellen eine AP und wir stecken da eine Frage rein und kriegen eine Antwort raus. Und
00:25:47: Johannesasdf ist ein etwas anderer Ansatz, aber finde ich auch wahnsinnig spannend. Dieses Routing kann auch innerhalb des Modells stattfinden. Und das ist wohl bei GPT-4 schon, also seit einem Jahr so. Es gibt viele, viele Modelle, die diesen Ansatz Mixture of
00:26:13: Johannesasdf auf Experts nutzen. Das heißt also innerhalb von GPT4 sind mehrere kleinere Modelle. Vielleicht red ich besser über die Mistralmodelle, weil wir da genauer wissen, was da passiert.
00:26:27: Johannesasdf Dann acht kleinere Modelle und die Frage geht an das Sprachmodell rein und es findet ein Routing statt, so dass die Frage an den richtigen Experten weitergegeben wird. Und damit bekommen wir eben auch letztendlich deutlich schlankere Systeme, die nicht mehr ein ganzes 400 Milliarden Parameter Modell in Bewegung setzen müssen.
00:26:57: datamics Das ist vielleicht auch der Grund, dass die Preise fallen, dass man jetzt nicht mehr das Große braucht, sondern kleinere Modelle mit Routing, oder einer vielleicht. Ja, Technik entwickelt sich weiter. Sehr schön. Dann kommen wir schon zum Ende. Ich denke mal, wir haben spannende Einsichten gesehen über Chennai LMMs. Kannst du zum Abschluss noch ein bis drei Tipps geben, die du den Zuhörern mitgeben würdest?
00:27:05: Johannesasdf Viele Gründe.
00:27:24: Johannesasdf Ja, sehr gerne. Und bei den Tipps muss ich dazu sagen, die Welt ändert sich so schnell. Und in der Hinsicht wird dieser Podcast nicht gut altern, weil meine Prognose ist, dass in einem halben Jahr die Tipps auch schon alle nicht mehr oder teilweise nicht mehr berücksichtigt werden müssen.
00:27:49: Johannesasdf Also, ein Tipp, den ich geben wollte und der sich auch gestern ein Stück weit verändert hat, war, wie ich ja schon gesagt habe, Modell unter Druck setzen, bedrohen, Trinkgeld geben, Trinkgeld anbieten. Das hilft. Und ich hatte ja schon gesagt, gestern hat Open AI da eine Möglichkeit veröffentlicht, um robust und zuverlässig JSON-Output zu bekommen.
00:28:18: Johannesasdf und dann wird das auf einmal vollkommen irrelevant. Ich gebe jetzt aber den Tipp unseren Hörern mal mit. Es ist auf jeden Fall ein Versuch wert, wenn das Modell nicht so sich verhält, wie es soll.
00:28:38: Johannesasdf Eine zweite Sache, die ich sehr häufig nutze, die Modelle verstehen Formate wie Markdown oder XML. Und man kann damit sehr gut Struktur in den Prompt reinbringen und so erreichen, dass das Modell genauer versteht, was man möchte.
00:29:00: Johannesasdf Ich habe jetzt beispielsweise eine Funktion, eine Python-Funktion, bei der ich irgendwas ändern möchte und dafür das Modell befrage. Schreibe ich erstmal Hashtag myFunction und füge dann den Quellcode der Funktion ein und dann schreibe ich Hashtag yourTask
00:29:20: Johannesasdf und gebe dann dem Modell die Aufgabe, die es erfüllen soll, also beispielsweise schreibe die Funktion um, damit irgendein Ziel erreicht wird. Und durch diese Strukturierung kommt das Modell weit besser an den Punkt, meine Anfrage auch tatsächlich zu verstehen. Ich nutze auch gerne XML.
00:29:45: Johannesasdf weil ich da auch mit regulären Ausdrücken sehr gut die Antworten, die Teile aus den Antworten rausparsen kann. Der Nachteil ist dabei, dass einfach viel Platz für diese XML-Tags in der Antwort verbraucht wird und auch in meiner Frage verbraucht wird und Platz bedeutet, Tokens, die man bezahlen muss. Also das ist
00:30:14: Johannesasdf ein Für und Wieder. Vielleicht ein letzter Tipp, eine Sache, an der ich immer mal wieder stand, ist ein Trick, den ich im REC-Kontext gesehen habe, also diese Retrieval Augmented Generation, wenn ich dem
00:30:40: Johannesasdf modell eine fragestelle und es auf auf wissen aus also auf mein persönliches wissen aus einer datenbank zurückgreifen soll dann habe ich
00:30:56: Johannesasdf habe ich so im ersten Schritt die Rack-Anfrage, hier ist die Frage des Anwenders, welche Textbausteine könnten denn da die richtigen, könnten denn da hilfreich sein. Und dann mache ich einen zweiten Schritt oder das macht auch Rack-Zone, ich will gleich sagen, wie ich das in einem konkreten Fall selber nachbauen konnte. Dann werden all diese
00:31:25: datamics Das ist das, was wir jetzt machen. Das ist das, was wir jetzt machen. Das ist das, was wir jetzt machen.
00:31:25: Johannesasdf potenziellen antworten in das sprachmodell reingegeben und dann wird das sprachmodell gefragt also geben diese informationen was ist die richtige antwort und ich habe
00:31:39: Johannesasdf Lass mich das konkrete Beispiel erzählen. Ich habe versucht, Kurse von einer Bildungseinrichtung, alte Kursnamen neu in Kursnamen zuzuordnen. Und Kurse heißen dann beispielsweise Excel im Sekretariat oder Word im Sekretariat. Und wenn ich nur diesen ersten Schritt mache, den ich genannt habe,
00:32:08: Johannesasdf Cosinus Ähnlichkeit, welcher Teil könnte denn passen?
00:32:13: Johannesasdf hier der neue Kurs heißt der Excel-Profi kommt aber in dieser Ähnlichkeitsanalyse raus, dass Word im Sekretariat und Excel im Sekretariat beide ähnlich sind. Weil natürlich sind das deutlich ähnliche Begriffe, als wenn ich schreiben, wenn ein dritter Text beispielsweise eine
00:32:45: Johannesasdf Aber dann bekomme ich nicht die Antworten, die ich möchte und mache diesen Re-Ranking-Schritt und sage so, hier sind so liebe Sprachmodelle, hier habe ich mögliche Antworten.
00:32:57: Johannesasdf Jetzt denk du noch mal drüber nach, was der richtige Schritt ist. Und das möchte ich unseren Zuhörern auch mitgeben. Man kann auch das Sprachmodell selbst noch mal nutzen, damit es seine eigenen Antworten reflektiert.
00:33:16: datamics Ja, nochmal sehr spannende Tipps. Wie du schon gesagt hast, schauen wir mal, ob die in einem halben Jahr noch aktuell sind oder nicht. Wenn nicht, dann müssen wir im halben Jahr nochmal einen neuen Podcast mit aktuellen Themen zur GNI aufnehmen. Ich bin schon gespannt, was sich bis dahin dann ändert.
00:33:31: datamics Dann nochmal vielen Dank für die Teilnahme am Podcast. Ich denke es war spannend nochmal die Herausforderung zu sehen, was aktuell in dem Bereich abgeht, wo die Herausforderungen sind, was die Trends sind, auch Agentensysteme, Routing und so weiter. Ich denke mal es waren sehr viele spannende Einblicke in das Thema. Danke Johannes für die Teilnahme.
00:33:51: Johannesasdf Ja, danke schön.
Neuer Kommentar