Audiobearbeitung mit maschinellem Lernen
Shownotes
In diesem Podcast diskutieren wir mit Felix Burkhardt, Leiter der Forschung bei AudEERING, über Anwendungen der Audiobearbeitung mit maschinellem Lernen. Wir gehen auf verschiedene Bereiche wie Sprach- und Nicht-Sprach-Audioanalyse ein und betonen die Bedeutung der Mensch-Maschine-Interaktion. Beispiele sind intelligente Kopfhörer, die den Klang basierend auf der Umgebung anpassen, und die Erkennung von Emotionen zur Verbesserung der menschenähnlichen Kommunikation in verschiedenen Bereichen wie Gaming, Automobil und Gesundheitswesen. Felix hebt Herausforderungen wie das Labeln von Daten für das Training von Modellen und die Notwendigkeit von generalisierbaren Lösungen in der domänenspezifischen KI-Landschaft hervor.
Transkript anzeigen
00:00:00: Hallo und herzlich willkommen zur nächsten Episode des Data Science Podcasts mit Milch und Zucker.
00:00:06: Heute haben wir Felix Burkardt, Zugast as Head of Research at Audio Ring,
00:00:12: Expedit für Audio Bearbeitung mit KI im Datenbereich.
00:00:16: Herzlich willkommen, Felix.
00:00:18: Ja, hallo René, ich freue mich hier zu sein. Vielen Dank.
00:00:20: Wie schon besprochen, gehen wir heute durch die Audioverarbeitung rein.
00:00:25: Wir hatten schon mal ein kurzes Vorgesprächs, was sehr spannend.
00:00:28: Deswegen freue ich mich auch heute sehr auf diese Episode.
00:00:31: Kannst du ein bisschen erklären, was ist eigentlich die Audioverarbeitung?
00:00:34: Wir hatten schon ein bisschen Data Science Podcast mit Machine Learning, Modelle, Algorithmen usw.
00:00:40: Denkst du, Audio hat mir noch nichts, kannst du einfach mal so kurze Überblick geben?
00:00:44: Was kann man da machen?
00:00:45: Genau, Audio ganz allgemein würde ich mal aufteilen, vielleicht in Sprache und anderes Audio,
00:00:54: weil wir Menschen sind. Sprache für uns ist natürlich besonders wichtig.
00:00:57: Wir bei Audio Ring beschäftigen uns tatsächlich allgemein mit Audio.
00:01:00: Also es geht grundsätzlich darum, was können wir aus Audiosignalen lernen.
00:01:06: Also Audiosignale würde ich jetzt mal definieren, als Signale, die durch Mikrofone aufgenommen wurden, Luftdruck im Raum.
00:01:13: Und genau, da gibt es quasi diesen beiden Bereichen, würde ich sagen Sprache und Nichtsprache,
00:01:19: wobei man dann noch sagen könnte Sprache Musik und alles andere oder so.
00:01:23: Und wir beschäftigen uns damit mit industriellen Anwendungen, also der kommerzielle Anwendung als Firma natürlich.
00:01:30: Ich komme ja ursprünglich aus der Wissenschaft von der TU Berlin.
00:01:33: Da haben wir vor allem Phonetik damit gemacht.
00:01:36: Aber im Fall von Audiring geht es also um typischerweise um Mensch-Maschine-Interaktionen.
00:01:41: Die einfach dabei hilft quasi den Maschinen-Sensorik zu geben,
00:01:46: dass sie menschenähnlicher werden oder eine menschenartige Kommunikation erleichter.
00:01:52: Also Interaktion ist eigentlich unser Stichwort.
00:01:54: Was sind da dann Anwendungsbeispiele um das Ganze dann?
00:01:59: Genau, also Beispiele, wer jetzt zum Beispiel ein intelligenter Kopfhörer,
00:02:03: der merkt, in welcher akustischen Umgebung er gerade ist,
00:02:07: also ob er im Restaurant, im Büro oder im Flugzeug gerade funktionieren muss.
00:02:12: Und dann je nachdem zum Beispiel irgendwelche akustischen Filter zum Enhancement oder so justiert
00:02:19: oder eben auch mal, wenn er merkt, dass zum Beispiel das angesprochen wird,
00:02:23: ein automatisches Play-through und so Sachen.
00:02:27: Das wäre mal ein Beispiel aus der Akustik.
00:02:31: Dann haben wir das große Feld der Emotionserkennung.
00:02:35: Das ist tatsächlich unsere Spezialität.
00:02:38: Woher wir auch kommen.
00:02:40: Und da würde ich mal ganz allgemein sagen,
00:02:44: dass die menschliche Kommunikation stark über Emotionen funktioniert
00:02:48: und von daher auch eine Maschinen-Kommunikation.
00:02:52: Emotionen nicht außer Acht lassen sollte.
00:02:55: Also wäre das ein Anwendungsfall, dass man praktisch eine Maschine hat.
00:02:59: Je je bete macht einen Text und dann baubt man in den Text noch Emotionen ein,
00:03:03: damit die Maschine mehr angesprochen wird oder einem Roboter, der vielleicht eine Pflege ist,
00:03:08: oder einfach menschliche rüber kommen, wenn er spricht.
00:03:11: Ja, einmal das, wobei das fast schon zu soft klingt,
00:03:14: sondern es kann auch tatsächlich, dass man die Queries besser verarbeitet werden können,
00:03:19: dass man den emotionalen Kanal damit hat.
00:03:22: Zum Beispiel ein sehr einfaches Beispiel ist immer Ironie,
00:03:26: wo ja die emotionale Ausdruck quasi so übertrieben oder eben anders sein kann,
00:03:31: divergierend, dass sich die Semantik geradezu umdreht.
00:03:34: Ja, dass man also genau das Gegenteil von dem, was man gesagt hat.
00:03:37: Und das wäre halt schön, wenn Maschinen das genauso intuitiv mitbekommen würden wie Menschen.
00:03:43: Das könnte man dann auch auf zwei verschiedenen Ebenen.
00:03:46: Also Ironie kann man ja vielleicht auch in der Spracherkennung machen.
00:03:49: Also bei der Netfull Language Processing wird ja auch öfters versucht,
00:03:51: vielleicht in Ironie rauszufinden, ist allerdings noch recht schwierig.
00:03:57: Und man kann es dann vielleicht auch über die akustischen Signale dann rausfinden,
00:04:01: dass man sagt einfach mal eine andere Betonung von dem Wort,
00:04:04: dass man das dann miteinander verknüpft.
00:04:06: Ja, genau. Danke für das Tichwort.
00:04:08: Das ist also genau unser Thema, die Divergenz zwischen Akustik und Lingoistik im Prinzip.
00:04:14: Also wir beschäftigen uns sehr viel damit.
00:04:17: Inwieweit möchten wir was unterscheiden auch eventuell zwischen Lingoistik und Akustik?
00:04:24: Und inwieweit können wir quasi beide Modalitäten zusammen verwenden,
00:04:28: um jetzt irgendein Aushaar getreffen?
00:04:30: Ein Anwendungsfall wäre dann jemand, der rufen Kunden "Call Center" an und sagt,
00:04:35: das ist ein ganz tolles Produkt und sagt das ganz toll,
00:04:38: dann in einem vielleicht aggressiven Ton, dann sagt man, okay, das ist Ironie,
00:04:41: das heißt, der Kunde ist eigentlich gar nicht zufrieden.
00:04:44: Sonst hätte er nur ein Netfull Language Processing,
00:04:46: dann würde er sagen tolles Produkt, er würde sagen, okay, super Customer,
00:04:49: schlag ihm doch noch das andere Produkt vor,
00:04:51: was natürlich dann das Gegenteil belegen wird.
00:04:54: Ich habe gestern eine Waschmarschlinge gehabt.
00:04:56: Danke, dass du mir heute wieder eine anbietest.
00:04:58: Ja, vielleicht sollen wir kurz über die Märkte gehen.
00:05:02: Also die Anwendung, ich finde das immer ganz illustrativ,
00:05:06: wenn wir das kurz durchgehen, was unsere Hauptadressierungen an Kunden quasi.
00:05:12: Grundsätzlich machen wir also B2B, wir arbeiten also möglichst wenig mit Endco,
00:05:17: nicht weil wir das Gegenendkunden haben.
00:05:19: Nein, weil es einfach so ein Geschäftsfeld entspricht.
00:05:21: Also und unsere Märkte sind dabei, also Call Center,
00:05:26: gibt es tatsächlich auch schon ein Produkt zusammen mit der Firma GN,
00:05:30: ja, Antillabra, es ist eher bekannte als unter der Marke Yabra,
00:05:34: gibt es ein gemeinsames Produkt für Call Center Agent*innen,
00:05:39: wo quasi das das denen hilft, die Kundeninteraktion kontrolliert dazu gestalten
00:05:45: und sich selbst auch zu monitorn und auch zum Training.
00:05:48: Dann haben wir den Gaming Bereich, wo wir Projekte haben, da geht es darum,
00:05:57: einfach believable Charakters, also nonplayable Charakters,
00:06:02: die berühmten NPCs quasi mit einem emotionalen Sensorik auszustatten
00:06:07: und auch eine Ausgabe, wir machen tatsächlich auch emotionale Synthese von Audio,
00:06:13: dass die einfach genau mehr believable werden, also natürlicher,
00:06:18: mit jemandem interagieren und damit übrigens auch intelligenter wirken.
00:06:22: Also, interessanterweise ist ja auch die Grenze zwischen Emotionen und Neleganz
00:06:25: ist weder definiert noch besonders klar.
00:06:28: Ich bin sehr davon überzeugt, dass es keine, also es gibt den Begriff der Emotionsintelligenz
00:06:34: und ich denke, dass es eine Intelligenz ohne Emotionen ist,
00:06:37: ist nicht wirklich vorstellbar.
00:06:39: Wir haben eine Zweifel ab, wo waren wir gerade Gaming, genau.
00:06:43: Dann Automotive, also zusammen mit Self-Driving Cars,
00:06:47: werden natürlich Autos, sind zunehmend auch einfach Maschinen,
00:06:50: mit denen wir interagieren und die uns Dienstleistungen bringen.
00:06:53: Wahrscheinlich auch hier in beide Richtungen, einmal, wenn jemand mit dem Auto spricht,
00:06:58: wenn er sagt, fahre mich jetzt da und dahin, Liebesauto,
00:07:01: dann ist aufzunehmen, wie die Emotionen sind vom Fahrer momentan,
00:07:04: ist jetzt gestresst im Stau, zum Beispiel muss man jetzt reagieren,
00:07:07: vielleicht Assistenzsystem anpassen und wahrscheinlich auch umgekehrt,
00:07:09: wenn jetzt das Auto mit dem Fahrer oder der Fahrerin spricht,
00:07:13: dass wahrscheinlich dann auch Emotionen aus dem Auto rauskommen.
00:07:16: Oder ist das dann mehr ein?
00:07:17: Ja, dass die sich anpasst zum Beispiel.
00:07:20: Also es gibt ja durchaus psychologische Theorien,
00:07:23: dass wir besonders gerne mit Partnern interagieren, die ähnlich sind wie wir.
00:07:28: Übrigens sollten wir uns da jetzt bei all dem, was ich jetzt anspreche,
00:07:32: nicht nur auf Emotionen im Hinterkopf haben,
00:07:34: sondern generell Sprecher in Eigenschaften, also auch so was wie Alter, Geschlecht,
00:07:39: soziale Herkunft, Dialekt, all das, also im Prinzip alles,
00:07:45: was wir als Menschen aus der Stimme auch völlig unbewusst aufnehmen,
00:07:50: was jetzt nicht direkt dem Wortsinn entspricht,
00:07:53: ist durch Maschinen natürlich modellierbar
00:07:56: und tatsächlich in der Regel sogar auf einem super jungen Level.
00:08:01: Also gemeint ist damit, dass die Maschinen natürlich nicht unfehlbar sind,
00:08:05: sondern dass, wenn man eine Menge von Menschen nimmt, die das beurteilen,
00:08:10: dann und eben die Maschine damit vergleichen,
00:08:12: dann ist die Maschine mindestens im oberen Zehntel,
00:08:14: wenn nicht sogar im übernem Zehntel, also bei 110% oder so, Erkennung.
00:08:18: Das ist jetzt was ich meine, also wenn wir, genau.
00:08:21: Dass sie richtig erkennt, also wenn wir jetzt Personen haben,
00:08:23: ruft jemand an beim Callsender, und das ist jetzt im Auto,
00:08:26: dann sagt Fahr los, dann erkennt es Auto, die Person ist jetzt 80 Jahre
00:08:30: und es ist dann so genau, dass sie das mehr besser als ein Mensch kennt.
00:08:35: Es ist gestresst, genau.
00:08:37: Es ist auch schwaben, so was.
00:08:39: Es verdient so und so viel, im Monat.
00:08:42: Naja, im Prinzip, klar, ich meine, es korreliert alles,
00:08:45: wobei man da natürlich auch fassen muss.
00:08:47: Also bei es ist übrigens auch ein sehr spannendes Feld bei uns,
00:08:50: mit dem wir uns beschäftigen Fairness und bei es in Daten.
00:08:54: Ich denke da bist du ja auch Spezialist für Data Science.
00:08:58: Aber wie funktioniert das dann Ganze auf Data Science oder auf technischer Ebene,
00:09:03: wenn wir jetzt vorher sagen wollen, ob jetzt die Person dem Auto einsteigt
00:09:08: und spricht, wie alt die ist.
00:09:10: Das heißt, wir brauchen ja Testpersonen und würde die einfach sprechen lassen
00:09:14: und dann gelabelte Daten haben.
00:09:16: Wir sagen hier, diese Personen sind im Range 20 bis 30, 30 bis 40,
00:09:22: dann wird man die Modelle trainieren
00:09:25: und mit der Hand von diesen Modellen würde dann die KI sagen, das ist ein alter
00:09:30: oder geht man dann eher auf Audio, macht wahrscheinlich noch Vorklassifizierung.
00:09:34: Genau, da spricht ihr jetzt überwachtes Lernen an.
00:09:37: Da verwenden wir natürlich das gesamte Samusurium,
00:09:40: den ganzen Zoo, den die KI da derzeit zu bieten hat.
00:09:44: Klassisch ist das, was du gerade skizziert hast.
00:09:46: Das nennt man überwachtes Lernen, das heißt, ich habe eine Trainingsmenge
00:09:49: und kann die verwenden, um irgendein Algorithmus zu trainieren
00:09:52: und dann letztendlich im Testfall zu sagen, okay, sag mir mal, zu welchem Trainingsbeispiel
00:09:56: dieses Test am besten passt und dann nehme ich das Label, was da dran ist.
00:10:00: Das ist die traditionelle Art.
00:10:02: Die Schwierigkeit war dabei mit neuronalen Netzen, die sich ja seit ungefähr 10
00:10:07: und zwischen jetzt glaube ich 15 Jahre als unschlagbar erwiesen haben.
00:10:12: Dann können wir auch gerne drauf kommen, warum das der Fall ist.
00:10:15: Dass da ursprünglich die Situation so war, dass das oft nicht funktioniert hat,
00:10:19: weil man sehr, sehr viele Trainingsmengen brauchte,
00:10:21: diese Modelle haben sehr viele, also um so gut zu funktionieren,
00:10:23: brauchen sie halt viele Parameter und um diese vielen Parameter gut trainieren zu können,
00:10:27: braucht man auch wieder Trainingsbeispiele, sonst ist das sehr schnell overfitted.
00:10:31: Also wenn ich ein sehr komplexes Modell auf eine sehr kleine Trainingsmenge loslasse,
00:10:35: dann habe ich halt genau diese Trainingsmenge kodiert, aber nichts anderes.
00:10:39: Deswegen ist das aber auch schon lange entschärft, also seit über 10 Jahren oder so,
00:10:45: gibt es also die Techniken des Representation-Learnings.
00:10:49: Das bedeutet, dass zunächst in unüberwachter Weise die, wie soll ich sagen,
00:10:56: die Natur des Sprachsignals gelernt werden kann von den neuronalen Netzen.
00:11:00: Und ich dann letztendlich für meine Anwendung nur noch eine relativ geringe Trainingsmenge brauche,
00:11:05: um jetzt zum sogenannten Feintuning, also zur Feinjustierung letztendlich das Abort.
00:11:11: Es ist dann ähnlich wie bei den Chatchi-BT-Modellen,
00:11:14: vielleicht man kann ja die vortrainierten Modelle von Chatchi-BT runterladen,
00:11:19: dann relativ einfach mit, also da ist es dann mit Vector, Intestin oder Rackmodellen,
00:11:25: eigene Daten dann trainieren und braucht dann nicht komplett alles selber trainieren,
00:11:29: sondern hat schon... - Absolut, das ist genau das, was ich vorhin gerade red.
00:11:33: Was vielleicht noch ein bisschen schwierig ist, ist rauszufinden,
00:11:37: gut vielleicht, dass zu sagen, wie die Emotionen sind,
00:11:41: weil muss es jetzt klassifizieren, ist jetzt jemand glücklich, ist jetzt jemand nicht,
00:11:44: also wenn man da auch bei dem Learning ist, muss man halt markieren,
00:11:47: das ist halt wahrscheinlich auch wieder das Labeling, dann schwierig ist.
00:11:50: ist jemand wirklich glücklich, macht da nur so, ich glaube da ist dann wahrscheinlich auch die
00:11:53: Schwierigkeit so. Was meine ich, dass ich das Techniker ist, wahrscheinlich das Trainieren,
00:11:56: weil die ganze Infrastruktur jetzt leichter, aber so das ganze Labeling, die die Norsen kommen
00:12:02: jetzt auch aufwendig vor. Sind Sie auch. Also wir beschäftigen tatsächlich, wir haben eigenes
00:12:08: Anotator in dem Team, was wir beschäftigen bei Audiring, das sind sag mal salopp Menschen aus
00:12:15: dem Volk. Wir versuchen da möglichst divers zu sein, allerdings derzeit alles in Deutschland, also
00:12:22: nur deutsche Labelren und das sind so schlappte um die 20 Menschen gibt es da drin, wechselnd und
00:12:29: die anotieren für uns quasi mechanical Turkmäßig Audiodateien und die Schwierigkeit ist schon
00:12:37: immer dabei, was man denen, also da haben wir, das ist ein wirklich sehr komplexes Feld, diese
00:12:43: Anotation, weil ihr zu überwachten Training gehört, wie du richtig gesagt hast, das ist halt
00:12:49: schwierig, die so zu trainieren, dass wirklich alle Labeler das gleiche meinen, verstanden haben,
00:12:54: was ihre Aufgabe ist und man sieht dann am Ende hat man halt das Interlabeler Agreement, was auch
00:13:00: wieder ein sehr spannendes Feld ist. Also man kann gucken, man kann versuchen sich aus den Daten
00:13:04: dann interessante Daten rauszufischen, wo das Interlabeler Agreement besonders gering ist,
00:13:09: um eben so zwischen Sachen zu finden, die vielleicht nicht gut modelliert sind. Was ist
00:13:13: das genau, das Interlabeler Agreement oder wie funktioniert das Ganze? Das ist eben, wenn wir
00:13:19: beide jetzt ein Audiodatei hören würden und wir würden gefragt, ist das jetzt fröhlich, ärgerlich
00:13:24: oder genervt oder irgendwas und dann würden wir eventuell divergieren und fahren ihn jetzt auf
00:13:29: eine Skala, also wenn das jetzt nur eins von drei Levels wäre, würden wir wahrscheinlich das gleiche
00:13:33: meinen, aber in der Regel werden die Leute nach dem Wert gefragt von 1 bis 10 oder so und was wir
00:13:40: auch gerne machen ist, dass wir Emotionsdimensionen Labeln, weil wir vorher oft nicht wissen können,
00:13:47: an welchen Emotionen unsere Kund*innen eigentlich genau interessiert sind und von daher versuchen
00:13:53: wir die Emotionen als sich, als Phänomen zu modellieren, indem wir Emotionsdimensionen
00:13:59: verwenden. Da sind am bekanntesten die drei Arousal Valence und Dominance und das macht quasi so
00:14:06: ein Emotionsraum auf, wobei Arousal beschreibt, wie stark erregt ich gerade bin, Valence,
00:14:12: wie gut ich mich gerade fühle, wie positiv ich gestimmt bin und Dominance, wie stark ich mich
00:14:17: dabei fühle. Man merkt schon, die sind nicht unabhängig voneinander, also ist jetzt nicht so
00:14:22: einfach eine Emotion zu konstruieren, die eine geringe Dominanz und eine hohe Valence hat,
00:14:25: aber ansonsten kann man da schon alle möglichen Emotionen ganz gut einordnen.
00:14:29: Aber es ist schon schwieriger, ich glaube da muss man schon noch haben, um zu Labeln,
00:14:34: also da könnte man jetzt nicht jeden ex-beliebigen nehmen, wahrscheinlich mich auch nicht.
00:14:37: Das ist ja ein festes Team, genau, also deswegen, wir achten schon darauf, dass die Leute, dass wir
00:14:42: die auch so ein bisschen schulen und es gibt Workshops dazu und das ist ein festes Team,
00:14:46: also da nehmen wir nicht jedes Mal andere Leute, sondern schon immer die selben.
00:14:50: Ja, dann kann man spannende Themen auch Labeln auch erkennen, ob jemand vielleicht an Depressionen
00:14:56: leitet, vielleicht Krankheiten, das ist auf dem Fall schon mal besprochen, also es sind wirklich
00:15:01: spannende Themen, die man mit behandeln kann. Ja, danke für das Stichwort, das ist ein
00:15:05: weiterer Anwendungsfeld, ist quasi, also Medizintechnik wäre jetzt glaube ich zu weit, wenn Well-Being und
00:15:13: Healthcare sagen wir, weil wir in der Zeit keine Medizinprodukte haben, das ist ja doch zu
00:15:17: rechten, sehr aufwendige Entwicklungsprozesse, aber wir arbeiten auch in der Richtung, wir haben
00:15:23: Studien zu Covid gemacht und derzeit sind wir am Projektantrag für Depressionen und wir haben
00:15:29: also auch schon viele, über Autismus, also wir haben viel jetzt bei EU-Projekten und bei nationalen
00:15:35: WMBF und WMBI-Projekten uns beteiligt und hoffen natürlich schon in der Zukunft auch ein Geschäft
00:15:42: daraus zu machen. Also die Anwendungsfelder sind groß, ich persönlich weiß noch nicht
00:15:47: so auf Audio, ich mal spezialisiert, aber ich glaube wenn man darüber verspricht und nachdenkt,
00:15:52: gibt es richtig, richtig viele coole Einsatzfelder und auch wo man wirklich was Positives bewirken
00:15:57: kann für die Menschheit, für die Gesellschaft, zum besseren und auch unterstützen kann. Was sind
00:16:04: so die Herausforderungen, die man hat dann bei den, bei den Audio-Projekten? Also die Hauptschwierigkeit
00:16:11: beim Maschinenlernen würde ich, also das ist allgemein, wie beim Maschinenlernen ist die
00:16:14: Generalisierbarkeit, das war es man ja auch, quasi wir haben keine allgemeine KI, sondern wir haben
00:16:20: eine speziellen, domänespezifische KI und die wollen wir eigentlich nicht, wir möchten nicht für
00:16:27: jeden Kunden immer wieder neue Modelle trainieren und neue Lösungen entwickeln, weil das einfach
00:16:31: zu aufwendig ist und oft sind unsere Lösungen auch nur ein Teil des Ganzen, also die tragen was dazu
00:16:37: bei, aber nicht der Hauptzeug der Selbstzwecks, das heißt die dürfen nicht so teuer sein und von
00:16:42: daher genau, also es ist halt herausfordernd, Modelle zu trainieren, die wirklich in jeder
00:16:49: Lage und für alle Input-Signale quasi funktionieren und da haben wir die Techniken, die alle
00:16:54: anderen natürlich auch verwenden. Was gibt es da für Möglichkeiten, also man kann das Input-Signal
00:16:58: versuchen dem Training gleich zu machen, also Speech Enhancement, Stichwort jetzt, da kooperieren
00:17:03: wird zum Teil auch mit anderen Firmen, also wir haben befreundete Firmen in unserem Umfeld,
00:17:08: mit denen wir kooperieren, die zum Beispiel jetzt auch Speech Enhancement spezialisiert sind und
00:17:12: wir testen, wie das läuft. Was kann man da machen oder kann man sich jetzt konkret untervorstellen
00:17:17: von so einem Speech Enhancement? Das ist Neues Redaktion zum Beispiel, also wir können uns vorstellen,
00:17:20: dass wir in unserer Anwendung besteht zum Beispiel darin, dass Leute auf der Straße in ihr Smartphone
00:17:25: reden und das Problem ist, dass ständig Allkaufs vorbeifahren, es kann ja in Fabrikhalle sein,
00:17:30: also dass es stark Neues gibt und um diese Signale vernünftig zu verarbeiten,
00:17:34: müssen die quasi erstmal gesäubert werden, die Sprache müsste extrahiert werden und da geht
00:17:41: auch dank neuronaler Technologie, gehen da wirklich vorrangende Sachen. Ja, also das ist eine Art,
00:17:47: dann kann man natürlich das Trainingsmaterial, das nennt man Augmentierung, also wir fügen
00:17:53: extra dem Trainingsmaterial Rauschen hinzu, weil das Ziel ist ja immer Test und Training
00:17:59: wirklich gleich zu haben, das ist also Augmentation. Dann ganz neues Feld durch die generative KI,
00:18:05: was wir natürlich auch machen, wir synthetisieren uns Trainingsmaterial, in dem Fall also wir sind
00:18:11: jetzt keine ausgesprochene Sprachsynthese Firma, aber wir arbeiten auch mit Sprachsynthese in
00:18:16: Technologien zum Teil um uns eben auch Training zu besorgen, zum Teil aber auch ums natürlich
00:18:21: den Kunden dann als Gesandpaket anzubieten, also dass wir quasi der Sprachanbieter dann sind.
00:18:26: Auch sehr spannendes Feld, um Daten zu generieren. Wir kommen auch immer mehr, ich denke auch von
00:18:32: anderen Projekten ist einfach die Label oder Datenmenge ist einfach ein kritisches Feld,
00:18:37: ist auch wichtig für ein Algorithmus und auch mit Generei kann man da sehr gute Daten schon
00:18:42: schon generieren für das Training auch Kosten zu sparen. Genau. Ja, sehr spannende Team, ich glaube,
00:18:50: wir haben es auch einiges gelernt, auch nicht nochmal mit Interlabeling Agreement, ich denke auch
00:18:55: technisch ist es wahrscheinlich ähnlich wie die meisten, allerdings ist es dann wieder das
00:19:00: Domainwissen am Anfang, Labeling, Daten, wie hält man die Audio-Dateien, wie kann man das
00:19:05: Ganze angehen, wahrscheinlich auch Speech Enhancement vielleicht dazu noch, ich denke,
00:19:09: darf natürlich auch nicht zu viel weggenommen werden, wenn es die Speech Enhancement zu
00:19:12: viel Neues wegnimmt oder vielleicht noch Informationen von der Audiospur dann entfernen,
00:19:17: dann kann man nicht mehr erkennen, ob er ein Fröhliches oder vielleicht traurig ist. Also die
00:19:22: ganze Kette am Anfang ist wahrscheinlich dann der Knackpunkt sozusagen, um daran zu kommen.
00:19:27: So weit, ich war es sehr spannend. Hast du zum Abschluss noch ein bis drei Tipps,
00:19:34: die du andere mitgeben würdest, die vielleicht mit Machine Learning Umfeld, AI-Umfeld oder auch
00:19:40: Data Science-Umfeld arbeiten? Ja, also mein Tipp wäre auf jeden Fall oder mein Hinweis,
00:19:47: vielleicht, dass wir in wirklich sehr spannenden Zeiten leben, die es eigentlich auch sehr leicht
00:19:52: machen, einfach durchs Internet. Und der Tipp ist eigentlich, was dahinter steht, selber machen.
00:19:59: Dass das ging halt früher nicht, weil man doch vielleicht erst mal zwei Semester studieren musste
00:20:03: und irgendwie alle Milch-Essorfter kaufen musste, also ein sehr hoher Aufwand, um selber Experimente
00:20:07: zu machen. Das ist inzwischen da ein vieler Plattform, wie ich sage jetzt mal Google-Collab,
00:20:13: zum Beispiel als Beispiel wirklich sehr viel niedrigschwelliger geworden und einfacher. Es gibt
00:20:18: diese hervorragenden Mediums, zum Beispiel Artikel, als ich würde es nicht verwerben machen für
00:20:22: irgendwer, ja niemand bezahlt mich hier. Aber ich denke, die höhereinnen wissen alle, was ich meine,
00:20:27: sage ich auch mal, studieren. Denn immer bitte versuchst selbstständig zu sein, Google die Sachen,
00:20:33: ja oder sucht die Sachen irgendwie und es gibt so viele Möglichkeiten. Ja, meine Heise,
00:20:39: Chatchibitie, nicht mal Googling. Chatchibitie ist okay, das war's auch immer. Versuch keine
00:20:47: Halluzination zu kriegen, aber sonst macht gerne das. Auf jeden Fall, aber eben nicht nur das,
00:20:51: das ist eben, das wäre natürlich zu einfach, ja, sondern mach's selber. Programmiere selber. Ich
00:20:57: habe ja zum Beispiel in das Software geschrieben, ich kurz Werbung machen darf, Kululeko, die genau
00:21:02: dafür ist, dass Menschen Maschinen lernen, also sprachbasierte Maschinen lernen, Experimente
00:21:08: durchführen können und Analysen ohne programmieren zu können. Die ist natürlich Python, also der
00:21:12: andere Hinweis von mir wäre, dass ich übrigens lernen kann Python im Maschinenlandumfeld ist,
00:21:17: das umgänglich und das ist auch ein großer Spaß. Mir hat das Spaß gemacht, ich habe es auch erst
00:21:22: vor fünf Jahren gelernt, ich bin eigentlich kommen aus der Java-Welt, aber habe mich wirklich seit
00:21:26: fünf Jahren erst habe ich angefangen sowohl mit neuronalen Netzen als auch mit Python und
00:21:30: das ist also alles machbar. Ich bin jetzt jetzt kein Asterin logischerweise, aber es ist sehr gut
00:21:36: zu benutzen und es macht viel Spaß und also nimmt die Chance und ja und geht damit an die
00:21:41: Öffentlichkeit. Beteiligt euch bei GitHub, veröffentlicht eure Projekte, geht zu Kegel,
00:21:45: macht Challenges mit, das ist wirklich auch eine sehr nette und angenehme Community,
00:21:50: spricht Englisch, um die ist international zu sein, also das wäre so meine Hinweise.
00:21:55: Ja, sehr schön. Auch das selber machen, ich bin immer wieder überrascht, dass das so
00:22:00: viele Tipps gibt, wir haben jetzt schon einige Episoden, aber es kommen immer wieder neue Tipps
00:22:04: am Ende auch selber machen, ganz wichtig. Ganz am Anfang, einen noch,
00:22:09: wie ich sehr empfehle, ist Andrew Ng, den berühmte ich sehr hoffentlich bekannt,
00:22:14: also Andrew und ein NG geschrieben, also der Guru quasi, letztendlich neuronalen Netze,
00:22:22: nicht als Entwickler, aber vor allen Dingen als Pädagoge, als didaktisches,
00:22:26: der ist wirklich viel von dem anschauen und seinen Spirit mitnehmen. Auch da noch ein super
00:22:31: Tipp, auch mit dem Link, können wir gerne noch einstellen dann von deinem Projekt,
00:22:36: was du schon gesagt hast. Da freu ich mich ja gerne. Da kannst du dich jeder noch anschauen,
00:22:40: braucht nicht zurückspulen und selber googeln, dann findet es auch jeder gleich. Okay,
00:22:45: dann vielen Dank, ich denke, spannende Einsichten für im Bereich Audio, das hat mir bisher noch
00:22:51: nicht, es gibt Ähnlichkeiten zu anderen Bereichen, glaube ich, denke ich, vom Data Science Bereich
00:22:55: Umfeld öfters einheitlich sind, allerdings dann auch wieder das Domain spezifische Wissen,
00:23:00: was man sich dann aufarbeiten muss, aber die Anwendungsfälle, denke ich, da steht das ganze
00:23:04: Audio Signal momentan noch weit hinten dran oder noch so ein bisschen unsichtbar, im Vergleich
00:23:09: jetzt so NLP, LMMs, was in aller Munde sind, dann kann man sich vielleicht auch ein bisschen,
00:23:15: wenn jemand möchte, in, auf Audio vielleicht fokussieren. Genau, wobei ich denke, viele benutzen
00:23:21: es schon unwusst, indem sie mit ihrem Smartphone sprechen und quasi Google oder Apple oder Amazon
00:23:26: ihre Daten geben. Bestimmt. Okay. Dann vielen Dank Felix, da habe ich sehr gefreut. Mich auch,
00:23:34: vielen Dank René und schönen Tag noch. Schönen Tag auch an die Hörer.
00:23:38: Ciao.
Neuer Kommentar