From Algorithm to Application: A Look into the World of Data Science with Falcony AI
Shownotes
+++Unsere 25. Podcast-Episode: Vom Algorithmus zur Anwendung: Ein Blick in die Welt von Data Science mit Falcony AI+++
+++ English Version below +++
In dieser Folge begrüßt René seinen Gast Mirza Klimenta den Gründer von Falcony AI, der uns tiefe Einblicke in spannende DataScience-Projekte geben wird.
Wir tauchen gemeinsam ein in faszinierende Themen wie Recommender-Systeme, Kausalität und seine Erfahrungen mit verschiedenen Datenprojekten. Mirza teilt offen sein Wissen über Algorithmenforschung bis zur praktischen Anwendung in verschiedenen Branchen mit uns! Wir werden dabei z.B. über die Zusammenarbeit mit einem Unternehmen sprechen, das sich auf Inkasso spezialisiert hat. Mirza und sein Team entwickeln Modelle zur Vorhersage der Wahrscheinlichkeit von Zahlungseingängen bei Bankkunden.
Mirza gibt euch auch wertvolle Tipps, etwa die Wichtigkeit einer gründlichen Anfangsanalyse der Daten und das Verständnis ihrer Verteilung, bevor man überhaupt Modelle auswählt. Er betont, wie entscheidend es ist, einfache Basismodelle als Vergleichsgrundlage zu verwenden, bevor komplexere Ansätze wie Graph Neural Networks und Cloud-basierte Lösungen angewendet werden.
Diese Episode bietet nicht nur einen Einblick in aktuelle Projekte und Technologien, sondern auch praktische Ratschläge für Data Scientists, die ihre Methodik verfeinern wollen. Ein Muss für jeden, der sich für die Schnittstelle von Datenwissenschaft und realen Anwendungen interessiert.
+++ English Version +++
In this episode, René welcomes his guest Mirza Klimenta, the founder of Falcony AI, who will provide deep insights into exciting data science projects.
Together, we delve into fascinating topics such as recommender systems, causality, and his experiences with various data projects. Mirza openly shares his knowledge from algorithm research to practical application across different industries! For instance, we will discuss his collaboration with a company specializing in debt collection. Mirza and his team are developing models to predict the likelihood of payment receipts from bank clients.
Mirza also offers valuable tips, such as the importance of a thorough initial analysis of the data and understanding their distribution before even selecting models. He emphasizes how crucial it is to use simple baseline models as a point of comparison before applying more complex approaches like Graph Neural Networks and cloud-based solutions.
This episode not only provides a glimpse into current projects and technologies but also offers practical advice for data scientists looking to refine their methodologies. It's a must-listen for anyone interested in the intersection of data science and real-world applications.
Für mehr Informationen zum Thema Data Science, besuche gerne unsere Website: https://datamics.com/
Oder nimm an einem unserer zahlreichen Onlinekurse teil: https://www.udemy.com/user/datamics/
Transkript anzeigen
2.312
datamics
Hi and welcome to our next episode of the podcast Data Science with Milk and Sugar. Today we have as guest Mirza Clementa. He will talk about recommender systems, balcony AI and also other interesting data science projects. I'm happy that you're here today.
21.8
Mirza
Danke, dass Sie mich hier haben.
24.292
datamics
Vielleicht könnt ihr eine kurze Introduktion über euch selbst machen, vielleicht auch in Bezug auf Falkony, AI, was ihr dort macht.
33.439
Mirza
Sure. So my name is Mieza. Originally I come from Bosnia. I studied computer science at the University Sarajevo School of Science and Technology in Sarajevo, which was the first English speaking university of that kind in the territory of the former Yugoslavia. After my bachelor, I started my PhD here in Germany at the University of Konstanz. And it was in the algorithmist group because I was very interested in anything that has to do with algorithms. I remember that during my studies
61.596
Mirza
Ich war sehr beeindruckt, wie man Algorithmen schneller machen kann, also die Sortungs-Algorithmen und auch die Datenstruktur, also wie man die Minimum-Maximum-Werte erzeugen kann und so weiter. Ich hatte damals ein sehr schönes Projekt.
75.128
Mirza
In dem Bereich der Grafdrehung, heute wird es wie Graf-Embedding in Maschinellehrung sein, aber damals war es in 2D und 3D, also visualisierte es sich in einem zweidimensionalen Raum und ich nutzte einige Dimensionenreduktion-Techniken, um dieses Ziel zu erreichen. Und ja, meine Dissertation hat ein paar Kontributen, sehr interessant, und ein Teil davon ist eigentlich, was meine Passion ist, und das ist, die Geschwindigkeit des Algorithms zu verbessern.
101.92
Mirza
Wir haben zum Beispiel einen Algorithm verwendet, um die Geschwindigkeit zu verbessern. Es war eine iterative Erklärung, und die Komplexität, die Zeitkomplexität, war quadratisch per Interaktion. Und wir haben eine Abwechslung gemacht, um es in einer Linie zu reduzieren.
114.957
Mirza
und wir haben eigentlich den besten Papier gewonnen, in der Graf-Drawing-Konferenz. Danach habe ich meinen PhD. Ich arbeitete in Karlsruhe in der Automotive-Industrie, aber dann habe ich auch gesagt, dass es nicht wirklich eine algorithmische Herausforderung, eine reiche Umwelt war, also bin ich in Italien, in der Universität Roma 3, in Rom, wo ich meinen Postdoc gemacht habe. Aber das war nur eine theoretische Kontribution, also arbeitete ich auf dem Morphin,
144.411
Mirza
Das ist der Grund, warum ich mich in die Industrie zurückgezogen habe, um eine Datenwissenschaften-Experienz zu bekommen. Dann bin ich in Sarajevo zurückgekommen und habe für eine Firma gearbeitet, in der wir die Stock-Market-Prediktion durch Grafseries-Analysis gemacht haben. Danach bin ich in München zurückgekommen, wo ich für Grafseries-Analysis gearbeitet habe.
165.367
Mirza
Ich arbeite an dem Design und Entwicklung des RECOMMENDER-SYSTEM-POWERING-IRD-Audio-Tech. Sie haben es bereits erwähnt. Ich bin der Founder und CEO von FALCONY AI, welches eine Consulting-Kompanie ist. Wir verbreiten AI-Solutions, also Machine Learning Data Science-Solutions für andere Unternehmen.
188.574
Mirza
Es ist ziemlich breit und generell, also wollen wir ein bisschen spezialisieren. Und die Spezialität ist definitiv im Bereich der Recommender-Systems, aber was mir in den letzten Tagen besonders interessant ist, ist die Kosalität.
206.195
Mirza
Wir als Datenwissenschaftler wissen, was Korrelation ist, aber Korrelation bedeutet nicht unbedingt Kosalität. Ich denke, das ist eine gute Marktopportunität für uns, auch in diesem Bereich zu starten. Vielleicht ein bisschen mehr elaborierend, als Sie das vorhin erwähnten, aber ja. Genau. Perfekt, ich kann weitergehen.
220.572
datamics
Sounds, uh, yeah.
225.229
datamics
Ja, eine sehr schöne Erinnerung. Ich muss nicht viele Dinge machen, also ist es sehr schön für mich, weil es perfekt ist. Ich muss nicht zu viel reden. Sehr schön. Auch über die Themen der Graph-Series-Analysen im Finanzmarkt. Ich habe auch einen Masterstudent, der Graph Neural Networks, die Stoxx-Prediktion macht. Aber das ist ein anderes Thema, aber vielleicht ist es interessant für einen anderen Podcast. Eines Tages möchte ich es nur erwähnen.
250.862
datamics
Heute fokussieren wir uns auf Recomender-Systeme und auch auf die Kausalität, die du erwähnt hast. Das klingt sehr interessant, denn normalerweise reden die Menschen über Korrelationen. Und es gibt diese berühmten, spurious Korrelationen, die man auf der Internet googeln kann und man sieht, dass die Zahl der Drachen im Schwimmpel im Vergleich zur Zahl der Filme, in denen Nicolas Cage in einem Jahr war, diese berühmten Korrelationen gibt.
278.353
datamics
Ich denke, es ist wichtig, auch auf die Kausalität zu konzentrieren, dass man sagt, dass diese Kausalität von den anderen Aspekten kreiert. Ich würde wirklich auch ein bisschen in diese Frage nachdenken. Haben Sie irgendwelche Beispiele, wie man die Kausalität erzielen kann? Ich denke, es gibt viele Herausforderungen, um das zu erreichen.
278.632
Mirza
Genau. Als für die Kausalität eigentlich, was wir gemacht haben, ist, dass wir einen Kurs an der Kausalität angefangen haben.
305.862
Mirza
Es gibt einen guten Kurs von der Uplimit. Vorhin war es Core Rise und sie haben einen guten Kurs auf die Kosalität gesucht. Es war wie ein introductory Kurs, aber von dort kann man anfangen und lernen über die Modelle und so weiter. Es war einfach eine Postsensierung für uns, also haben wir noch nicht tief in es gefilmt. Aber wir sahen, dass es ein extremes Wissen für die Unternehmen wäre.
335.043
Mirza
Das ist der Grund, warum wir gesagt haben, dass wir uns hier drüber hinschauen. Und es gibt, wie ich weiß, im Vergleich mit der Zahl der Unternehmen, die AI-Services oder Recommended-Services anbieten, relativ zu der Zahl der Unternehmen, die Causality-Services anbieten, dann ist es eine große Chance für uns. Also hoffe ich, dass jemand, der den Podcast hört, morgen auch mein Competitor sein wird.
357.858
datamics
Und wie kann man dann die Causality machen? Verbreitet man das in den Recommender-Systemen, wo man wirklich sagt, dass die Zuschauer online-Shops oder ein Netflix-Movie kaufen, oder wenn jemand dieses Produkt gekauft hat, verbreitet man auch das andere Produkt. Und dann gibt es dort die Causality.
376.049
Mirza
Genau, also das ist die originelle Idee, wie wir versuchen würden, rational zu sein, um bestimmte Bewegungen zu justifizieren, die wir mit den Recommender-Systemen machen, aber nicht nur mit den Recommender-Systemen. Es kann also sein, dass wir ein Projekt mit Caterpillar haben, das eine große Firma ist,
404.998
Mirza
und dann sind sie interessiert, wie wir prädigieren können, welche Teile werden bewechselt, an welchem Punkt und wann und so weiter. Für sie kann die Causalität also eine Rolle spielen. Ich gebe nur ein paar Beispiele. Auf der Bedeutung von anderen Prädigungsmodellen, wenn wir ein paar Causalitäten infizieren können, wird das eine extrem neue Werte.
430.367
datamics
All right, and one challenge, as we mentioned, is the causality. And do we have other challenges in recommender systems? Once you apply them, if it's some library, mediatek, online shops, I think there's various use cases in this.
448.029
Mirza
Genau, also ich kann eigentlich diese sehr interessante Geschichte erzählen, weil wir einen Kunden hatten, bei dem wir Recommenden für einen Online-Sportbetten-Shop machen. So kannst du dir vorstellen, dass jetzt die Requirements ganz anders sind. Lass uns die IRD-Audiothek vergleichen. Der IRD-Audiothek ist ein Non-For-Profit.
473.774
Mirza
Das ist das Ziel des Recommendationssystems. Und wir sagen, dass der Kollaborativ-Filter-Paradigm hier besonders nötig ist. Also, die Kunden, die auf der Suche des Recommendationssystems arbeiten, können in der Suche des Recommendationssystems, in der Suche des Recommendationssystems, in der Suche des Recommendationssystems,
488.938
Mirza
Sie werden auch in der Zukunft so viel konsumieren. Aber jetzt wird die Geschichte ein bisschen anders, wenn man die Online-Betting-Shop als Sports-Betting-Shop bett. Was ist jetzt das Ziel? Das Ziel ist es, den User weiter zu betten, damit er ihn liebt.
499.548
datamics
Vielen Dank für's Zuschauen.
508.729
Mirza
die Betten, die du empfängst, aber auch der Interesse der Beteiligten der Sportbetting-Shop ist, Geld zu verdienen. Das bedeutet, dass der Nutzer die Empfehlung liebt und ihn verliert. Das ist ein schade Deal auf der Seite des Morals, aber das ist dann die Herausforderung. Du weißt, wie man beide Seiten entschuldigen kann.
534.582
Mirza
und die Analyse auf die Zahl der Nutzer, die als schweren Nutzer beschrieben werden, und dann die ökologischen Spieler, die ökologischen Betten, die Betten spielen. Und dann müssen wir die Kalkulation und die Betten der Recommenter-System-Algorithmen befinden, sodass beide Parteien zufrieden sind. Beide Parteien in dem Sinne, dass die Mehrheit der Menschen eigentlich weiter die online Betten besuchen, aber trotzdem, dass es
567.108
Mirza
Wir hatten eine Herausforderung, die Modelle zu nutzen. Die Modelle, die wir gedacht haben, könnten gut funktionieren, aber in diesem Fall für die Online-Betting-Shop-Kollaborative-Filtering-Paradigm, also für die Kunden, die die Betten auf der
587.688
Mirza
Similar Bets tend to place similar Bets in the future, does not hold. So the paradigm does not hold, which is so the users are practically more interested in, there is no, not like, okay, if there is like a user A place Bets in the Champions League, two Bets and then the other in just one, then it makes sense to recommend the other one.
609.258
Mirza
Die Spieler sind interessiert. Es gibt natürlich ein paar faszinierte Spieler, aber die meisten sind nur interessiert in der Anzahl, die sie gewinnen können. Das sind die Teams, die spielen. Wenn wir irgendwelche zusätzlichen Features auf den Sportteam verwenden, macht es keinen Unterschied. Das ist der Grund, warum wir eine
637.756
Mirza
Das ist eine sehr extensive Datenanalyse, um die Nutzerbehaviour zu verstehen und dann mit der Fintuning von einigen Modellen zu beginnen. Es gibt Modelle, die wir versucht haben.
656.763
Mirza
Wir hatten eine sehr gute Erfahrung, weil wir alles durch AWS gemacht haben. In AWS gibt es eine Rezepte. Ich glaube, sie ist aufgrund der hierarchischen, herkömmlichen neuralen Netzwerke basierend. Diese Modelle war eigentlich schwer zu bewerben. Sie war ziemlich gut. Die Präzision, die wir geteilt haben, war sehr hoch. Wir haben versucht, nahe zu kommen.
685.81
Mirza
Es ist eine schwarze Box, also wissen wir noch nicht, wie man die Reaktionsparameter bezeichnet. Aber es hat sich sehr gut geändert. Das war eine der Herausforderungen.
698.951
Mirza
Und es gibt auch die Herausforderungen, wie oft der Modell getraut wird, oder ob er real-time in Sessionen gebraucht wird. Ich glaube, das war etwas sehr Interessantes.
717.79
Mirza
ein kleines Forschungssystem für Online-Betting-Shops. Aber das Feld ist sehr interessant. Ich denke, dass die meisten Leute das nicht machen wollen, weil, wenn du ihnen sagst, was die Anforderungen sind, also die Nutzer wie die Betten, die du empfohlen hast, aber sie auch verlieren, ist das etwas, bei dem du sagst, ich werde das nicht tun. Aber es ist sehr interessant, wie man beide Parteien zufrieden bleibt.
741.205
datamics
Ja, es ...
744.923
datamics
Ja, aber es ist wahrscheinlich auch ähnlich zu einem Online-Shop. Natürlich ist es anders, vielleicht aus ethischen Perspektiven, aber auch Online-Shops. Ich denke, wie Amazon, versuchen sie auch, den Revenu oder den Vorteil zu maximieren. Sie recommendieren vielleicht auch Produkte. Natürlich, was die Kunden wollen und mit denen sie glücklich sind. Aber vielleicht auch, ich weiß nicht, ob sie auch Produkte recommendieren, wo sie einen höheren Vorteil haben, die sie den Kunden geben, also kann es auch sein.
769.838
Mirza
Genau. Ich habe einen Datenwissenschaftler interviewt. Ich habe ihm gesagt, dass es zwei Recommender-Modelle gibt und beide haben 4 von 10 Hits.
784.701
Mirza
Aber wie kannst du sagen, welcher der noch besser ist als der andere? Also ich wollte ein MDCG, also die Position der Recommendationen. Und er sagte, ja, aber wenn es das Recommender System für einen Online-Bedding-Shop ist, dann werde ich für das Geld gehen. Ich werde einfach die Geld, die ich von dem ersten Modell bekomme, und dann von dem zweiten Modell, und das wird mein Metric sein. Und es war eine klare Idee. Ich meine, sehr einfach, aber okay, es macht Sinn im Business-Gesetz.
813.131
datamics
Ja, da ist das Geld, wie in der MediaTig, online, Netflix ist das Zeitpunkt, das die User dort spenden, also muss man diese Target-Variabelle dann einladen. Und was du auch erwähnt hast, ich bin nicht überrascht, dass die Modelle von AWS am besten funktioniert, weil Amazon natürlich gute Anzeichen im Online-Shop hat, vielleicht werden sie es wiederverwenden, also würde ich nicht überrascht sein, dass sie dort wirklich gute Algorithmen haben.
840.111
datamics
Vielleicht kannst du auch ein bisschen über den AWS Rezept erzählen. Ist es in SageMaker oder wie funktioniert es in AWS, den du benutzen kannst?
849.667
Mirza
Sie haben praktisch eine persönliche Sektion. In dieser Sektion gibt es ein paar Rezepte, die man wählen kann, auf die man die Modelle bauen kann. Wenn man in die AWS geht,
865.879
Mirza
Man kann einen Glue-Job spezifizieren. Ich denke, es ist mehr eine Machine Learning-Ops-Seite. Aber ich denke, wenn ich es richtig erinnere, ist es zuerst ein Glue-Job, wo das Datenprozess und die Vorbereitung von Daten gemacht wird, also wo alle kommenden CSV-File in eine
883.698
Mirza
und das ist als Input vorbereitet für eine bestimmte Rezeption. Und dann ist die Rezeption das Modell selbst. Und wenn ich mich richtig erinnere, wie ich gesagt habe, ist es das hierarchisch verheiratete Neural-Netzwerk. Und es gibt auch, also ich denke, dass das Niveau von Features, zumindest das Niveau von Features, das man zum Modell submitten kann, limitiert ist. Ich denke, die Obligatorien sind die Interaktionsfeatures und Item-Features, natürlich Interaktionen in Bezug auf eine
915.518
Mirza
und auch andere kontextualen Features der Interaktion, z.B. der Zeit des Tages und so weiter. Und auch die Features des Items. Und dann sind die Features des Items optional, aber man kann sie auch setzten. Ich denke, es gibt nur 10, 25 oder 100, also es gibt nur 10, 25 oder 100, also es gibt nur 10, 25 oder 100, also es gibt nur 10, 25 oder 100, also es gibt nur 10, 25 oder 100, also es gibt nur 10, 25 oder 100, also es gibt nur 10, 25 oder 100, also es gibt nur 10, 25 oder 100, also es gibt nur 10, 25 oder 100, also es gibt nur 10, 25 oder 100, also es gibt nur 10, 25 oder 100, also es gibt nur 10, 25 oder 100, also es gibt nur 10, 25 oder 100, also es gibt nur 10, 25 oder 100, also es gibt nur 10, 25 oder 100, also es gibt nur 10, 25 oder 100, also es gibt nur 10, 25
938.131
Mirza
und Features und dann einfach man kann auch die Hyper-Opt der Perso-Modelle wählen. Ich nenne sie Perso-Modelle. Es wird viel nehmen und es wird viel kosten, aber in der Ende werden wir den besten möglichen Modell haben, der mit diesen Daten ist. Genau, und dann ist einfach das Konfiguration-File verabschiedet. Und dann, in der Ende, man dann die
968.439
Mirza
den User-ID durch, der dann die Liste der Recommendationen nutzt. Mit einigen Metadaten natürlich. Metadaten sind manchmal nötig für den Kunden, um die Informationen über die Betriebe zu entdecken.
988.285
datamics
Ja, das klingt interessant. Ich habe jetzt vielleicht etwas mehr Spezifisches, wie du auch vorher erwähnt hast. Jetzt hast du gesagt, dass die Numeren der Features für diesen Algorithm in der Rezeption limited sind. Vielleicht in der Praxis hast du mehr Features, und du hast zu Beginn erwähnt, dass du Dimensionen und Reduktionen in Grafen benutzt hast. Hast du ein Method, um diese Features zu reduzieren?
1017.261
datamics
Was ist Ihr Input bevor ihr es nutzt? Wie ist das Prinzip der Komponentanalyse oder der Neuro Network? Oder haben Sie ein paar Techniken in diesem Bereich, die ein bisschen spezifischer sind?
1025.759
Mirza
Das ist eine sehr interessante Frage, denn es war nur diese Woche, dass wir daran gearbeitet haben, weil wir einen Slot-Katalog der Spiele gegeben haben. Dieser Slot-Katalog hatte eine Feature-Deskription, die praktisch die Textual-Deskription eines Spieles war. Es war also Text. Was wir gemacht haben, wenn wir ein Pre-Training-Modell machen, wird es von 512 Dimensionen nach Norden sein.
1051.158
Mirza
Und was wir gemacht haben, ist, wir haben zwei Ideen. Wir haben die Idee, okay, wir machen eine Dementiereduktion. Und eine Dementiereduktion kann sein, dass wir es praktisch in 3D via UMAP reduzieren wollen.
1063.626
Mirza
U-Map. Und der andere Ansatz, den wir eigentlich verwendet haben, ist, dass wir die Dimension-Reduktion mit U-Map in zwei Dimensionen gemacht haben. Und dann haben wir Clustering gemacht. Wir haben HDB-Scan gemacht und praktisch die Clusters identifiziert. Also identifizierten wir eine neue Fähigkeit, die das Cluster-Label war. Also, ich meine, in einem Sinne war es wie eine einzigartige Dimension-Reduktion.
1089.565
datamics
Copyright WDR 2021
1092.688
Mirza
aus einem sehr hohen Dimensionenraum. Aber das ist genau das, was wir gemacht haben. Es war eine sehr tolle Begegnung, weil wir auch einige Insizien erzielt haben. Sobald wir die Visualisierung erzielt haben und die Clustering erzielt haben, wollten wir sehen, ob einige der Features die Cluster definieren. Also sagen wir mal, dass es ein Feature-Genre gibt, ein spezielles Genre oder Type des Spiels, Relate-Games und so weiter.
1120.486
Mirza
Wir wollten sehen, ob die Clusters von einem bestimmten Wert der Art des Spiels sind. Let's say, dass Roulette Game nur einen Cluster bezeichnet. Wenn das passiert, dann bedeutet das, dass wir bereits die Feature des Spieltypes haben, dann werden die Clusters nicht so informativ. Es wird eine redundante Sache sein.
1148.882
Mirza
Aber die Ergebnisse waren eigentlich so, dass wir die Farben in den Clusters haben, und wir haben ziemlich unterschiedliche Farben in jedem Cluster. Das bedeutet, dass der Cluster selbst, der von dem Cluster enthält, den Cluster-Label, eine zusätzliche Information für das Modell bieten kann.
1163.234
datamics
Ja.
1167.005
datamics
Aber wenn du von Clustering hervorgehen würdest, würde ich mir jetzt vorstellen, dass du ein K-Mean-Clustering benutzt hast. Kannst du dann, und du hast die Label erwähnt, auch in sehr tiefen, also wenn es mir zu tief ist. Aber wenn du die Clusters hast und ihnen Label gibst, kann es sein, dass, wie definierst du sie? Weil automatisch sagt es nicht, das ist Jean Roulet oder das ist
1193.882
datamics
Ball-Games, Card-Games oder so. Dann musst du die Label manuell definieren, oder es sind nur abstrakte Label, die sagen, 1, 2, 3, dann hast du ein paar Ideen und dann schreibst du einfach abstrakte Ideen.
1206.084
Mirza
So, die Sache ist, so es ist, es ist ein, also außerhalb der Deskription, also Deskription ist für die, für die hochdimensionalen Embeddingen verwendet, und dann bekommen wir die zweidimensionalen Embeddingen, wir bekommen die Kloster. Aber wir haben auch neben der Deskription, richtig? Wir haben andere Features. Wir haben Features wie Genre, Type und so weiter. Und dann praktizieren wir die Datenpunkte, also die Spiele, die einem bestimmten Kloster gehören. Wir machen das selbe für alle Kloster. Und dann vergleichen wir die dominanten Features, so zu sprechen.
1235.486
Mirza
die Features, die diese Klassen bezeichnen. Also gehen wir von Featuren zu Featuren. Und dann sagen wir, dass es, ich weiß nicht, vier Spieltypen gibt. Roulette und so weiter. Und dann sagen wir praktisch, dass wir alle Spiele in Roulette mit einer Farbe colorieren. Alle Spiele mit einer separaten Farbe. Wir machen das gleiche Klaster. Und wenn wir 1-1-Mapping bekommen, also fast 1-1-Mapping, dann bedeutet das,
1262.056
Mirza
Das Klosterlabel, das Klosterlabel zu verwenden, ist eine redundante Information, weil wir bereits diese Information haben. Aber wenn es ein gemischtes Ergebnis ist, also wenn wir nicht wirklich sagen können, dass es wegen dieses bestimmten Features ist, dass das Kloster geformt ist, dann ist es sinnvoll, zu erlauben, dass das Klosterlabel eine wertvolle Information zu dem Modell geben wird.
1289.326
datamics
Aber das macht man automatisch, oder es ist ein manuales Prozess, das man checken muss, ob es fit ist oder nicht.
1296.785
Mirza
Nein, es ist eine automatische Prozesse. Es kann automatisiert werden. Es kann definitiv werden. Ich meine, wir haben die Initial-Analysierung gemacht und es hat uns gesagt, dass es Sinn macht. Aber jetzt, seit wir diese Information haben, dass es Sinn macht, können wir einfach die Analyse-Stufe entfernen und nur die Kloster-Label als Teil der Features üben.
1319.872
datamics
Ja, das klingt interessant. Auch das Pipeline. Aber vielleicht sind wir wirklich, wirklich tief. Ich denke, es ist auch interessant, normalerweise in den Podcast zu reisen. Aber wir kommen ein wenig zurück zu einem höheren Niveau. Welche anderen interessanten Projekte habt ihr? Oder was macht die Falkoni AI? Oder habt ihr ein Produkt?
1341.705
Mirza
Okay, also es gibt ein Produkt, das wir mit einem deutschen Unternehmen in Hamburg haben, und das ist die Debt-Kollektion. Die Kunden sind Banken, und Banken haben eine Menge Klienten, und diese Klienten haben Löhne mit den Banken. Diese Firma will uns Modelle bauen, die wir aufgrund der Debt-Data herstellen.
1364.411
Mirza
Was ist die Wahrscheinlichkeit, dass sie das Geld sammeln werden? Also, dass sie das monatliche Geld sammeln. Das ist ein interessantes Projekt. Es ist ziemlich geschlossen. Es gibt viele tabuläre Daten, also Methoden wie Random Forest, Classifiers und XGBoost funktionieren ziemlich gut. Wir haben aber vorhin mit einer Firma angefangen,
1389.684
Mirza
die Sensoren produzieren und private und öffentliche Netzwerke für Anomalien kontrollieren. Und dort ist das Problem, jetzt Anomalien zu entdecken. Sie wollen Modelle haben, die an einem bestimmten Zeitpunkt und einem bestimmten geografischen Bereich sagen, welche Netzwerkszellen die Sensoren sehen.
1419.531
Mirza
Und was sie eigentlich wollten, ist, dass wir von Falconeer, eine Blogpost von Graf Neural Networks verwenden, für die Investitionen. Und dort haben wir gesagt, dass wir praktisch ein paar Mapping zwischen den Investoren und den Unternehmen machen,
1441.988
Mirza
Beeper-Typed Graph. Und einige von diesen Unternehmen haben das gelesen und haben gesagt, wir möchten, dass Sie etwas ähnliches mit unserer Information machen. Wir möchten, dass Sie eine grapheneuralen Netzwerke bauen, die Sensoren auf der einen Seite, also auf der anderen Seite von einem Teil des Nodes, und dann auf der anderen Seite von Zellen.
1460.879
Mirza
Dann haben Sie Features an den Ecken, wie wenn ein Sensor eine bestimmte Zelle sensiert. Dann gibt es eine Feature der Interaktion, der Scanning, wie die Zeitstelle. Und wir wollen, dass Sie praktisch den Predict-Method bauen, der uns aufgrund der Zeit und der Zeit und der Zeit und der Zeit und der Zeit und der Zeit und der Zeit und der Zeit und der Zeit und der Zeit und der Zeit und der Zeit und der Zeit und der Zeit und der Zeit und der Zeit und der Zeit und der Zeit und der Zeit und der Zeit und der Zeit und der Zeit und der Zeit und der Zeit und der Zeit und der Zeit und der Zeit und der Zeit und der Zeit und der Zeit und der Zeit und der Zeit und der Zeit und der Zeit und der Zeit und der Zeit und der Zeit und der Zeit und der Zeit und der Zeit und der Zeit
1491.05
Mirza
in der ganzen Netzwerke. Das ist ein sehr interessantes Problem. Wir haben gerade angefangen, wir haben die ganze Projekt- und Timeline ausgedacht. Und wir hatten ein paar Ideen, wie es geht, die Basis zu bauen. Wahrscheinlich ein Multi-Klasse-Klassifier. Wir werden schauen müssen, ob es sichtbar ist, wegen der Zahl der Klassen. Vielleicht auch ein paar Zeitungen, wie Arima.
1517.654
Mirza
Wir haben in unserer Thematik sehr gute Mitglieder. Ich bin nicht so viel in der Zeit serious data. Es ist für mich nicht wirklich interessant. Aber Graph Neural Networks werden definitiv eine sehr erhebliche Beziehung zu diesem Problem sein. Und wir werden sehen, wie es sich beherrscht. Ich meine, es gibt viele Wege, wie man das Problem beherrscht.
1542.227
Mirza
Das Problem ist, dass es sehr schön ist. Es ist sehr interessant. Genau.
1549.48
datamics
Ja, ich denke, es sind grafische Netzwerke. Wie du erwähnt hast, gibt es eine Zeit-Serie. Ich habe vorhin zwei Wissenschaftspapiere gelesen, die grafische Netzwerke benutzen, um die Erdbewegung von Sensoren zu prädigieren. Sie haben ziemlich gut gearbeitet. Es könnte auch über Sensoren und Netzwerke genannt werden. Es könnte ein ähnliches Thema sein.
1574.104
datamics
Ja, vielleicht können wir bald noch einen Podcast machen und dann über eure Erfahrungen über die Graph Neural Networks erzählen. Das ist ein wirklich heißes Thema. Ich denke, es ist auch der nächste Schritt. Es ist ziemlich neu. Ich habe nicht so viel in der Industrie gesehen, in der Finanzindustrie. Wie erwähnt, machen wir auch eine Master-These darüber. Aber ich habe auch gemerkt, dass wir mehr und mehr in den Geschäftskontext und in die Industrie gehen.
1600.367
Mirza
Genau, genau. Data Science Tips. Ich meine, das könnte von unserer Gespräche aus einverstanden sein. Es ist sehr notwendig für Data Scientistinnen, einige Initial-Data-Analysen zu machen und die Natur der Daten zu verstehen.
1603.319
datamics
All right, so we are through with the topics, which we discuss at the end. I would like you to give some data science tips for our listeners.
1629.411
Mirza
Sie haben bereits die Verständigung des Geschäfts, also was ist der gewünschte Ausgang für die Kunden? Dann machen Sie eine genaue Datenanalyse, verstehen Sie die Versorgung, warum etwas passiert ist. Bevor Sie ein Modell wählen, sehen Sie die Versorgung der Klasse-Label, sehen Sie, was da passiert ist. Und was ich finde, ist sehr notwendig jetzt, besonders in den Zeiten der Chat-GPD, in denen alles
1658.429
Mirza
Ich denke, dass die Leute entgegensteigert sind, die meisten der Dinge zu delegieren. Das bedeutet, dass die In-Depth-Knowledge
1669.898
Mirza
Also würde ich mir empfehlen, dass die Datenwissenschaftler etwas von den Modellen, die sie benutzen, ein theoretisches Wissen haben. Warum benutzen sie XGBoost? Warum ist es besonders gut für diese Modelle? Warum ist Logistikregression gut? Warum ist es gut für die Deep Learning, konversionale neuralen Netzwerke? Würde die grafische, einfache Grafikbewegung gut sein?
1692.756
Mirza
Theoretischen Wissen über die Modelle und ihre potenzielle Applikation zu den Daten, bevor man Experimente basiert auf einem Numer von Modellen oder all den Modellen, die sie kennen, und dann nur die besten Metriken sammeln. Ich denke, das wäre der Tipp.
1712.619
Mirza
Eine Sache, die wir für diesen Investoren gemacht haben, ist, dass wir mit diesem Graph Neural Network angefangen haben, was eine sehr sophisticated Approach war. Aber was wir vergessen haben, ist, eine sehr einfache Baseline zu bauen. Die Zahl der Firmen, die wir ausgenommen haben, waren sehr wenige. Die Zahl der Firmen, die wir ausgenommen haben, war klein. Das bedeutet, dass eine Baseline, bei der man praktisch von den meisten
1740.794
Mirza
Das kann sehr gute Ergebnisse produzieren. Das ist so passiert. Wir haben die Verbesserung durch Graf Neural Networks erreicht, aber wir waren nicht überrascht durch die Verbesserung. Wir waren überrascht durch die Qualität der sehr einfachen Baseline.
1758.541
Mirza
So es ist immer eine gute Idee, wie ich gesagt habe, Datenanalyse zu machen, um das Geschäft zu verstehen, ein paar sehr einfache Baselines zu bauen und dann darauf zu bauen. Also nicht von Anfang an Graph Neural Networks zu verwenden. Ich bin ein sehr großer Fan von solch einfachen Lösungen, wenn die einfache Lösung tatsächlich fähig ist. Genau, das wäre mein Tipp.
1782.534
datamics
Ich kann nur sagen, dass es sehr gute Tipps gibt, nicht sofort zum Training der Modelle zu gehen und auch mit einfachen Modellen zu beginnen. Es gibt auch eine Baseline, die man vergleichen kann. Das ist wirklich wichtig, denn jetzt ist es der Hype, dass alle LMMs machen wollen und die Probleme mit LMMs lösen.
1802.892
datamics
Die netten Netzwerke. Jeder wollte seine netten Netzwerke lösen. Und die einfachen Basis, die oft, vielleicht, nahezu das Limit reichen, mit weniger kompetenten Kraft, weniger Effort, können Sie bereits Ihre Sachen lösen. Ich kann es total begreifen. Alles klar. Danke, Mirza, für diese interessanten Inszenen über Grafiken, über Recommendationen, über Data Science Tipps. Es war sehr schön, Sie hier auf unserem Podcast zu haben.
1815.232
Mirza
Genau. Danke, René. Danke, dass du mich hast. Grüße an deine Zuschauer.
1835.213
datamics
Vielen Dank für's Zuschauen!
Neuer Kommentar