Data Science in der Forschung

Shownotes

Für mehr Informationen zum Thema Data Science, besuch gerne unsere Website: https://datamics.com/

Oder nimm an einem unserer zahlreichen Onlinekurse teil: https://www.udemy.com/user/datamics/

Unter dem folgenden Link findest du das LinkedIn Profil von Dr. Matthias Hofmann:https://www.linkedin.com/in/matthias-hofmann-468425147/

Transkript anzeigen

Hallo und herzlich Willkommen zur neuen Episode des Data Science Podcast mit Milch und Zucker heute zu Gast haben wir Herrn Doktor Christoph Henkel. Er ist Grandmaster bei Kaggle und war auf Platz 1 im Jahr 2022.

Was das genau bedeutet das wirklich richtig cool? Soweit vorab was genau bedeutet, werden wir dann im Podcast auch nochmal erklären! Herzlichen Dank Christoph dass du heute bei uns teilnimmst. Ja, vielen Dank, dass ich hier sein darf. Springen wir gleich rein in die in das Thema, und zwar werden wir uns natürlich über Cal unterhalten. Zunächst vielleicht mal was ist Kacke? Ich weiß nicht, ob alle Hörer schon wissen was ist vielleicht mal eine Übersicht geben, was Kaggle genau ist vielleicht auch mal was Grand Master ist und was man dafür braucht? Ja gerne also Cable ist eine Webseite Schrägstrich Plattform für Maschine, Learning und Data Science. Hat angefangen, als eine Plattform, die Maschine Learning Competitions gehostet haben, hat sich aber in letzter Zeit zu viel, viel mehr entwickelt. Also heutzutage kann man da sehr viel Diskussionen finden Datasets runterladen und so weiter. Und sofort hat eine Riesen Community mit 10000000 Nutzern mittlerweile und wurde dann auch vor ein 2 Jahren von Google aufgekauft. Also ist mittlerweile eine Tochter von Google und sehr viel von Googles Research wird auch dann als Competition. Ausgeschrieben und so weiter und sofort. Ihm. Die das interessante an der Plattform ist, dass sie da sehr viel auf Gamification setzen. Von dem Inhalt, den Sie haben, also wenn man da teilnimmt kriegt man, kann man Medaillen sammeln in verschiedenen Bereichen. Es gibt halt wie gesagt diese Wettbewerbe, die ausgeschrieben sind, wo es um Maschine Learning Architekturen geht, um Probleme lösen. Dann gibt es aber auch den Bereich Diskussionen, wo man Goldmedaillen sammeln, Pannen und so weiter. Man kann Coach scheren so als Notebooks und solche Sachen und man kann auch das jetzt hochladen. Und so intensivieren sie halt die Nutzer auch wirklich Content zu liefern und da irgendwie mitzumachen. Und in jedem dieser 4 Bereiche kann man gibt es dann verschiedene Stufen, je nachdem wie viele Medaillen man hat und so weiter fängt an, als Novize dann irgendwie mitzumachen Experte und so weiter und das wird die höchste Stufe, ist dann Grandmaster. Nur das in eine Perspektive zu setzen? Von den 10000000 Nutzern gibt es im Bereich Competitions 200 Grandmaster weltweit. Also das sind Leute, die in den letzten 12 Jahren so lange gibt es mittlerweile sehr gute Ergebnisse geliefert haben und sehr ausdauernd sehr gute Ergebnisse geliefert haben. Also Minimum, um Grandmaster zu werden. Es sind 5 Wettbewerbe, an denen man sehr gut sein muss, also sehr, sehr gut bedeutet. Sowas wie top 10 von 1000 Teams, die bei so einem Wettbewerb. Mitmachen und deshalb bei mehreren also es kann schon ein paar Jährchen dauern, bis man da irgendwie Grandmaster wird. Bei mir hats glaub ich 4 Jahre gedauert und da habe ich wirklich schon täglich sehr, sehr viel aufgearbeitet und an diesen Wettbewerben teilgenommen.

Ja, schon das ist eine Riesenleistung von 10000000 Teilnehmer bei den Top 200 dabei zu sein oder auch den ersten Platz, wie du schon erwähnt hast. Zu machen also das kann man glaube ich gar nicht hoch genug einschätzen.

Also muss sich jeder vorstellen, was man dazu machen muss. Das ist wirklich meiner Meinung nach Wahnsinn, was ich jetzt auch öfters sehe ist also kein Competition, kann natürlich auch Preise gewinnen ist auch eignet sich auch, um Übungen zu machen, was der Science Data Scientist werden möchte paar neue Themen vielleicht angehen, üben. Dann würde gerne eingesetzt auch in der Vorlesung, wenn Daten bereitgestellt und. Die also ich kenne viele Kollegen, die würden es gerne machen oder vielleicht auch selber, also viele sagen die meisten, ich kenne sagen ist cool, würde ich gerne machen, aber ich habe keine Zeit oder ich habe kein Team und ich weitab nicht, wie ich anfangen soll also eher so ja, ich würde gern, aber keiner fängt an hast du vielleicht Tipps wie man da anfängt oder wie man loslegen kann?

Also ich kann aus meiner Perspektive sagen. Einfach anfangen also man kann sich viel Ausreden suchen, Ja Perspektive sagen. aber am einfachsten ist wirklich sich einfach anmelden, sich ein spannendes Thema raussuchen. Ich denke, das Wichtigste gerade am Anfang ist die Motivation, das heißt, man sucht sich ein Thema, was einen wirklich interessiert, ob es jetzt irgendwie Bildverarbeitung ist oder Audio oder Text die Hauptsache ist, dass man da wirklich irgendwie Saya dran hat und irgendwie Interesse hat und dann kann man einfach ja sich registrieren und einsteigen. Und das andere kommt dann einfach mit der Zeit also, wenn man jetzt was bei mir jetzt der Fall ist, gibt es jetzt gerade als ich angefangen hab, jetzt wenig Leute aus dem deutschen Bereich, die irgendwie unterwegs waren. Heutzutage ändert sich das langsam, aber man lernt dann auch in dem Forum und in den Diskussionen da halt Leute kennen und baut sich da sein Netzwerk auf und findet dann noch Leute mit denen man zusammen irgendwie diese Wettbewerbe machen kann und wenn jemand zusammen irgendwie Projekte machen kann, also einfach anmelden und loslegen, würde ich sagen.

Gibt es auch was in die Firma denkt? Als Angestellter der Firma? Und ich möchte anfangen kann vielleicht die überzeugen, dass man Zeit bekommt oder es ist gut für die Firma oder sollen wir lieber nicht sagen? Ich glaube, da können wir auch mal eine Motivation rauskommen, oder?

Ja, auf jeden Fall also gibt es das ist sehr, sehr firmenspezifisch, würde ich sagen. Es gibt Firmen, die das aktiv supporten, also die wirklich den Leuten einen Tag die Woche Zeit geben, wo sie nur machen können, weil sie einfach das Potential. Potential sehen als sie einfach sozusagen das hängt natürlich davon ab, wieviel jetzt irgendwelche Wettbewerbe oder Content wirklich mit der Arbeit zu tun hat. Wenn jetzt ein Wettbewerb läuft, der sehr viel mit meinem Arbeitsalltag zu tun hat, dann kann ich natürlich mein Arbeitgeber eher überzeugen, als wenn ich jetzt was komplett anderes mach. Es ist, muss man ein bisschen Fall Zu Fall schauen aber. Ja, ich würde schon einfach Fragen versuchen zu erklären, ich würde das gerne machen mich interessiert das, ich würde mich gerne weiterbilden in die Richtung und allein aus meiner Erfahrung kann ich sagen, dass es zu. Eigentlich in jedem Fall der Firma Mehrwert liefert, weil es doch sehr, sehr nah am Business generell ist, muss nicht Ja. unbedingt von der Problemstellung sein, aber allein schon von den Coding Skills, die man braucht von der Denkweise, die man braucht. Das kann man sehr, sehr gut glaube ich auch auf die auf die reale Wirtschaft profitieren. Also, das heißt Angestellte oder man selbst wird besser und kann das Problem besser lösen. Auf der anderen Seite hat die Firma auch was davon, wenn die Firma sagen kann, sie hat schon Preise gewonnen, oder? Die Mitarbeiter kann sie dann auch noch mal im Internet veröffentlichen oder auch nochmal Mehrwert rausschlagen. Prinzipiell auf jeden Fall nur ich glaube, dass es sehr, sehr schwierig ist, einen Preis zu gewinnen bei Kegel also wie gesagt bei so einem Wettbewerb Ja klar. machen dann halt 1000 Leute mit oder 1000 Teams. Teilweise auch Leute, die von ihren Firmen halt dahin geschickt werden, weil es ein spannendes Thema auch für die Firma ist und sich gegen halt 1000 das sind ja auch keine Anfänger, das sind ja auch Leute, die das teilweise sehr ambitioniert betreiben, um sich gegen die 1000 anderen durchzusetzen und da muss man schon auf einem sehr hohen Niveau unterwegs sein und da gehören schon auch ein paar Kniffe und Tricks dazu, die n bisschen kacke spezifisch sind muss auch jetzt n bisschen k Erfahrung braucht das heißt ich glaub. So als Kaggle Neuling, auch wenn man jetzt sehr viel Data Science Expertise hat oder Maschine Expertise hat, wird man trotzdem sich sehr schwertun, einen guten Platz zu belegen. Am Anfang deswegen, glaube ich, ist es schwer, als viermal darauf zu spekulieren OK, ich gehe jetzt meinem meine Mitarbeiter die Zeit und da holt sich dann einen Top 5 Platz und dann können wir damit Werbung machen. Ich glaube, das ist schwer vorab sozusagen. Okay, dann kommen wir auch was schon gesagt, man braucht bestimmte Kniffe und Tricks, um bei Kern weiterzukommen. Welche Tricks oder vielleicht anders gefragt was muss man machen, um zu Platz 1 zu kommen? Also der Anfang ist immer die Titanic, wenn ihr euch bei Call einloggt, dann nochmal vorhersagen wer wird sterben? Auf der Titanic? Und wenn nicht? Also der Beispiel Case? Aber was ist, wenn wirklich eine Competition gewinnen möchte oder zu mindestens gut sein? Was sind deine Tipps und Tricks? Also man kann es ganz gut, glaube ich unterteilen auch in dieser Skala, die ist dann e mit den Medaillen, also wenn man sozusagen in den Topf 50% ist, dann kriegt man eine Medaille so ganz grob mit den Top 10% kriegt man eine Silbermedaille und den Top ein Prozent oder Top Ten kriegt man eine Goldmedaille und der nimmt 4 verschiedenen Bereichen muss man halt verschieden viel leasten. Würde ich mal sagen man sehr viel Zeit in so eine m Wettbewerb steckt und sich aktiv mit dem Thema wirklich beschäftigt, denn oft sind es ja. Domain Newel spezifische Sachen wo man sich dann mit irgendwelchen bengalischen Schriftzeichen auseinandersetzen muss oder Vogelarten im Regenwald existieren oder was weitab ich? Das kann schon sehr, sehr spezifisch sein, wenn man sich da Zeit steckt und intensiv Regenwald existieren da einarbeitet, dann glaube ich hat eine Chance Silbermedaille zu kriegen. Da gibt es viel mehr, also viele andere Leute auch, die auf dem Level sind sozusagen, um dann wirklich eine Goldmedaille zu bekommen. Da muss man dann schon mehr leisten als sehr, sehr gut sein also da muss man nicht nur das neueste Paper in dem Bereich lesen, sondern wirklich noch was draufsetzen also das ist dann sehr forschungsgetrieben auch das heißt, man muss das neueste Paper lesen, anwenden und dann noch irgendwie einen Weg finden, was extra. Rauszuholen man muss irgendwas finden, was halt keine andere findet. Das ist im Endeffekt halt das Problem und da tut man sich umso leichter, je mehr von dem restlichen Data Science Paket oder ML OBS Paket standardisiertes also ich habe eine sehr eine standardisierte Coding Pipeline experimentieren Pipeline, wenn das alles schon gesetzt ist und wenn man das alles schon so verinnerlicht hat, dass das sozusagen im Schlaf geht, dann kann man seine Zeit darin investieren, wirklich neue Dinge zu finden. Wirklich sozusagen was rauszufinden, was kein anderer gefunden hat, mit dem man sich dann von anderen absetzen kann? Also dann auch wie in der Industrie also wieder nachgebaut haben wir mit der Pipeline geht es ja auch darum L OPs Team, dass man. Time tot Market ist entscheidend das Gleiche gilt dann auch für die Competition. Nimmst du dann auch Open Source Tools zum Beispiel wie ML Flow, sind dann die Tools Scripta Search. Um deine Pipeline aufzubauen oder programmierst du dann selber was oder hast du dann vorgefertigte Tools, die du einsetzen kannst? Also über die letzte Zeit und die letzten sind ich halt da mitmache habe ich so eine eigene Pipeline entwickelt. Das alles auf Pitch basierend also wirklich so, dass das Low Level Framework, wo man, denn das liegt daran, weil man möglichst Eibel sein muss, um wirklich was Neues zu implementieren, denn die meisten Tools setzen mehr auf Generalisierung, dass alle Leute des behindern können und das hat die Funktionalität für alle. Da ist aber wenn man irgendwas Neues finden muss, dann hat es halt irgendwelche Aspekte, die es noch nicht gibt und dann ist Flexibilität das Wichtigste. Deswegen ist halt meine Pipeline auf möglichst viel Flexibilität ausgelegt. Und möglichst darauf, möglichst schnell zu experimentieren. Also ich benutze wie gesagt Halt Pitch als Basischeck den Code auf GitHub mit Versionierung und Track Experimente mit Neptune heißt die Software sowas wie Baases Konkurrenzprodukt dazu? Und das ist auch schon alles, was ich so benutze, sozusagen ich habe dann noch benutzt, dann da im Hintergrund um immer ein standardisiertes zu haben, aber das sind dann eher die Details, würde ich sagen. Coole Einblicke so auch die Flexibilisierung. Das nochmal sieht der Unterschied zur Industrie die Flexibilisierung geht es Standardisierung so viel wie möglich in Gleichem rein zu quetschen, sozusagen, dass man wirklich kosten spart und dann, wenn man K Competition gewinnen möchte, dann mehr die. Flexibilität dann gehen wir noch weiter zu dem anderen Punkt hast du schon gesagt hattest was Interessantes? Also muss die Papers weiterentwickeln? Und es ist ja nicht so leicht, also ich kenne, auch wenn mal Masterarbeit geschrieben hat oder Provider schon auffallen, die Papers zu lesen, selber anzuwenden, umzusetzen. Oft geht es da nicht Code, vielleicht nicht verfügbar oder es geht doch anders aus, also richtig viel Arbeit was hast du da für Tipps oder Vorgehensweisen? Also was ich als Allererstes immer mache, ist generell auf Google Scola einfach suchen nach irgendeinem Thema was hast du relevant ist für einen bestimmten Wettbewerb oder Projekt und wenn ich dann ein Paper gefunden hab, was relativ populär ist, gibt es einen netten Trick, dass man bei Google Scolari dann dasjenige Paper finden kann, die das Papier zitiert haben und die dann nach Zeit ordnen. Und so finde ich im Endeffekt das neueste Papier, das sich auf das Berufen hat. Und das ist so ein kleiner Trick, um wirklich die neueste Research irgendwie zu finden. Die haben dann oft den irgendwie zu Code noch gar nicht irgendwie geteilt, falls sie das Veröffentlichen, sondern sie kommt jetzt dann irgendwann aber allein sozusagen auf diesen Stand zu sein, dass man Paper von vor einem Monat vor 2 Monaten liest und versucht die zu verstehen und versucht den Hauptkritik oder das Haupt die Quintessenz irgendwie rauszuziehen, was ja schon oft irgendwie reicht, um irgendwie nachzubauen. Ja, das ist so der, der hauptsächlich benutze, um irgendwie die letzten möglichen Forschungsergebnisse zu finden und dann ja, wenn man Glück hat gibt es Code dazu, der wenn man noch mehr Glück hat, auch benutzerfreundlich ist und nochmal halt, wenn dem nicht so ist, dann muss man halt selber an und Arbeit investieren, um die Sachen zu Wow. reproduzieren auch oder um sie halt irgendwie nachzubauen. Ja selber nachbauen von einem Paper veröffentlicht ist das ist glaube ich nicht so leicht, das hört sich wirklich schwierig an, sind es dann auch die Architekturen, also man hört ja richtig viele Fancy Architektur oder auch wiederverwenden? Also es gibt ja auch vorgefertigte Algorithmen auf Föcking Face kann man auch sagen vielleicht da findet man n Paper oder man sagt ich lasse das Papier ganz weg. Ich gehe nur auf vielleicht Hacking Face daher wieder die standardisiert und vielleicht die alten Modelle, die jetzt nicht mehr die neuesten Trends dann drin haben. Hast du da noch ein paar Infos, also zu den Architekturen oder trainierte Modelle, die wir einsetzen können? Ja, ganz verschieden also. Meistens fange ich an mit etwas sehr, sehr simplen. Das ist dann auch meistens öffentlich irgendwie verfügbar auf Hüging Face oder auf irgendwelchen anderen Hub. Und je weiter die Competition fortschreitet, desto komplexer wird es auch und desto mehr. Brauche ich dann halt auch irgendwie neue Sachen ein und da ist halt auch so, wenn man halt Glück hat, dann gerade bei so NLT Transformer Sachen. Dann denken die Researcher schon in die richtige Richtung und veröffentlichten das gleiche im Hüging Face Format, weil sie einfach darauf spekulieren, dass sie früher oder später ihr Modell mit den Hüging Face integrieren. Aber ja, das ist halt, wenn man Glück hat, wenn man Pech hat, dann machen sie wirklich ihr eigenes Ding und dann tut man sich schwer, das irgendwie zu den Hüging implementieren, aber ich würde sagen, da gibt es die volle Bandbreite von Forschern, die s halt komplett ihr eigenes Ding machen und Forscher, die sehr den Hüging benutzerfreundlich in dem in dem Format machen, was schon irgendwie weit verbreitet ist. Und die Architekturen aussieht von Deep Learning, dass man dann sagt O K, wenn verschiedene Architekturen oder auch Neuronen muss ja auch anpassen oder dann im Paper geschrieben also geht es nicht nur um den Algorithmus, sondern komplette Architektur. Aufbau von neuronalem Netz. Ist auch sehr verschiedener. Manche sind halt wirklich sehr granular und beschreiben jedes Details, sodass man wirklich einfach nachbauen kann. Oft benutzen die Leute auch Pitch, was halt auch das Framework ist, was ich benutze. Also Endeffekt gibt es heutzutage glaube ich hauptsächlich 2 Frameworks. Die Leute benutzen entweder Tensor Flow oder Py Torch. Ihm. Deswegen ist es relativ leicht ist, sozusagen zu übernehmen, falls sie wirklich Code teilen, dann ist er meistens konsistent mit dem, was ich auch benutze und in dem Code sieht man dann auch sehr Ihm genau wie die Architektur aufgebaut ist, einfach, weil der Kunde selber Dokumentation der Architektur selbst ist und im Paper ist es dann nur zusätzlich noch mal erklärt, wenn sie den Code nicht teilen und nur das Paper haben. Dann ja kann das sehr unterschiedlich sein, manche sind sehr detailliert, sodass nachbauen kann und manche sind sehr schlampig wichtig fast sagen so dass es halt sehr, sehr schwer wird, irgendwie zu reproduzieren, was die Leute gemacht haben. Und für deine Architektur, da brauchst du wahrscheinlich wir durchgenommen, dass man die man braucht den richtigen Code muss flexibel sein, mit der Pipelines aufgebaut werden. Am Ende musst du auch das Ganze trainieren, deine Modelle und so wie sich das anhört, schaffst du da GU im Untergrund vielleicht auch Tesla ist also. Richtig Hardware intensiv hat sich das Ganze an wo kann man da vorangehen? Ich denke mal, Google Cola könnte so ein erster Schritt sein reicht es dann auch oder aus oder gibt es andere Infrastruktur? Da muss man auch Geld investieren und da braucht man einen Partner oder bis zu welchem Level vielleicht auch als ich denke mal vielleicht als einfacher Hardware, aber wenn er will, muss man da schon dann mehr investieren für die Hardware? Ja, das habe ich eine interessante Frage, weil wenn man sich so meine Historie anschaut, dann habe ich glaube ich alles mal durchgemacht. Also als ich angefangen habe, hatte ich gar keinen gar keine GPU selber da habe ich auch auf Collab gesetzt und hab ein paar Studenten Kredite auf der Google Cloud bekommen. Bei meiner allerersten Competition erinnere mich daran und direkt danach war ich dann so angefixt von dem Thema, dass ich mir meine eigene erste GPO gekauft habe und den Rechner dazu gebaut hab das war dann noch eine ne eine recht einfache GPU. Hab dann irgendwie ein halbes Jahr später eine zweite Dazu gebaut in den Rechner, dann konnte ich schon mit 2 gleichzeitig irgendwas machen, was halt auch hilfreich ist, wenn man irgendwie viele Experimente machen will. Ihm. Ja, und dann gab es eine Zeit, wo ich dann sehr rechenintensive Spitzen sozusagen also meistens sind es die letzten 2 Wochen von einer Competition, wo man dann wirklich mehr machen muss. Ermöglicht gut zu sein und wo man wirklich auf der direkten Korrelation zwischen der Rechenleistung, die man hat und irgendwie den Platz, der am Ende herausspringt, haben kann, da habe ich dann schon mal irgendwie investiert. Ein 2 Wochen lang in der Cloud zu rechnen. Ihm und ja mittlerweile, nachdem ich bei Video arbeite, habe ich andere Ressourcen sozusagen glücklicherweise. Aber das Ressourcen sind auch nicht alles, also diese die Competition sind sehr unterschiedlich, was Ressourcen Anforderungen betrifft es gibt welche, die man lediglich mit einer einfachen einzelnen GPO, wo man sehr gut sein kann, weil die Daten sehr wenig sind. Und es gibt welche, die sehr, sehr rechen intensiv sind und dann eigentlich nur Leute mitmachen, die irgendwie Zugang zu kompletten Rechenclustern haben, sei es über die Firma oder über die Universität oder sowas, wo es dann echt darum geht, irgendwie Millionen von Bildern irgendwie zu klassifizieren. Auf einer hohen Auflösung oder solche Geschichten oder 8000000 YouTube Videos auf Fake zu analysieren oder sowas, das sind dann sehr rechen intensive Competitions aber. Da machen dann meistens auch nur die Pros mit, sodass e. Würde ich jetzt anfangen, von Apparaten bei solchen Hochleistung Competitions mitzumachen? Also dann hört sich jetzt so an, dass man wirklich die richtige Competition suchen muss, anfangen, vielleicht Domain war interessiert, das geht immer in die Richtung. Es gibt viele Competitions, muss halt sein Finden muss, wenn ich ressourcenintensiv bin, wo man auch das Domänenwissen hat, vielleicht schon Algorithmen gemacht hat. Zuvor schon Erfahrungen hat in diese Richtung gehen? Jetzt hört sich das Ganze wirklich sehr, sehr zeitintensiv an und Ressourcen intensiv ganzen Papers zu lesen nachzubauen. Dann hast du nochmal gesagt ein 2 Wochen vorher noch mal richtig analysieren das hört sich dann so ist dann wirklich Wochen vorher kannst du so eine ungefähre Indikation ab wie wieviel Zeit man reinstecken muss oder wieviel Zeit man ja verbringen muss um eine Competition. Vielleicht Silbermedaille zu bekommen oder eine Goldmedaille also auf so ein Projekt, das kommt natürlich auch drauf an, je nachdem wie Competition ist, aber das finde ich so eine ungefähre Vorstellung hat. Ja also, wenn es Silbermedaille, würde ich sagen will man ein sehr guter Data Scientist schon ist, reicht wahrscheinlich eine Stunde pro Tag. Für eine Goldmedaille würde ich sagen. 4 Stunden Minimum pro Tag. Aber es ist sehr schwer zu sagen, weil es halt stark von den Skills des also, Ja klar. Teilnehmers abhängt und natürlich irgendwie von der Competition, aber so grob kann man glaube ich schon mit einer Stunde pro Tag sehr, sehr viel erreichen. Und wie lange dann eine Stunde pro Tag also ist das ein einer Stunde. 23 ein Jahr? Also eine so eine Competition geht halt. Normalerweise 3 Monate. Wobei erfahrungsgemäß sind halt viele Sachen, die im ersten Monat passieren n bisschen für die Katz a, weil Leute Sachen sehr viele Sachen teilen, also K ist eine sehr offene Plattform, wo die Leute sehr, sehr viel teilen, was sie machen und das passiert schon relativ oft, dass man sich sehr viel Mühe gibt, irgendwas rausfindet was Interessantes und so weiter und 2 Tage später teilt das jemand anders im Forum, weil er dieselbe Idee hatte oder sowas? Das heißt, wenn man wirklich effizient sein will, dann heißt kann man den ersten Monat eigentlich weglassen und erst Haha. Ja. 4 Wochen später einsteigen und dann lieber Data Science 2 Monate richtig als sozusagen 3 Monate halt, sag ich mal. Dann lieber warten, bis jemand was geteilt hat, die Idee aufnehmen und dann richtig in der Idee, dann voll Zeit reingehen ja Genau also die ersten 4 Wochen, die kann ja, ja. man sich eigentlich kann ja sparen meistens. Ja, also auch ein erster Monat spannender Tipp denk ich mal spart die Zeit jetzt nochmal, da ja schon gesagt hast du arbeitest bei Nvidia du arbeitest jetzt viel mit Deep Learning was ist so deine private Meinung? Was sind Trends im Bereich von Deep Learning, von GPUS, von dem Einsatz vielleicht auch ein bisschen KI? Was sind so deine Top Trends, was du jetzt gesehen hast, was vielleicht kommen wird? Also was gerade ein sehr Hediyes Thema ist, sind so Kombinationen aus verschiedenen Datentypen, also sei es. Der Text Bild, Audio und Modelle, die hin und her schieben, also wo man aus Text Bildern generiert, also wo man irgendwelche Promis hat und dann sagt mach mir ein Bild wie Donald Trump gerade verhaftet wird oder sowas, das ist ja sehr populär momentan also das ganze Stäble Fusion mit Journey solche Architekturen. Und das sind halt alle, die aus Text Bildern machen, aber was gerade auch sehr viel geforscht wird oder wo die Leute gerade in der mehr und mehr Sachen Öffentlichen sind halt Text zu anderem Text, Text zu Audio, Text, Video, Bild zu Audio, alles hin und her sozusagen, also die Idee ist da überall dieselbe und die Leute benutzen halt das oben wirklich Content zu generieren. Und das ist, glaube ich schon auch mit des der zweite grauere das grauere Thema, gerade das sind alles, was generativ ist, sozusagen das ganze Chichi T und GT fort und alles ist ja eine generative Sache wo man irgendwie n Input liefert und das Modell kreiert irgendwie ein Gedicht oder eine E-Mail oder ein Fake Zeitungsartikel oder was weitab ich also ich denke diese ganze generative Schiene wird ein sehr graues Thema in der. Im nächsten Jahr oder in den nächsten Jahren? Sowohl mit allen Risiken und Nebenwirkungen, die man da so sehen kann, weil es ja doch eine sehr, sehr gute Leistung mittlerweile hat, wo es kaum von Menschen zu unterscheiden ist und es gibt natürlich einige Risiken, auch, aber natürlich auch ein immenser Nutzen davonkommt, wo man sehr, sehr viel Support in seiner eigenen Arbeit irgendwie davon haben kann, sehr viel Arbeit einem abnehmen kann. Ist auch für mich mittlerweile schon relevant, also Müller sich selbst als jemand der Architekturen Code und solche Sachen benutzt man schon diese generativen Sachen, um Daten zu augmentierten, um irgendwie Coach Nippel zu erweitern, dass man sich da Zeit spart also das ist gerade eine spannende Zeit, weil es doch mehr und mehr wirklich in den Alltag Einzug hält. Also kann es auch sein, dass dann auch ein bei Calcination will jetzt Richtung Daten Amputation. Zu machen, also Daten aufzufüllen, vielleicht zu verbessern, weil sagt auch Andreas hat ja auch gesagt also ich sehe auch viele, wollen dann nochmal das Modell tunen nochmal ein paar Prozent raus kriegen oder quetschen Richtung Daten allerdings ist kein Fokus auf der Datenqualität also ich hab manchmal sah ich wirklich sagen da reibt man sich die Köpfe und fragt wie überhaupt noch Ergebnisse Rauskamen mit so einem ja generativen Ansatz könnte man natürlich auch die Daten verbessern. Ich glaube, da gibt es auch schon Tools, ist es auch. Entscheidend für Kegel Competitions oder sind die Daten zaubern, braucht man nicht so viel Wert auf die Daten legen die reinkommen. Ich würde sagen mittlerweile schon, also ist gerade so also gerade jetzt ist der Umbruch, wo die Leute generative Algorithmen benutzen, um die Daten anzureichern und die Daten zu verbessern, weil ich glaube, der Hauptpunkt ist, dass die ganzen generativen Modelle. Sehr viel externes Wissen beinhalten also ist GT und solche Sachen sind ja auch Milliarden von Internetseiten trainiert und so weiter und sofort und egal an welchen Problemen arbeitet man, kriegt dieses externe Wissen mit in sein Problem rein, wenn man sagt ja ZBT erzeuge mir noch ein paar Datenpunkte zu den Problemen, dann bringt man sozusagen externes Wissen mit in seine eigene Datenwelt und das ist sehr, sehr oft irgendwie hilfreich. Genau das ist ein spannender Ansatz, dass man noch mit Chichi das Ganze einsetzen kann. Vielleicht noch eine Frage dazu also GT ist ja der Hype wie ist denn das Unternehmen ein? Also es gibt momentan noch natürlich den Datenschutz. Kann man das einsetzen, dann im Unternehmen, oder? Wie siehst du das oder baust du deinen eigenen Chat GT Algorithmus oder findest du Chat GTAPI an und schickt die Daten ran? Wie würdest du da vorgehen? Also bei mir persönlich ist es so, dass diese Competition sehr restriktiv sind, was Copyright und solche Sachen betrifft. Also oft sind die die Sponsoren daran interessiert, dass die Lösungen, die die Top Teilnehmer irgendwie liefern, dass sie auch produktiv irgendwie nutzen können und dementsprechend soll man als Teilnehmer nur Software verwenden, die man dann auch produktiv, also sozusagen wirklich als Commercial Use mit einer Commercial User. Lizenz benutzen kann und dementsprechend muss ich kann ich keine A PS oder solche Sachen benutzen, sondern muss alles irgendwie nachbauen oder irgendwo Gewicht herunterladen, was ja oft gibt also ich kann jetzt nicht irgendwie die neuesten externen Sachen benutzen, sondern muss halt schauen, dass man Sachen meine Sachen alle Open Source sind. Viele Herausforderungen, bis man dann Grandmaster wird, aber deswegen hat man sich dann auch verdient, wenn man ist. Vielen Dank für deine Tipps wir kommen jetzt auch schon ans Ende von den wirklich spannenden. Podcast zum Abschluss noch eine Frage welchen Tipp würdest du Data Scientist mitgeben? So ein bis 3 Wir haben schon sehr viele Tipps gesehen mit Cash n allgemein oder auch für Tipp würdest Call noch n Tipp. Also grundsätzlich egal ob es jetzt Cable ist oder ein Projekt würde ich immer sehr, sehr einfach anfangen. Das einfachste Modell, was man sich vorstellen kann, muss kein neuronales Netz sein, kann auch n Random Forest. Sein oder sonstige Sachen? Bilder runterskalieren auf eine sehr, sehr kleine Skala oder nur ein Teil des Datensatzes benutzen alles, was irgendwie einen ja nable irgendwie, die schnell zu experimentieren und irgendwie schnell voranzukommen, sozusagen schnell, weil die Iteration des entscheidend ist und nicht, dass man irgendwie Group anfängt. Ihm und dementsprechend auch n ein Workflow haben, der sehr robust ist in so einem experimentellen Setup. Das ist, glaube ich das Wichtigste also, dass man sich am Anfang die ersten 2 Wochen, sag ich mal egal ob jetzt ein Projekt oder eine K Competition hinsetzt und wirklich zu Zeit investiert, um wirklich robustes Setup zu haben, das ist glaube ich. Das Wichtigste kann manchmal ein bisschen schwierig sein zu verkaufen im Business, weil dann die ersten 2 Wochen scheinbar nichts vorwärts geht und wenn man da irgendwie den falschen Manager oder Projektmanager erwischt, dann Setup zu ist es ein bisschen schwer das zu verkaufen, aber das rentiert. Ich halt 345-mal nachher, wenn man da irgendwie ein solides Setup hat. Ja, das war auch ein sehr schöner Tipp kann ich nur bestätigen, schnell anfangen, iterieren auch. Wenn vielleicht am Anfang ein bisschen zeitaufwändig ist, das kann manchmal schwierig sein, aber wie du schon sagst, das rentiert sich dann natürlich herzlichen Dank Christoph für die Teilnahme und deinen Tipps zu Kaggle und allgemein zum Data Science Umfeld. Gerne hat mich gefreut, hier zu sein.

Shownotes

Transkript anzeigen

Neuer Kommentar