KI-Update Deep-Dive: Synthetische Bilder gegen den Bias

Shownotes

Künstliche Intelligenz in der Medizin verspricht, Diagnosen zu unterstützen und Behandlungen zu verbessern. Doch die Modelle sind nur so gut wie die Daten, mit denen sie trainiert werden. Da diese Daten oft einen verzerrten Ausschnitt der Realität darstellen, sind auch die KI-Modelle voreingenommen – ein Phänomen, das als Bias bezeichnet wird. Stanislav Frolov, wissenschaftlicher Mitarbeiter am DFKI, hat sich im Rahmen des Projekts „MedGenAI“ intensiv mit dieser Herausforderung beschäftigt und erklärt im Gespräch mit meinem Kollegen Robin Ahrens von der c't, dass die Lösung für das Problem KI-generierte Bilder sein können. Wie das funktioniert hört Ihr heute im DeepDive.

=== Anzeige / Sponsorenhinweis === Dieser Podcast wird von einem Sponsor unterstützt. Alle Infos zu unseren Werbepartnern findet ihr hier. https://wonderl.ink/%40heise-podcasts === Anzeige / Sponsorenhinweis Ende ===

Heise+ Abonnent werden: https://www.heiseplus.de/audio Das Interview könnt Ihr bei heise+ nachlesen: https://heise.de/-11327176

Artikel zur Podcastfolge: https://heise.de/-11341480 https://www.heise.de/thema/KI-Update https://pro.heise.de/ki/ https://www.heise.de/newsletter/anmeldung.html?id=ki-update https://www.heise.de/thema/Kuenstliche-Intelligenz https://the-decoder.de/ https://www.ct.de/ki https://www.dfki.de/web https://www.dfki.de/web/news-media/events/hm26/medgenai

Transkript anzeigen

00:00:02: Das KI Update, ein heise Podcast mit redaktioneller Unterstützung von The Decoder.

00:00:14: Ich bin Isabel Grünewald und dies ist unser Deep Dive zum Wochenende.

00:00:19: Künstliche Intelligenz in der Medizin verspricht, Diagnosen zu unterstützen und Behandlungen zu verbessern.

00:00:26: Doch

00:00:27: die Modelle sind nur so gut wie die Daten, mit denen sie trainiert werden!

00:00:32: Und da diese Daten oft einen verzerrten Ausschnitt der Realität darstellen sind auch die KI-Modelle voreingenommen, ein Phänomen das als Bayes bezeichnet wird.

00:00:42: Stanislav Frolov ist wissenschaftlicher Mitarbeiter am DFKI.

00:00:47: Er hat sich im Rahmen des Projekts MedGenAI intensiv mit dieser Herausforderung beschäftigt und erklärt in Gespräch mit meinem Kollegen Robin Ahrens von der CT, dass die Lösung für das Problem KI generierte Bilder sein können – wie das funktioniert hört ihr heute im Deep Dive!

00:01:07: Ja, hallo Stanislav!

00:01:08: Schön dass du da bist.

00:01:09: Genau wir wollen jetzt heute ein bisschen über generative KI und Bildsynthese und vor allem den KI-Bias reden.

00:01:16: Jetzt gibt es teilweise Utopänen in denen KI Modelle nicht mehr durch große Technikkonzerne kontrolliert werden sondern die Technologie vergesellschaftet ist und sich ja im Allgemeinwohl orientiert.

00:01:26: In diesen Szenarien können KI dann weniger Bias sein.

00:01:31: das wird zumindest teilweise behauptet.

00:01:34: meine Frage wäre da jetzt Können KI-Modelle denn überhaupt unvoreingenommen sein?

00:01:39: Ja, das ist eine spannende Frage.

00:01:41: Ich würde sagen wahrscheinlich nicht ganz.

00:01:44: Eine KI lernt ja auch immer aus Daten und diese Daten sind irgendwo in mein Ausschnitt der Welt gesammelt und auch ausgewählt von Menschen.

00:01:54: Es ist irgendwo also auch eine Art Spiegel.

00:01:57: Das heißt alles was in unserer Gesellschaft angenommen wird oder ein Anführungszeichen auch schiefläuft steckt am Ende auch in diesen gesammelten Daten und den Daten, mit denen wir die KI trainieren.

00:02:11: Im Gegenzug heißt es also auch selbst wenn eine KI nicht von großen Konzernen kontrolliert würde sondern allen gehört Auch dann muss ja jemand entscheiden welche Daten sammelt man?

00:02:23: Und was ist die richtige Antwort für eine Frage?

00:02:27: Das sind also auch immer Wertentscheidungen Kulturentscheiden persönliche Entscheidungen subjektive.

00:02:36: Deswegen glaube ich, realistisches Ziel bei KI-Modellen ist nicht null Bias.

00:02:43: Sondern sichtbar zu machen welche Bias es gibt es?

00:02:48: Wie kann ich diese messen und was kann ich gegen Bias tun die wirklich schaden.

00:02:55: also so zum Beispiel auch bei einem KI Modell welches Hautkrebs detektieren soll und dann aber zum Beispiel bei verschiedenen Hauttüten verschieden performt.

00:03:06: Du hast es gerade schon ein bisschen angesprochen, was wären denn jetzt verschiedene Arten des Bayes?

00:03:12: Ich glaube der klassische Aspekt von Bayes ist wenn ein Modell über verschiedene Eingabendaten verschiedengut performt oder zum Beispiel gewisse Gruppen benachteiligt

00:03:27: Und welche Möglichkeiten gibt es da jetzt einen Bayes abzuschwächen?

00:03:31: Also Mathias schon mal von synthetischen Daten irgendwie gehört, das ist mir zumindest schon mal untergekommen.

00:03:36: Gibt es auch noch andere Möglichkeiten den KI-Bais abzuschwächen?

00:03:41: Ja, bei es abzuschwächen kann man grob an drei verschiedenen Stellen.

00:03:47: zum einen beim Training von diesem KI-Modell in dem man bessere und ausgewogene Daten sammelt oder z. B. künstliche Daten erzeugt für Gruppen Kombinationen von Input-Labels, die fehlen.

00:04:04: und genau das machen wir auch mit generativen Modellen.

00:04:08: Man kann mit diesen synthetischen Daten wenn man sie im Training nutzt und echte Daten anreichend deutlich fairere Modelle trainieren.

00:04:17: Der zweite Aspekt ist während dem Training.

00:04:20: also man kann auch wenn man das Modell trainiert ganz direkte Fairness Regeln in den Lernprozess mit einbauen.

00:04:29: Und der dritte Aspekt ist nach dem Training.

00:04:32: Also wenn mein Modell fertig trainiert ist, dann kann man nach diesem Training noch mal schauen okay wie verhält sich mein Model auf verschiedenen Gruppen?

00:04:42: und wenn man da an den Beiß feststellt, kann man zum Beispiel nochmal nachjustieren mit einem Feintuning.

00:04:47: Wie würde so ein Feintuning jetzt zum Beispiel aussehen?

00:04:50: Das finde ich ganz schön schwer vorstellbar.

00:04:53: Genau und Feintunning ist letztendlich auch eine Art von Training nur nicht mehr auf einem großen und sage ich mal diversen Datensatz, sondern für eine speziellere Ask.

00:05:07: Im Hautkrebsfall würde man trotzdem natürlich diverse Daten sammeln aber speziell für die Fälle die im vortrainierten Modell schlechter Form oder zum Beispiel nicht ganz fair behandelt werden.

00:05:22: Würdest du jetzt zb auch was bringen an den trainierten Parametern zu drehen also den sogenannten weights?

00:05:28: Ja natürlich, das macht ja auch dieses Feintuning.

00:05:31: Die Gewichte eines Modells, da steckt genau die Information drin, die in das Modell eingeflossen sind.

00:05:37: Da ist so eine Art komprimiertes Wissen oder ein komprämierter Datensatz der genutzt wird um Vorhersagen zu treffen.

00:05:45: Der häufigste Weg um diese Gewicht nachzjustieren ist eben dieses Nachtrainieren- oder Feintuning.

00:05:51: Man nimmt also ein fertiges Modell und reiniert es nochmal mit ausgewogeneren Daten nach auf die spezielle Aufgabe, an der man interessiert ist.

00:06:00: Und so könnte man die Vorhersagen dieses Modells oder auch die Biases in eine faire Richtung versuchen zu drehen.

00:06:08: Wir

00:06:09: hatten es ja jetzt eben schon angesprochen.

00:06:11: also dass es die Möglichkeit gibt einen KI-Bias abzuschwächen indem man eben synthetische Daten verwendet und das heißt dann tatsächlich auch, dass diese Daten KI generierte Trainingsdaten sein können.

00:06:22: Woher weiß ich jetzt, dass die KI-Generiten Trainingsdaten keine falsche Informationen enthalten und eben jetzt zum Beispiel völlig halluciniert sind?

00:06:31: Das ist eine wichtige Frage.

00:06:33: Und die Sorge ist voll berechtigt.

00:06:35: Ein Modell das selbst auf berzehrten Daten gelernt hat gibt diese Fehler letztendlich wieder.

00:06:44: Wenn ein Modell oder die nächste Generation der Modelle immer wieder die eigenen Ergebnisse als Futter bekommt, also als Input im Training werden diese auch stärker.

00:06:59: Also das Modell könnte diesen Beiß noch stärker sogar reproduzieren in der nächsten Generation.

00:07:07: Da gibt es interessante Fälle wo genau das Gegenteil passiert.

00:07:11: Zum Beispiel im generativen Bereich für Bilder ist es vor einiger Zeit so gewesen dass menschliche Gesichter ist nur sehr schlecht dargestellt worden.

00:07:22: Da gibt es ganz viele Details, auf die wir Menschen sehr sensibel sind aber die Modelle konnten das noch gar nicht richtig trainieren.

00:07:30: Wenn man solche synthetische Daten dann im Training nutzt Dann hat man herausgefunden dass die nächste Generation weniger bei es auf zum Beispiel das geschlechtert weil eben diese synthetischen Daten so ein unscharfe Gesichter erstellt haben.

00:07:48: Das ja auch spannend Aber so hundertprozentig.

00:07:51: sicherstellen kann ich letztendlich nicht, dass die synthetischen Daten wirklich keine falsche Information enthalten oder geht das irgendwie doch?

00:07:59: Ja.

00:08:00: Das ist schon schwierig.

00:08:01: es braucht Qualitätskontrolle auf mehreren Ebenen.

00:08:05: zum einen muss man prüfen wie nahe die künstlichen Daten an den echten Daten dran sind.

00:08:12: zweitens kann man eigene Prüfmodelle also Modelle die getrennt trainiert worden sind von dem Modell, das ich gerade prüfen will.

00:08:22: Die unrealistische Trainingsdaten zum Beispiel aussortieren bevor man sie sogar verwendet.

00:08:28: und drittens in der Medizin unverzichtbar ist es Fachexperte diese einzuholen also Fachärzte die sich diese Bilder anschauen und prüfern ob sie klinisch plausibel sind.

00:08:44: Ein wichtiger Aspekt ist dass künstliche Daten echte Daten nicht ersetzen sollten und nicht komplett.

00:08:53: Sie sollten diese am besten nur ergänzen, also dafür gibt es relativ viel Support in der Community und auch in der Wissenschaft das die Ergänzung von echten und synthetischen Daten sehr gut funktioniert.

00:09:05: aber wenn man nur synthetische Daten benutzt fürs Training dann kriegt man auch nicht eine gute Performance auf echten Testdaten und diese generalisieren da nicht

00:09:17: Genau, ich glaube das klang jetzt auch schon ein bisschen an dass du dich unter anderem mit KI im medizinischen Bereich beschäftigst und da hast du eben an einem Projekt mitgearbeitet als wissenschaftlicher Mitarbeiter in einem Forschungsprojekt des deutschen Forschungszentrums für künstliche Intelligenz des DFKIs.

00:09:32: Und das Projekt nannte sich MedGenAI.

00:09:35: Da habt ihr einen KI-Modell entwickelt das synthetische Bilder von Hautkrankheiten erzeugen kann und damit den Bias von sogenannten Diagnosemodellen letztendlich abschwächen können.

00:09:45: Habe ich das so richtig verstanden?

00:09:47: Und wenn ja, dann erklär doch mal ein bisschen vielleicht welche Ausgangslage ihr da eigentlich verbessern wolltet.

00:09:53: Sehr gerne genau!

00:09:54: Also Matchen AI ist entstanden im Kontext von Mission KI.

00:09:59: Mission KI ist ein sehr großes Projekt in dem wir als DFKI auch involviert waren.

00:10:05: es geht grundsätzlich um vertrauenswürdige KI und ein Teilprojekt dass wir bearbeitet haben ist ja fernes Aspekte in der KI für Medizin.

00:10:20: Wir haben uns angeschaut, Hautkrebs vor allem das Melanom weil es die gefährlichste Form von Hautkreps ist.

00:10:26: Es gibt jedes Jahr sehr viele neue Fälle und es werden immer mehr.

00:10:30: Die gute Nachricht ist oder die Hoffnung auch dass die Heilungschancen sehr gut stehen wenn man das Melanoam frühzeitig erkennt.

00:10:38: Und KI könnte uns dabei helfen diese Untersuchungen erstens viel zugänglicher zu machen, vielleicht sogar automatisch per Smartphone wobei das glaube ich noch sehr weit weg ist.

00:10:51: Das Problem aber ist dass beim Training dieser KI-Modelle zur Hautkrebserkennung die Datensätze wieder ungleich verteilt sind und das betrifft nicht nur die Trainingsdaten sondern auch die Testdaten.

00:11:09: Also zum Beispiel kommen dunklere Hauttypen und auch jüngere Menschen viel seltener vor.

00:11:17: Und das ergibt dann zwei Folgen, erstens die KI funktioniert für diese Gruppen ziemlich sicher schlechter.

00:11:25: Und zweitens – und das ist eigentlich auch vielleicht der wichtiger Punkt – weil man diese Daten nicht hat oder nur wenig Daten von seltenen Cases kann man erst gar nicht prüfen wie Pferd in einem Modell ist, weil es die Testbilder schlicht gar nicht gibt für diese Gruppe.

00:11:44: Okay

00:11:45: mit was für Daten habt ihr denn euer Bildmodell trainiert damit das eben synthetische Bilder von Hautkrankheiten generieren kann?

00:11:52: Das hört sich ja erst mal ein bisschen suspekt an.

00:11:55: irgendwie

00:11:56: Ja genau vielleicht.

00:11:57: zuerst zum zum Lösungsvorschlag.

00:11:59: also unsere Idee war halt eben genau dass wir einen Modell ein generatives Modell trainieren für die Erzeugung von synthetischen Hautkrebsbildern und zwar gezielt steuerbar nach verschiedenen Parametern.

00:12:12: Also zum Beispiel das Geschlecht, Alter und auch den Hauttyp und jede Kombination davon.

00:12:18: Und so können wir dann mit diesem generativen Modell Testgruppen bauen also auch Kombination, die es in echt kaum gibt.

00:12:28: Diese Testdaten können genutzt werden um die Vorhersagemodelle besser zu analysieren Genau und das jetzt auch, was du ansprichst.

00:12:36: Das klingt erstmal so spekt, weil die echten Daten gibt es nicht oder nur sehr wenige davon.

00:12:42: Das heißt, dass generative Modell hat natürlich auch schon Schwierigkeiten diese Gruppen zu lernen.

00:12:50: Kommen wir vielleicht nochmal zu diesem Punkt des Verifizieren zurück?

00:12:54: Kann ich dir sicherstellen, dass ein KI-generiertes Bild einer Hautkrankheit jetzt wirklich auch dem realen Krankheitsbild entspricht und ihm nicht halluciniert ist?

00:13:03: Und wenn ja, wie kann ich das sicherstellen?

00:13:06: Ja, das ist insgesamt schwierig für ein einzelnes Bild.

00:13:11: Kann man das kaum sagen!

00:13:13: Man kann nicht hundertprozentig garantieren dass ein Bild genau der Wirklichkeit entspricht aber man kann es systematisch absichern und das ist auch genau was wir in unserem Projekt gemacht haben.

00:13:30: genommen, die fortgrainiert waren und diese mit unseren künstlichen Bildern in der Testphase gefüttert.

00:13:37: Und was wir gesehen haben ist dass sich die Modelle bei den künstlichen Bildern, bei den synthetischen Bildern ähnlich verhalten wie bei den echten Bildern.

00:13:49: Wenn das der Fall ist also wenn ein Erkennungsmodell sich ähnlich verhält bei künstlicher synthetische Melanom und diese ähnlich behandelt wie echte, dann stimmen also so die wichtigsten Merkmale in den Bildern, die zur Erkennung einer Krankheit genutzt werden.

00:14:06: Natürlich wäre es am besten im Idealfall wenn man Fachexpertise, also Fachärzte zur Verfügung hat, die uns unterstützen können in der Phase des Trainings eines Modells in der Auswahl der richtigen Daten.

00:14:23: aber das ist eben sehr... zeitaufwändig und auch teuer.

00:14:28: Okay, das heißt also es geht sozusagen eher darum dass die Masse der synthetischen Daten insgesamt keine Fehler enthält und nicht um das einzubilden?

00:14:38: Genau wir trainieren ein Modell ja immer auf einem großen Datensatz.

00:14:43: in dem Fall ISIC ist International Skin Imaging Collection und wir nutzen ungefähr eine halbe Million Bildern.

00:14:53: Genau wie du gesagt hast ist für uns richtig, wie verhält sich dieses Modell im Durchschnitt sozusagen.

00:15:01: Also das durchschnittliche synthetische Bild liegt es in der Verteilung von echten Bildern.

00:15:07: Sind solche generativen KI-Modelle in der Medizinbranche, wie ihr das ja jetzt erstellt habt oder produziert habt.

00:15:14: Ist es eher die Ausnahme?

00:15:15: Oder ist das schon der Regelfall?

00:15:17: Weil ich habe das zum ersten Mal gesehen und wir haben uns auf der Hannover-Messe kennengelernt, da hattet ihren Stand.

00:15:25: Aber ist das der Regelfall oder eher die ausnahme?

00:15:29: Ich muss dazu sagen, ich bin nicht artig also ich weiß nicht ganz genau was in der medizin alles zugelassen ist und was nicht.

00:15:39: aus meiner persönlichen Erfahrung würde ich behaupten, dass im echten Klinikalltag also an Patienten zugelassene Projekte eher die Ausnahme.

00:15:50: Die KI, die heute in der Medizin zum Einsatz kommt hat immer noch Schwachstellen.

00:15:57: In der Forschung sieht es natürlich ganz anders aus.

00:15:59: da boomen generative Modelle und wir forschen seit vielen Jahren an KI-Modellen für die Medizin, also vertrauenswürdige KI in der Medizin ist auch ein Kernthema am DFKI und auch in unserem Team.

00:16:14: Genau aber wir interessieren uns zwar auch für die Diagnose, also KI-Modelle zur Diagnase, aber vor allem auch für unterstützende Aufgaben.

00:16:25: Also zum Beispiel um fehlende Daten aufzufüllen mit synthetischen oder Bilder zu verbessern diese trainierten Kei-Modelle zu analysieren.

00:16:37: Was können die gut, was können sie nicht so gut?

00:16:40: Warum treffen Sie Entscheidungen?

00:16:42: und der Grund dass generative Modelle nicht super geeignet sind für die Diagnose ist das wie wir vorher schon auch besprochen haben die können haluzinieren.

00:16:56: also sie können Bilder generieren und Daten generieren die plausibel aussehen aber vielleicht einfach falsch sind.

00:17:05: Und das ist natürlich sehr gefährlich, ja es gibt zum Beispiel wenn's in einem Datensatz eine gewisse Kombination von Hauttyp und Krankheit nicht gibt dann kann mein generatives Modell ja trotzdem solche Bilder erzeugen.

00:17:23: am Ende des Tages ist es eine Maschine die gelernt hat beliebige Input zu Outputs zu generieren.

00:17:32: aber Woher weiß ich denn, dass dieses Bild auch der Realität entspricht?

00:17:37: Das weiß ich in dem Fall nicht.

00:17:39: Da müsste ich Fachärzte fragen die wissen es hoffentlich aber vielleicht auch nicht wenn sie diese Fälle noch nicht gesehen haben und kritisch ist halt eben auch das eine Krankheit ja vielleicht auch verschiedene Merkmale oder verschiedene Symptome bei verschiedenen Geschlechtern oder Hauttypen zeigen kann.

00:18:00: Das heißt, einfach dieser Transfer von so einer Hautläsion auf einem anderen Hauttyp ist auch nicht immer ganz einfach.

00:18:13: Kann man denn synthetische Daten, wie ihr das gemacht habt eben zur Bayes-Abschwächung.

00:18:19: Kann man die für alle möglichen Arten von KI Modellen benutzen?

00:18:23: Also beispielsweise Large Language Models oder Bild oder Audio Generierungsmodelle.

00:18:29: Oder gibt es da auch irgendwie Beschränkungen?

00:18:31: also welche Modelle weniger gut oder besser geeignet sind?

00:18:35: Ja grundsätzlich ja.

00:18:37: überall dort wo Bayes entsteht weil eine Gruppe In den Daten fehlt, kann man mit synthetischen Daten nachsteuern also auch bei Audio oder Text.

00:18:49: Bei Bildern würde ich behaupten ist das am einfachsten weil man sich diese Bilder eben anschauen kann.

00:18:55: Kann die Qualität prüfen und sehen ob es so aussieht wie es aussehen soll oder nicht.

00:19:01: Bei Audio ist es auch möglich zum Beispiel um seltene Dialekte besser zu verstehen genau Bei Sprachmodellen natürlich auch, künstliche Texte werden auch genutzt um die Frontiermodels zu trainieren.

00:19:18: Ich würde aber behaupten dass bei es in der Sprache vielleicht ein bisschen diffuser ist weil ja in Stereotypen oder Denkmustern steckt und nicht wirklich in der Grammatik- oder Syntax von Text.

00:19:34: Euer Bildmodell, was ihr entwickelt habt das kann ja auch so genannte Counterfactuals generieren.

00:19:39: Den Begriff habe ich so vorhin noch nicht gehört.

00:19:41: Magst du es vielleicht nochmal erklären?

00:19:44: Ja gibt's überhaupt diesen deutschen Begriff?

00:19:47: Kontrafaktisch?

00:19:49: Ja im Prinzip her glaube schon hört sich auf jeden Fall richtig an.

00:19:52: Ich weiß nicht ob kontrafaktische jetzt im KI-Kontext so geläufig ist aber...

00:19:56: Ja wahrscheinlich eher nicht Genau, also ein Counterfactual ist im Grunde so eine Was-Währe-Wenn-Frage.

00:20:05: Also was wäre wenn an genau diesem Bild Ein Aspekt anders wäre und alle anderen wären gleich?

00:20:13: Also zum Beispiel ich habe hier eine Hautstelle Und also einen Melanom auf einer Hautstell und Erzeuge sie einmal mit einem helleren Hauttyp und einmal mit dem dunkleren Haut Typ.

00:20:27: Die Krankheit selbst wird medizinisch gesehen die gleiche bleiben, gehen wir mal davon aus.

00:20:33: Nur der Hautton ändert sich.

00:20:35: und wie verhält sich dann mein Modell?

00:20:37: Also gibt es mir immer noch die gleichen Diagnose mit der gleichen Sicherheit.

00:20:43: oder fängt das an sich unsicher zu werden oder gibt es sogar eine andere Diagnase?

00:20:49: Und dass ist halt nützlich solche Counterfactuals zu generieren weil man damit den Bayes analysieren kann und messen kann.

00:20:59: Wenn ich sehe, dass ein Modell bei dunkler Haut schlechter performt dann weiß sich erst mal nicht warum.

00:21:07: vielleicht liegt es an der Krankheit?

00:21:09: Vielleicht sind die Bilder haben eine andere Qualität oder wurden mit einem anderen Gerät Mikroskop aufgezeichnet.

00:21:18: Oder liegt das vielleicht daran an was ganz Anderem?

00:21:23: einer versteckten Variable, wie zum Beispiel ja dem Licht im Labor oder genau sowas.

00:21:30: Und was man mit diesen Counterfactuals eben machen kann ist zu analysieren auf was eigentlich das Modell reagiert.

00:21:38: also auf welchen Aspekt in einem Bild reagiert es und welche Aspekte in einem bild sind mehr sensibel und weniger sensible?

00:21:49: Die Generierung von Counterfactually wichtig, weil beim manchen Kombinationen weiß man ja dass sie keine Rolle spielen sollten.

00:22:01: Also wenn ein vienisches Symptom oder Merkmal so einen Melanom auf der Haut oder eine Lesion eine gewisse Krankheitsmerkmale zeigt dann sollte die Diagnose von meinem Modell und die Sicherheit in meinen Modell Ja, komplett unabhängig sein.

00:22:22: Ob es sich hier um eine Frau oder ein Mann handelt?

00:22:26: Oder ob es sich um eine junge oder alte Person handelt.

00:22:30: Wobei kann ja sein in der echten Welt gibt es vielleicht eine Korrelation zwischen Dingen aber man könnte jetzt trotzdem erst mal sagen okay wir nehmen an Krankheiten sind gleich verteilt.

00:22:40: Aber wenn ich dann mit Counterfactures feststelle dass mein Modell einer Gruppe sehr häufig an die Krankheit zuweist als ne anderen dann ist das schon etwas, wo ich genauer hinschauen sollte.

00:22:51: Also das heißt man kann die Fehleranfälligkeit von der matologischen Analyse Modellen zum Beispiel in eurem Fall mit Hilfe von Counterfactuals verbessern?

00:23:01: Zuerst einmal Messbarmach.

00:23:03: also was genau sind die sensiblen Aspekte oder Biases in meinem Modell Kann man mit Counterfactually aufdecken.

00:23:12: Im zweiten Schritt kann man natürlich auch Insights, die man generiert aus dieser Analyse mit Counterfactuals nutzen.

00:23:21: Um zum Beispiel die richtigen synthetischen Daten zu generieren oder die echten Trainingsdaten besser zu filtern oder etwas am Modell an der Lossfunktion etc.

00:23:31: tun.

00:23:33: Okay und die counterfactual sind jetzt quasi immer eine Bandbreite von Bildern Die da generiert wird also mehrere Bilder oder wie muss ich mir das vorstellen?

00:23:45: Die Pipeline in der Counter-Factual-Generierung ist häufig so, dass man ein gewisses Bild hat.

00:23:51: Das kann ein echtes Bild sein!

00:23:53: Man hat einen Erkennungsmodell fortrainiert.

00:23:57: Es gibt mir gegeben diesem Eingabelbild eine Verteilung über die Diagnosen zum Beispiel und jetzt kommt ein generatives Modell dazu.

00:24:07: Also dieses generative Modell kann das Signal aus dem Erkernungsmodel nutzen um dann das originale Eingabebild leicht zu verändern, sodass zum Beispiel eine andere Diagnose herauskommt.

00:24:22: Dann hat man also zwei verschiedene Bilder – das Originale Bild mit der Vorhersage einer Diagnase und dieses leicht veränderte synthetische Bild mit einer anderen Vorhorsage.

00:24:34: Und diese Diskrepanz, wie viel musste ich am Bild ändern damit die Vorhnersage springt?

00:24:41: Zu einer anderen Diagnese

00:24:42: z.B.?

00:24:43: Kann ich nutzen, also diesen Vergleich der zwei Bilder um mir zu überlegen.

00:24:48: Okay auf was guckt eigentlich mein Erkennungsmodell?

00:24:51: Was sind die wichtigen Merkmale?

00:24:54: hat es die richtigen merkmale verändert um zum Beispiel einen rösartigen zu einem gutartigen Krebs umzuwandeln?

00:25:03: Also das heißt man nutzt Counterfactuals vor allem im Zusammenspiel von mehreren KI Modellen als ein Erkannungsmodel und einem generativen Modell?

00:25:16: Genau.

00:25:17: Okay,

00:25:18: ja

00:25:19: vielleicht soll es.

00:25:19: abschließende Frage Wie können jetzt solche wie eure Forschungsergebnisse künftig in KI basierte medizinische Diagnosetools einfließen?

00:25:31: Ich sehe da hauptsächlich drei Säulen.

00:25:34: die erste Säule ist ein Prüfwerkzeug das heißt bevor ein Diagnose-KI-Modell auf den Markt kommt Testet man es gegen ausgewogene Testgruppen?

00:25:48: Echte, so weit vorhanden.

00:25:50: Aber auch synthetische um alle Kombination von zum Beispiel Geschlechtalter und Hauttyp abzudecken.

00:25:57: Und das passt auch direkt zu den Anforderungen des europäischen Gesetzes.

00:26:02: Es ist datenschutzfreundlich weil man dafür keine echten Patientendaten braucht.

00:26:08: Zweitens als Trainingsbaustein ja also was wir vorher besprochen haben gezielt synthetische Daten nutzen, um Lücken in den Trainingsdaten zu schließen und so von vornherein deutlich fairere Modelle und robustere Modellen bauen zu können.

00:26:25: Und drittens – das geht jetzt wieder in diese Richtung Counter-Factures oder gröber gesprochen Erklärbarkeit, Interpretierbarkeit.

00:26:34: nicht nur messen dass ein Modell unfair ist sondern auch verstehen warum?

00:26:39: welche Merkmale nutzt es um Unfaire Vorhersagen zu treffen?

00:26:43: Genau.

00:26:44: Und was mir halt persönlich auch wichtig ist, bevor so ein Modell in der Klinik wirklich zum Einsatz kommt, braucht es trotzdem echte Studien mit echten Patienten und die Prüfung von Fachleuten, von Experten, die sich diese Bilder anschauen, die sie sich die Vorhersagen anschauen und die sich auch anschauen ob das Modell die richtigen Merkmale nutzt um eine Diagnose zu treffen.

00:27:12: Ganz, ganz wichtig für vertrauenswürdige KI in der Medizin.

00:27:17: Also das letztendlich irgendwie immer noch mal medizinische Fachexpertise darauf guckt und dass letztendling testet... Da frage ich mich dann nur wieder, das meinst du jetzt auch gerade vorhin schon.

00:27:29: Dass es gar nicht so einfach und vor allem auch teuer ist, dass medizinisches Fachpersonal sich jedes einzelne generierte Bild anschaut?

00:27:39: Wie könnte denn aber so ein Workflow aussehen wo sowas quasi gegen gecheckt wird?

00:27:44: Ich könnte mir vorstellen, dass Fachleute von Anfang an am besten mit involviert sind in der Entwicklung von so einem Modell damit sie besser einschätzen können, ob die richtigen Daten genutzt werden weil sie sich auch diese Bilder anschauen und vergleichen können.

00:28:06: Ob es vielleicht Schwierigkeiten gibt in der Datenerfassung zum Beispiel verschiedene Praxen haben verschiedene Geräte, verschiedene Lichteinflüsse ist das ein Problem oder könnte man das vielleicht standardisieren?

00:28:20: Und dann natürlich auch vor allem in der Testphase also wirklich Dieses Modellnehmen in der Praxis testen sich noch nicht hundertprozentig darauf zu verlassen, sondern so eine Art parallele Workflow.

00:28:33: Also die KI gibt einen Vorhersag und man selbst trifft eine Diagnose ohne sich vorher die Vorherrtage des Modells anzuschauen und vergleichtern.

00:28:44: So kann man aufdecken wo es Unterschiede gibt und dann in der nächsten iteration verbessern.

00:28:50: Ja okay das klingt schlüssig Genau, dann danke ich dir für deine Zeit.

00:28:56: Das war ein sehr spannendes Gespräch und vielleicht hören wir uns ja mal wieder?

00:29:00: Ja vielen Dank!

00:29:01: Danke sehr gerne.

00:29:02: War schön mit dir darüber zu sprechen.

00:29:21: Das bedeutet, ihr könnt alle Heiseplus-Artikel lesen und habt Zugriff auf alle unsere Magazine online und in den Apps.

00:29:28: Das Angebot findet Ihr unter heiseplus.de.

00:29:31: slash audio.

00:29:33: Den nächsten Deep Dive hört ihr hier in zwei Wochen!

00:29:36: Da geht es um ein Thema bei dem wir vielleicht nicht sofort an die großen Veränderungen durch KI denken – nämlich

00:29:42: um das

00:29:42: Handwerk.

00:29:43: Es würde mich freuen wenn ihr dann wieder dabei seid.

00:29:46: Bis dahin könnt ihr natürlich mit dem kompakten K.I-Update Montag, Mittwoch

00:29:50: und Freitag

00:29:51: auf dem Laufenden bleiben!

Shownotes

Transkript anzeigen

Neuer Kommentar