Deep Learning für die histologische Analyse von Krebs Biomarkern

Können wir mit Deep Learning neue Erkenntnisse aus H&E-Färbungen gewinnen?

by
DataRevenue
Markus Schmitt

Wir haben uns mit Heather Couture von Pixel Scientia Labs zusammengesetzt und uns über ihre jüngste Forschung zum Einsatz von Deep Learning bei der Untersuchung von Krebs-Biomarkern mittels HE-Färbung unterhalten.

Kurze Einführung in die Genomanalyse und H&E-Färbung

Bei der Erforschung bestimmter Krankheiten, u.a.  Krebserkrankungen, haben sich Wissenschaftler lange Zeit auf einzelne Gene konzentriert (Gentests). Heutzutage werden dagegen immer stärker sogenannte Genomanalysen eingesetzt, um - statt nur einzelnen Genen - sämtliche Gene zu untersuchen, die zu einer Krebserkrankung beitragen und damit ein umfassendes Krankheitsprofil zu erstellen.

Genomanalysen können zwar genaue Erkenntnisse über den jeweiligen Krebssubtyp liefern und damit den Behandlungsprozess erheblich erleichtern; Gleichzeitig ist diese Analyse jedoch langwierig und teuer. 

Die Analyse von Hämatoxylin-Eosin-Färbungen ist dagegen um einiges simpler und kostengünstiger. Bei diesem Verfahren werden angefärbte Gewebe- oder Zellproben unter herkömmlichen Mikroskopen betrachtet. H&E färbt die Kerne blau und das Zytoplasma rosa, sodass Pathologen die Bilder auswerten können. Dieses Verfahren liefert allerdings nicht die gleichen Informationen wie eine Genomanalyse.

Heather Couture entwickelt Verfahren zur Vorhersage einiger der genomischen Eigenschaften von Krebszellen auf der Grundlage von H&E-Bildern unter Verwendung von Deep Learning. Mithilfe dieses Verfahrens können Pathologen Krebs-Biomarker schneller und kostengünstiger erkennen.

Eine Tabelle, die zeigt, dass H&E-Färbungen schnell und günstiger sind, aber keine genomische Subtyp-Analyse ermöglichen. Genomanalysen sind langsam und teuer, können aber genomische Subtypen analysieren. Die Kombination von H&E-Färbungen mit Machine Learning ist schnell, günstig und kann genomische Subtyp-Analysen durchführen.
Die Kombination von Machine Learning mit schnellen, günstigen H&E-Färbungen bietet einige der Vorteile teurer Genomanalysen.

Heather schildert diesen Prozess so:

“Für die Brustkrebs-Analyse sagen wir die molekularen Eigenschaften von Tumoren vorher. So können personalisierte Behandlungen durchgeführt werden. Kennt man den genauen Subtyp eines Tumors, weiss man unter Umständen, welches Medikament wirksamer ist als andere. Üblicherweise werden diese Untersuchungen mit genomischen Daten durchgeführt. Unser Team an der Universität von North Carolina hat jedoch entdeckt, dass wir einige dieser Eigenschaften auch anhand histologischer H&E-Objektträger vorhersagen können - Objektträger, die angefärbt und unter einem Mikroskop abgebildet werden. Es liefert zwar kein perfektes Ergebnis, kann jedoch als erstes Screening-Verfahren verwendet werden, bevor man Zeit und Geld in die Durchführung eines vollständigen Genomtests investiert.”

[Interessierst du dich dafür, wie Forscher Machine Learning in ihre Analyseverfahren integrieren? Melde dich gerne für unseren Newsletter an und erhalte regelmäßig interessante Artikel zum Thema.]

Machine Learning kann Vorhersagen treffen, die Ärzte alleine nicht treffen können

Es geht nicht nur darum, dass Maschinen meist effizienter vorgehen und mit größeren Datensätzen arbeiten können. Molekulare Eigenschaften auf der Grundlage von H&E-Objektträgern vorherzusagen, ist etwas, was Menschen überhaupt nicht können. Heather beschreibt es so: 

“Pathologen können Protein-Biomarker identifizieren, wenn sie andere Färbungsmethoden einsetzen. Da gibt es unterschiedliche Wege, die auch in den meisten Laboren standardmässig eingesetzt werden - sie können sie aber nicht anhand von H&E-Bildern erkennen, der verbreitetsten diagnostischen Färbemethode.”

Das bedeutet jedoch nicht, dass Algorithmen die Arbeit des Menschen komplett ersetzen werden. Heather geht davon aus, dass Mensch und Maschine zukünftig immer stärker Hand in Hand miteinander arbeiten. Aber sie betont auch, dass sich erst mit der Zeit zeigen wird, wie diese Zusammenarbeit genau funktionieren kann:

“Es sollte nicht zu einem Wettbewerb zwischen KI und Pathologen kommen. Vielmehr sollten Pathologen mit KI zusammenarbeiten. Wie sieht das aus? KI untersucht die Bilder zuerst und bestimmt Regionen die der Pathologe dann genauer analysiert. Oder KI überprüft die Befunde des Pathologen, um menschliche Fehlern aufzudecken. Oder KI und Pathologen erledigen ganz unterschiedliche Aufgaben: Die KI sucht und zählt Zellen - und dann übernimmt der Pathologe den Rest.”

Es handelt sich um ein rasant wachsendes Forschungsgebiet, in dem wir vermutlich in naher Zukunft genauer wissen wie diese Kollaboration aussehen wird. Heather berichtet von kürzlich mehr Interesse an dem Thema:

“Mehrere Studien haben kürzlich unterschiedliche Varianten des Einsatzes von Machine Learning für die Biomarker-Analyse untersucht. Allein in der letzten Woche gab es zwei Publikationen in Nature, die das Konzept an verschiedenen Krebserkrankungen getestet haben. Und diese Woche wurde eine weitere Studie veröffentlicht, die ebenfalls Machine Learning zur Vorhersage molekularer Merkmale einsetzt. Es scheint also, als ob dieses Thema endlich in Schwung kommt.”

Wie Deep Learning die automatisierte Analyse von H&E-Bildern voranbringen kann

Die Idee, Machine Learning zur Automatisierung von Analysen einzusetzen, ist nicht neu. Die jüngsten Fortschritte im Bereich des Deep Learning haben diesem Bereich jedoch neues Leben eingehaucht. Insbesondere der Bereich der Bilderkennung wurde in jüngster Zeit durch Deep Learning revolutioniert, das es Maschinen ermöglicht, Muster in Bildern zu erkennen - einschließlich H&E-Färbungen. 

Heather beschreibt, wie Deep Learning Forschungsteams in die Lage versetzt hat, Machine Learning Features nicht mehr manuell zu erstellen (ein langsamer und ungenauer Prozess), sondern komplette Bilder in Deep Learning Algorithmen einzuspeisen, die die relevanten Bereiche automatisch identifizieren:

“Bei Hautkrebs haben wir früher manuell erstellte Merkmale verwendet. Wir segmentierten einzelne Zellen und Zellkerne, charakterisierten ihre Form, ihre Textur, ihre Anordnung und so weiter. Damit haben wir versucht, vorherzusagen, ob verschiedene Proben eine Mutation aufweisen oder nicht - was uns nicht gelang. Wir kamen zu keinerlei statistisch aussagekräftigen Ergebnissen.
Deep Learning war bereits im Kommen, aber zu diesem Zeitpunkt gab es noch keine Toolkits wie TensorFlow oder PyTorch. Meiner Erfahrung nach war der Übergang von manuellen Elementen zu Deep Learning entscheidend für die heutigen Entwicklungen. Ich vermute, dass dasselbe auch bei anderen Teams der Fall war.”

Die Einführung von KI-Modellen in Kliniken: Drei Herausforderungen

So vielversprechend diese Fortschritte auch sein mögen, gibt es auch einige Herausforderungen, die es noch zu bewältigen gilt. Heather betont, dass es noch Jahre dauern könnte, bis ihre H&E-Forschung in Kliniken zum Einsatz kommt:

“Der Einsatz von Deep Learning zur Vorhersage molekularer Biomarker ist bisher nur in der Wissenschaft verbreitet. Vom Einsatz in Kliniken sind wir noch weit entfernt und müssen dafür noch einiges an Arbeit investieren.”

Wirkliche Fortschritte werden voraussichtlich erst allmählich erzielt werden. Heather glaubt, dass der erste reale Anwendungsfall ein einfaches Screening-Instrument sein könnte, das Humanpathologen Empfehlungen für die nächsten Schritte gibt:

“Der Output könnte lauten: 'Dies ist höchstwahrscheinlich der Subtyp x und hat keine Mutation y.' Anhand dieser Informationen könnte ein Pathologe entscheiden, ob er ein detaillierteres Screening durchführen lassen oder für den Genomtest bezahlen möchte.”

Heather hat einige der größten Herausforderungen aufgelistet, die noch überwunden werden müssen, bevor Deep Learning auf H&E-Bildern in Kliniken eingesetzt werden kann:

Herausforderung 1: Robuste Ergebnisse mit unterschiedlicher Laborausstattung

Robustheit - also die Fähigkeit, in unterschiedlichen Umgebungen vorhersagbare Resultate zu erzielen - stellt für Machine Learning Pipelines häufig eine Herausforderung dar. Dies gilt insbesondere für H&E-Bilder, bei denen die verwendeten Geräte hochsensibel und nicht immer laborübergreifend standardisiert sind.

Eine Lösung, die Deep Learning auf H&E-Bildern in der Praxis anwendet, müsste mit diesen Schwankungen umgehen können. Wenn Messungen in verschiedenen Labors nicht konsistent sind, dann ist ein Modell, das mit Daten aus einem bestimmten Equipment trainiert wurde, nicht in der Lage, Daten aus einem anderen Labor zu verarbeiten. Heather erklärt es so:

“Der Algorithmus muss robust sein. Er muss auf verschiedene Scanner, verschiedene Mikroskope und verschiedene Färbetechniken verallgemeinert werden können. Eines der Hauptprobleme bei der H&E-Färbung besteht darin, dass die Intensität der Färbung etwas anders ausfallen kann, je nachdem in welchem Labor sie durchgeführt wird.
Die Färbungen können mit der Zeit verblassen, und wenn sie von einem anderen Scanner gescannt werden, sehen sie wieder etwas anders aus. Diese Probleme müssen berücksichtigt werden, das ist jedoch gar nicht so einfach.”

Herausforderung 2: Einsatz von Deep Learning-Algorithmen bei kleinen Datensätzen

Verglichen mit Datensätzen über den Klimawandel, an denen Heather ebenfalls gearbeitet hat, sind H&E-Datensätze oft winzig. Für Machine Learning ist dies problematisch, da es auf große Datensätze angewiesen ist, um generalisierbare Muster zu finden:

“Wir haben es mit kleineren Datensätzen zu tun. In manchen Settings mögen ein paar hundert Patienten als "großer" Datensatz gelten, das ist hier jedoch anders. Tausend ist ausreichend und manchmal auch alles, was wir bekommen können. Das ist ganz anders als in anderen Anwendungsbereichen von Machine Learning.”

Die Anzahl der Stichproben ist oft gering, und jede einzelne Stichprobe ist relativ "breit" (sie enthält also viele Informationen), was die Herausforderung, zuverlässige Deep Learning Algorithmen zu entwickeln, noch komplexer macht. Dennoch ist Heather optimistisch, diese Herausforderung zu meistern.: 

“Man kann verschiedene Algorithmen verwenden. Da diese Bilder, mit denen wir hier zu tun haben, sehr groß sind, gibt es in jedem Bild mehrere Bildteile, mit denen wir arbeiten können. Das funktioniert hervorragend, um einen CNN zu trainieren. Es gibt einige Dinge, die wir dann anders machen müssen - zum Beispiel können wir nicht das gesamte Bild auf einmal durch die GPU schicken. Man muss es in kleinere Patches aufteilen und eventuell einen Second-Level-Classifier haben, um Vorhersagen aus den kleineren Patches zu integrieren. 
Aber es gibt Lösungen, und in diesem Bereich wird aktuell sehr viel geforscht.”

Herausforderung 3: Teams mit erforderlichem Fachwissen

Für den Umgang mit Machine Learning und H&E-Bildern braucht es tiefe und breite Fachkenntnisse in mehreren Bereichen. Als Beraterin ist Heather häufig damit beschäftigt, Wissenslücken zu schließen, von der Beratung bis hin zum Programmieren von Machine Learning Modellen. Sie beschreibt die Vielfalt ihrer Arbeit:

“Meine Rolle ist manchmal rein beratend. Dann treffe mich einmal pro Woche mit meinem Kunden, um mit ihm über seine Probleme zu sprechen, Vorschläge zu machen oder ihn auf bereits vorhandene Bibliotheken und Forschungsarbeiten hinzuweisen.
Alternativ übernehme ich die Programmierarbeit: Ich implementiere ein Proof of Concept oder helfe bei der Fehlersuche. Manchmal leite ich aber auch Machine Learning Projekte. Dann bin ich oft die erste Person im Team, die Machine Learning einsetzt und helfe dabei, ein Team zusammenzustellen.”

Heather hat sich darauf spezialisiert, Unternehmen bei der Erstellung von Proof of Concepts zu unterstützen - vereinfachte Versionen der angestrebten Lösung. Diese übergibt sie dann an Teams von Machine Learning Entwicklern, die sie in produktionsreife Lösungen umwandeln. Eine große Herausforderung besteht laut Heather oft darin, dass Unternehmen häufig Mitarbeiter mit akademischem Hintergrund einstellen, die noch nie mit realen Datensätzen gearbeitet haben:

“Solche Mitarbeiter haben im Rahmen ihrer Kurse mit akademischen Benchmark-Datensätzen gearbeitet, aber kennen häufig die Herausforderungen echter Daten nicht. Reale Daten sind verrauscht und ungleichmäßig. Beschriftungen können falsch sein; selbst grundlegende Aussagen stimmen manchmal nicht.”

Es ist eine große Herausforderung, multidisziplinäre Experten mit überlappender Erfahrung zu finden. Aber es ist notwendig:

“Um diese Lösungen zu entwickeln, braucht es Menschen aus vielen verschiedenen Bereichen: nicht nur Machine Learning, sondern auch aus Pathologie, Genetik, Statistik und je nachdem um welches Thema es geht, noch weitere Experten aus spezifischen Bereichen.”

Planen Sie, Ihren Forschungsprozess mit Machine Learning zu beschleunigen?

Wir kennen viele der technischen und teamspezifischen Herausforderungen, die Heather anspricht und haben einige davon bereits lösen können. Sollten Sie bei ähnlichen Problemen Unterstützung benötigen, melden Sie sich gerne bei uns und diskutieren Sie ihre nächste Machine Learning Challenge direkt mit unserem CEO.

Bekomme immer die neusten Artikel

Trag dich mit deiner E-Mail ein, um du bekommst jede Woche unseren neusten Artikel.

Ich danke Ihnen! Ihre Einreichung ist eingegangen!
Oops! Something went wrong while submitting the form.