Biologen und Data Scientists: Eine kulturelle Kluft

Einblicke von Alexander Titus

by
DataRevenue
Markus Schmitt

Biologie und Data Science haben als Fachrichtungen einiges gemeinsam. Sowohl Data Scientists als auch Biologen analysieren Datensätze, um herauszufinden, wie die Welt um uns herum funktioniert. Data Science wird für Biologen immer relevanter. Machine Learning wird bereits in der Entwicklung von Medikamenten, für medizinische Diagnosen und für die allgemeine Automatisierung von Aufgaben eingesetzt.

Trotzdem herrscht nach wie vor eine große Kluft zwischen den Denkweisen beider Fachrichtungen. Data Scientists und Biologen befassen sich mit denselben Problemen häufig aus völlig unterschiedlichen Perspektiven, setzen unterschiedliche Methoden ein und verwenden unterschiedliche Begriffe.

Wir haben mit Alexander Titus, Chief Strategy Officer (CSO) am Advanced Regenerative Manufacturing Institute (ARMI) und Chefredakteur von Bioeconomy.XYZ gesprochen. Alexander startete seine Karriere als Biologe, promovierte anschließend im Data Science Bereich und arbeitet aktuell daran, die Kluft zwischen den beiden Fachgebieten zu verringern.

Alexanders beruflicher Hintergrund

Alexander studierte zunächst Biochemie und Biologie und kam erst während des letzten Semesters mit Informatik in Berührung:

"Ich habe mich direkt in Informatik verliebt und musste feststellen, dass ich die ganze Zeit wohl das Falsche studiert hatte.”
"Ich bin ins Silicon Valley gezogen und wollte einen Job bei einem Tech-Startup finden. Da ich keinerlei Softwarekenntnisse hatte, konnte ich erstmal nur an Projekten arbeiten, die nichts mit Programmieren zu tun hatten. Deswegen habe ich einen Großteil meiner Zeit damit verbracht, mich in meinen Keller zu setzen und mir Programmieren beizubringen. Ich habe mich viel mit Statistik und irgendwann auch mit Machine Learning auseinandergesetzt, was so gut geklappt hat, dass ich in dem Bereich sogar promovieren konnte."

Inzwischen ist Alexander Strategiemanager bei ARMI und agiert als Brücke zwischen Data Scientists und Biologen. 

[Erfahre mehr über Alexander auf LinkedIn, Twitter, seinem Podcast Titus Talks, Bioeconomy.xyz oder auf alexandertitus.com.]

Was ist sinnvoller - Biologen in Data Science weiterzubilden oder Data Scientists Biologie beizubringen?

Alexander hat Erfahrungen mit beiden Richtungen gemacht und ist überzeugt, dass es für Biologen leichter ist, Data Science-Fähigkeiten zu erwerben als umgekehrt:

“Für Gründer ist es meistens einfacher, Biologen anzustellen und ihnen Mathematik und Programmieren beizubringen. Es gestaltet sich schwieriger, Leuten mit einem Hintergrund in Mathematik und Naturwissenschaften - nicht aber in Biologie - die nötige Menge an Fakten und Informationen nachträglich beizubringen.”

Beide Richtungen bringen jedoch ihre eigenen Tücken mit sich. Alexander betont, dass eine solide Grundlage in Data Science für jeden unabdingbar ist, der mit den aktuellen Entwicklungen Schritt halten will:

“Es ändert sich alles in kürzester Zeit. Erst war Python groß, dann wurde R integriert. Dann die ganzen Statistiken, dann TensorFlow, dann Keras. Es ändert sich einfach ständig. Ein Skillset kann innerhalb weniger Monate veraltet sein. Wichtig ist die grundlegende Fähigkeit, sich diese Kenntnisse schnell anzueignen”

Tatsächlich ist Alexander überzeugt, dass "lernen zu lernen" das Wichtigste ist, was Studierenden an Universitäten beigebracht wird: 

“Einer meiner Professoren hat mir öfter gesagt: "Das Einzige, was man hier lernt, ist, wie man sich ein Thema innerhalb eines Wochenendes selbst beibringt". Das ist genau das Mindset, das ich von den Leuten brauche. Es spielt keine Rolle was man inhaltlich kann, früher oder später wird irgendjemand einen neuen Algorithmus oder ein neues Framework erfinden. Daran wird man sich immer anpassen müssen.”

Kulturelle Unterschiede 

Eine optische Täuschung mit 3 oder 4 Balken, je nachdem, welche Seite man betrachtet.
Data Scientists und Biologen betrachten dasselbe Problem aus verschiedenen Blickwinkeln. Erfahre regelmäßig über den Einsatz von Data Science in der Biotechnologie - Melde dich für unseren wöchentlichen Newsletter an

Der größte Unterschied zwischen der Herangehensweise von Biologen und Data Scientists besteht in der Art und Weise, wie sie mit Daten und Hypothesentests umgehen.

Hypothesentests vs. Machine Learning

Normalerweise analysieren Wissenschaftler ein Ergebnis (Patient A hat Krebs, Patient B aber nicht), stellen eine Hypothese auf (Die Krebserkrankung könnte mit diesem spezifischen Biomarker diagnostiziert werden) und prüfen diese Hypothese dann anhand von Daten (Suche nach diesem Biomarker in zwei Gruppen von Patienten: Patienten mit und Patienten ohne Krebserkrankung).

Data Scientists, die Machine Learning einsetzen, folgen zwar der gleichen Methode, der Schwerpunkt ist jedoch ein anderer. Sie betrachten das Ergebnis und stellen eine weitaus offenere Hypothese auf, wie z.B: “Vielleicht lässt sich das Ergebnis durch bestimmte Variablen erklären, die in diesem Datensatz vorhanden sind.” Sie speisen ihre Daten in einen Machine Learning Algorithmus ein, der Milliarden möglicher Erklärungsansätze prüft, bevor er automatisch die Muster herausarbeitet, die das Ergebnis am besten erklären.

Der Einsatz von solch weit gefassten Hypothesen ist vielen Biologen fremd und wird sogar häufig abgelehnt:

“In der traditionellen Biologie und Chemie hat man eine sehr spezifische Hypothese, und plant eine Reihe sehr spezifischer Experimente, um sie zu testen. Sobald man damit fertig ist, hat man seine Antwort. Die Hypothese wird dabei lediglich anhand weniger, simpler Daten getestet.
Data Science ist dagegen frei von festen Hypothesen. Man hat zwar eine lose Hypothese, führt dann aber datengesteuerte Analysen durch, um zu einer Antwort zu gelangen.”

Die Verfechter der Biologie: Wahre Wissenschaft oder altmodische Methoden?

Dabei handelt es sich nicht lediglich um Gewohnheitsunterschiede. Über dieses Thema wird teilweise heftigst diskutiert. Alexander zieht sogar Parallelen zu religiösen Ansichten:

“Für Biologen ist es ein Sakrileg, ohne eine feste Hypothese vorzugehen. Das widerspricht den Grundlagen ihrer Ausbildung und dem Ethos des Biologenberufs.”

Aufgrund neuer Tools und Technologien, mithilfe derer Daten viel effizienter analysiert werden können, gewinnt Machine Learning jedoch immer mehr an Akzeptanz:

“Es gibt zahlreiche Belege dafür, wie gut Analysen auf der Grundlage von Machine Learning funktionieren und wie nützlich sie sind.”

Machine Learning kann komplexere Zusammenhänge in den Daten erkennen 

Ohne unterstützende Algorithmen waren Wissenschaftler in der Art von Datenanalysen, die ihnen zur Verfügung standen, stark eingeschränkt. Ursprünglich analysierten Biologen in einem Experiment nur wenige Variablen und suchten nach einfachen Zusammenhängen in den Daten.

Es ist also nicht verwunderlich, dass es ihnen Schwierigkeiten bereitet, das Potenzial von Machine Learning in ihrem Fachbereich zu erkennen. Alexander kann diese traditionelle Perspektive nachvollziehen: 

“Die meisten Wissenschaftler aus Biologie und Chemie führen eine Handvoll an Experimenten durch, analysieren ihre Daten in Excel und visualisieren ihre Ergebnisse in Diagrammen. Oft gehen sie davon aus, dass Analysen, die auf Machine Learning basieren, ähnlich ablaufen und lediglich mehr Datenpunkte generieren. Sie können sich die Komplexität und das damit verbundene Potenzial oft nicht vorstellen, das damit einhergeht, wenn Analysen auf viel mehr Daten und viel mehr Variablen basieren.
Uns Menschen fällt es oft schwer, hohe Dimensionalität zu begreifen. Wir können kaum etwas visualisieren, was über drei Dimensionen hinausgeht. Geoffrey Hinton drückt es so aus: “Um sich einen 14-dimensionalen Raum vorzustellen, denken Sie an einen 3-Dimensionalen Raum und sagen dazu 'vierzehn'. So macht es jeder.” 

Maschinen sind jedoch nicht auf diese Weise eingeschränkt. Mit zunehmender Rechenleistung und fortschrittlicheren Algorithmen beschleunigt Machine Learning nicht nur herkömmliche Verfahren, sondern ermöglicht auch Analysen, die mit rein manuellen Methoden gar nicht durchführbar sind. Maschinen können Korrelationen zwischen Dutzenden von Variablen finden, während menschliche Wissenschaftler in der Regel nur eine oder zwei auf einmal untersuchen können.

Mit Hilfe neuer Technologien kann man mehr Daten sammeln und umfassendere Analysen durchführen

Historisch gesehen waren strenge Hypothesentests sinnvoll. Die Datenerhebung war teuer, sodass Biologen geschult wurden, nur genau die Daten zu sammeln, die sie für ein bestimmtes Problem benötigten:

“Früher mussten Biologen ein funktionierendes System entwickeln, mit dem sie ihre Experimente durchführen konnten. Ohne Computer, ohne hochdimensionale Daten, ohne Deep Learning. Zeit und Geld wurde nur in die Erhebung von Daten gesteckt, die man unbedingt brauchte.
Mittlerweile ist es jedoch sehr günstig Daten zu erheben. Die erste vollständige Genomsequenz kostete 10 Milliarden Dollar, für dasselbe zahlt man heute noch 800 Dollar.”

Dadurch, dass die Datenerhebung plötzlich so preiswert und einfach geworden ist, sind zwei gegensätzliche Ansichten entstanden: Einige Wissenschaftler bleiben unverändert bei ihren traditionellen Herangehensweisen, während andere die Vorteile neuerer Technologien erkennen und voll ausschöpfen wollen:

“Im Prinzip lauten die beiden Denkweisen: “Warum alle möglichen Daten sammeln, wenn man nicht weiß, ob man sie überhaupt braucht?" versus "Warum nicht? Eines Tages braucht man sie bestimmt.’”

Studienabsolventen leiten den Perspektivenwechsel

Alexander ist überzeugt, dass es noch großer Veränderungen bedarf, bevor die Kluft zwischen Biologie und Data Science überbrückt ist. Er ist jedoch optimistisch, dass dieser Wandel bereits im Gange ist. Wenn heute Absolventen in einem Labor zu arbeiten beginnen, dann bringen sie entschiedene Ansichten darüber mit, wie bestimmte Arbeitsabläufe effizienter gestaltet werden können:

“Absolventen werden immer wieder die Frage stellen: ’Warum machen wir das immer noch von Hand? Warum nutzen wir keine Roboter, um diesen Schritt zu automatisieren, und keine Data Science, um ihn zu analysieren?’”

Außerdem ist es nicht unmöglich, das Verständnis für den jeweils anderen Standpunkt zu fördern. Alexander hat diesen Wandel selbst durchgemacht:

“Es ist eine Frage der Rahmenbedingungen. Meiner Erfahrung nach kann man als Biologe, der sich eine Weile mit Data Science auseinandergesetzt hat, beide Seiten nachvollziehen.”

Wir müssen Hypothesentests nicht abschaffen, sondern weiterentwickeln

Die Zukunft liegt nicht darin, dass Machine Learning Hypothesentests vollständig ersetzt. Vielmehr müssen sich wissenschaftliche Praktiken so weiterentwickeln und anpassen, dass man die Vorteile bewährter wissenschaftlicher Methoden in Kombination mit dem Potenzial von Machine Learning nutzen kann.

Alexander sieht in diesem Hybridansatz eine Art Hypothese “light”, mit der man sich von den eigenen Annahmen leiten, aber nicht einschränken lässt:

“Mikrobielle Sequenzierung ist ein gutes Beispiel. Anstatt jede Mikrobe zu sequenzieren, die ich irgendwo finde, suche ich nach Mikroben in nur dem Gebiet, das mich interessiert. Sucht man nach Mikroben, die Schwermetalle abbauen können, dann würde man sie eher aus einer Goldmine als von einem Getreidefeld sammeln. Das ist eine Hypothese “light”, bei der man im Vorhinein überlegt, welche Herangehensweise sinnvoll ist.”

Die Herausforderungen proprietärer Dateiformate und rechtlicher Vorschriften

Obwohl es nach wie vor eine Herausforderung darstellt, Biologen zu finden, die sich mit Data Science auskennen - oder umgekehrt - betont Alexander, dass andere Faktoren die Branche deutlich stärker einschränken: “Data Science wird nur sehr selten durch fehlendes technisches Know-How gebremst.”

Proprietären Dateiformate sind der Fluch jedes Data Scientists

Dateien können auf verschiedene Weise formatiert werden. Viele Dateitypen - wie z. B. CSV-Dateien - sind offene Formate: Jeder kann Software installieren, um mit CSV-Dateien zu arbeiten.

Im Gegensatz dazu werden für biotechnologische Daten oft proprietäre oder geschützte Dateiformate verwendet, wodurch man mit solchen Daten nur schwer arbeiten kann:

“Wir arbeiten mit Nachdruck daran, nichts zu verwenden, was Daten in proprietären Formaten speichert. Darin liegt der Fluch meines Data Science Daseins: Es macht mich wahnsinnig, wenn ich auf Daten treffe, die sich nicht mit einem beliebigen Computer öffnen lassen. Normalisierung, Standardisierung und der Zugriff auf diese Rohdaten ist dann sehr schwierig.”

Proprietäre Software macht interne Prozesse intransparent

Geschützte Software behindert nicht nur den Zugriff auf die Daten. Durch proprietäre Formate lässt sich oft gar nicht mehr nachvollziehen, auf welche Weise die Daten bereits verarbeitet wurden. Alexander beschreibt es als teilweise Detektivarbeit, mit der man die vorherigen Arbeitsschritte nachvollziehen versucht:

“Wenn wir mit proprietärer Software zu tun haben, wissen wir oft überhaupt nicht, wie die Daten intern verarbeitet wurden - von den Rohdaten bis zum Output. Wir müssen also nicht nur den Output verschiedener Maschinen normalisieren, sondern auch herausfinden, was mit den Daten gemacht wurde, bevor man zu diesem Output kam. Das gestaltet sich teilweise sehr schwierig.”

Software-Anbieter nutzen vage Gesetzmäßigkeiten, um sich Eigentumsrechte an den Daten zu verschaffen

Um sich in dieser Vielfalt an proprietärer Software und Datenformaten zurechtzufinden, wenden sich viele Teams an spezialisierte Software-Anbieter. Auch Alexander hat das probiert, jedoch keine guten Erfahrungen gemacht. Durch bestimmte Verträge und rechtliche Unklarheiten kann man schnell das Eigentum an den Daten verlieren.

“Wir haben bei einer Reihe von Software-Anbietern angefragt und sie nach Lösungen für dieses Problem gefragt. Wir wollten sicherstellen, dass der Anbieter nicht das Eigentum über die Daten erlangt, nur weil sie sie in seinem System gespeichert sind. In diesem Bereich gibt es große rechtliche Grauzonen, weshalb man hier wirklich aufpassen muss.”

Sind Sie auf der Suche nach Talenten oder benötigen  technische Unterstützung?

Wir sind immer daran interessiert, wie verschiedene Teams Machine Learning im Biotechnologie Bereich einsetzen. Wenn Sie in diesem Bereich Hilfe benötigen, dann kontaktieren Sie gerne direkt unseren CEO.

Bekomme immer die neusten Artikel

Trag dich mit deiner E-Mail ein, um du bekommst jede Woche unseren neusten Artikel.

Ich danke Ihnen! Ihre Einreichung ist eingegangen!
Oops! Something went wrong while submitting the form.