Am Rande Des Lebenskodex
Am Rande Des Lebenskodex

Video: Am Rande Des Lebenskodex

Video: Katzen- "Liebe" 2022, Dezember
Anonim

Chris Wiggins hofft, mithilfe von maschinellem Lernen Modelle entwickeln zu können, die vorhersagen können, wie sich alle Gene eines Organismus unter allen Umständen verhalten - und dabei genau erklären, warum einige Zellen krank oder krebsartig werden.

Am Rande des Lebenskodex
Am Rande des Lebenskodex

In einem Flughafen-Shuttlebus zum Kavli-Institut für Theoretische Physik in Santa Barbara, Kalifornien, nahm Chris Wiggins den Rat eines Kollegen an und öffnete eine Microsoft Excel-Tabelle. Es hatte nichts mit dem Vortrag über Biopolymerphysik zu tun, zu dem er eingeladen wurde. Vielmehr bezogen sich die Spalten und Reihen von Zahlen, die ihn anstarrten, auf die genetische Aktivität der aufkeimenden Hefe. Insbesondere stellten die Zahlen die Menge an Messenger-RNA (mRNA) dar, die von allen 6 200 Genen der Hefe im Verlauf ihres Fortpflanzungszyklus exprimiert wurde. "Es war das erste Mal, dass ich so etwas gesehen habe", erinnert sich Wiggins an diesen Frühlingstag im Jahr 2002. "Wie fangen Sie an, all diese Daten zu verstehen?"

Anstatt sich dieser Frage zu entziehen, hat sich der 36-jährige angewandte Mathematiker und Physiker an der Columbia University damit befasst - und jetzt, sechs Jahre später, glaubt er, eine Antwort zu haben. Wiggins hat Werkzeuge aus einem Zweig der künstlichen Intelligenz, dem maschinellen Lernen, herausgearbeitet, um die kollektive Proteinherstellungsaktivität von Genen aus realen biologischen Daten zu modellieren. Die Ingenieure haben diese Tools ursprünglich Ende der 1950er Jahre entwickelt, um die Ausgabe von Eingaben vorherzusagen. Wiggins und seine Kollegen haben jetzt maschinelles Lernen in die Naturwissenschaften gebracht und es so optimiert, dass es auch eine Geschichte erzählen kann - nicht nur über Input und Output, sondern auch darüber, was in einem Modell der Genregulation passiert, der Black Box dazwischen.

Der Anstoß für diese Arbeit begann Ende der neunziger Jahre, als Hochdurchsatztechniken mehr mRNA-Expressionsprofile und DNA-Sequenzen als je zuvor erzeugten und „eine völlig andere Denkweise über biologische Phänomene eröffneten“, sagt Wiggins. Der Schlüssel zu diesen Techniken waren DNA-Mikroarrays, Chips, die einen Panoramablick auf die Aktivität von Genen und ihre Expressionsniveaus in jedem Zelltyp gleichzeitig und unter unzähligen Bedingungen bieten. So laut und unvollständig die Daten auch waren, Biologen konnten nun abfragen, welche Gene in verschiedenen Zellen ein- oder ausgeschaltet werden, und die Sammlung von Proteinen bestimmen, die zu den charakteristischen Merkmalen einer Zelle führen - gesund oder krank.

Die Vorhersage einer solchen Genaktivität erfordert jedoch die Aufdeckung der grundlegenden Regeln, die sie regeln. "Im Laufe der Zeit wurden diese Regeln von Zellen festgelegt", sagt der theoretische Physiker Harmen Bussemaker, heute außerordentlicher Professor für Biologie an der Columbia University. "Die Evolution hat die guten Sachen behalten."

Um diese Regeln zu finden, benötigten die Wissenschaftler Statistiken, um die Interaktion zwischen Genen und den Proteinen, die sie regulieren, abzuleiten und dann die zugrunde liegende Struktur dieses Netzwerks - das dynamische Muster der Gen- und Proteinaktivität im Zeitverlauf - mathematisch zu beschreiben. Aber Physiker, die nicht mit Teilchen (oder Planeten) arbeiteten, betrachteten Statistiken als ein Anathema. "Wenn Ihr Experiment Statistiken erfordert", sagte der britische Physiker Ernest Rutherford einmal, "hätten Sie ein besseres Experiment durchführen sollen."

Bei der Arbeit mit Microarrays wurde „das Experiment ohne Sie durchgeführt“, erklärt Wiggins. "Und die Biologie gibt Ihnen kein Modell, um die Daten zu verstehen." Noch herausfordernder ist, dass die Bausteine, aus denen DNA, RNA und Proteine ​​bestehen, auf vielfältige Weise zusammengesetzt werden. Darüber hinaus regeln subtil unterschiedliche Interaktionsregeln ihre Aktivität, was es schwierig, wenn nicht unmöglich macht, ihre Interaktionsmuster auf grundlegende Gesetze zu reduzieren. Einige Gene und Proteine ​​sind nicht einmal bekannt. "Sie versuchen, in einem Kontext, in dem Sie nicht viel wissen, etwas Überzeugendes über die Natur zu finden", sagt William Bialek, Biophysiker an der Princeton University. "Du bist gezwungen, Agnostiker zu sein."

Wiggins glaubt, dass viele Algorithmen für maschinelles Lernen unter genau diesen Bedingungen gut funktionieren. Bei der Arbeit mit so vielen unbekannten Variablen können die Daten beim maschinellen Lernen entscheiden, was es wert ist, betrachtet zu werden, sagt er.

Am Kavli-Institut begann Wiggins mit dem Aufbau eines Modells eines Genregulationsnetzwerks in Hefe - dem Regelwerk, nach dem Gene und Regulatoren gemeinsam steuern, wie stark DNA in mRNA transkribiert wird. Während er mit verschiedenen Algorithmen arbeitete, nahm er an Diskussionen über Genregulation teil, die von Christina Leslie geleitet wurden, die zu dieser Zeit die Gruppe für Computational Biology in Columbia leitete. Leslie schlug vor, ein spezielles Werkzeug für maschinelles Lernen zu verwenden, das als Klassifikator bezeichnet wird. Angenommen, der Algorithmus muss zwischen Bildern mit Fahrrädern und Bildern ohne Fahrrad unterscheiden. Ein Klassifikator durchsucht beschriftete Beispiele und misst alles, was er über sie kann, und lernt schrittweise die Entscheidungsregeln, die die Gruppierung regeln. Aus diesen Regeln generiert der Algorithmus ein Modell, das bestimmen kann, ob neue Bilder Fahrräder enthalten oder nicht. In Genregulationsnetzwerken wird die Lernaufgabe zum Problem der Vorhersage, ob Gene ihre Proteinproduktionsaktivität erhöhen oder verringern.

Der Algorithmus, den Wiggins und Leslie im Herbst 2002 zu entwickeln begannen, wurde auf die DNA-Sequenzen und mRNA-Spiegel von Regulatoren trainiert, die unter verschiedenen Bedingungen in Hefe exprimiert wurden - wenn die Hefe kalt, heiß, ausgehungert usw. war. Insbesondere scannt dieser Algorithmus - MEDUSA (zur Unterscheidung von Motivelementen unter Verwendung von Sequenzagglomeration) - jede mögliche Paarung zwischen einem Satz von DNA-Promotorsequenzen, die als Motive bezeichnet werden, und Regulatoren. Ähnlich wie ein Kind eine Liste von Wörtern mit ihren Definitionen abgleichen kann, indem es eine Linie zwischen den beiden zeichnet, findet MEDUSA die Paarung, die die Übereinstimmung zwischen dem Modell und den Daten, die es zu emulieren versucht, am besten verbessert. (Wiggins bezeichnet diese Paarungen als Kanten.) Jedes Mal, wenn MEDUSA eine Paarung findet, aktualisiert es das Modell, indem es eine neue Regel hinzufügt, um die Suche nach der nächsten Paarung zu steuern. Anschließend wird die Stärke jeder Paarung dadurch bestimmt, wie gut die Regel das vorhandene Modell verbessert. Die Zahlenhierarchie ermöglicht es Wiggins und seinen Kollegen zu bestimmen, welche Paarungen wichtiger sind als andere und wie sie gemeinsam die Aktivität der 6 200 Gene der Hefe beeinflussen können. Durch Hinzufügen von jeweils einer Paarung kann MEDUSA vorhersagen, welche Gene ihre RNA-Produktion steigern oder diese Produktion einschränken, und die kollektiven Mechanismen aufdecken, die die Transkriptionslogik eines Organismus steuern.

Wiggins und seine Kollegen können jetzt viel weiter gehen als Hefe. Kürzlich haben sie gezeigt, dass MEDUSA genau Vorhersagemodelle von Genregulationsnetzwerken in höheren Organismen wie Würmern sowie in mehreren Zelllinien, einschließlich denen menschlicher Lymphozyten, erstellen kann. In einer Krebszelllinie kann das Team bestimmen, welche Gene ihre Aktivität erhöhen, wenn sie sie verringern sollten, und umgekehrt. Das ultimative Ziel ist es jedoch, ihre koordinierte Aktivität zu verstehen und mit Statistiken zu schließen, welche Wechselwirkungen zu einer erkrankten Zelle führen.

Obwohl MEDUSA genaue Vorhersagen zu Testdaten macht, gibt es immer noch keine Möglichkeit zu wissen, ob es echte biologische Netzwerke originalgetreu reproduziert. Dazu müsste jede Verbindung experimentell getestet werden. Es ist auch unklar, wie gut Microarray-Daten die Expressionsniveaus messen, sodass genaue Vorhersagen möglicherweise nicht unbedingt die Wahrheit widerspiegeln. Darüber hinaus zwingt maschinelles Lernen die Forscher dazu, Ad-hoc-Hypothesen zu formulieren, die möglicherweise auf ihre Ergebnisse ausgerichtet sind. "Jede Art von Korrelation in den Daten kann also ein Zufall sein", bemerkt Yoav Freund von der Universität von San Diego, der den Lernalgorithmus von MEDUSA entwickelt hat.

Um diese Einschränkungen zu beseitigen, müssen Forscher nicht nur weiterhin disziplinübergreifend tätig sein, sondern auch bereit sein, ihre Instrumente zu übernehmen. "Ich würde sagen, dass maschinelles Lernen in der Physik nicht wie ein Lauffeuer begonnen hat", bemerkt Alex Hartemink, Experte für maschinelles Lernen an der Duke University. „Aber Chris scheint es am angenehmsten zu sein, Techniken von anderen Orten aus zu lernen. Und ich denke, wir brauchen Leute, die diesen Streifzug in den Wald unternehmen, neue Ressourcen finden und sie zum Stamm zurückbringen und sagen: "Hey, Leute, schaut euch das an - das ist großartiges Zeug."

Beliebt nach Thema