So wie chatgpt Text generiert, indem es das wahrscheinlichste Wort in einer Sequenz vorhersagt, wird ein neuer künstliche Intelligenz (KI-)Modelle können von Grund auf neue Proteine schreiben, die nicht auf natürliche Weise vorkommen.
Wissenschaftler verwendeten das neue Modell ESM3, um ein neues fluoreszierendes Protein zu erzeugen, dessen Sequenz nur 58 Prozent mit natürlich vorkommenden fluoreszierenden Proteinen gemeinsam hat, erklärten sie in einer Studie, die am 2. Juli im Preprint veröffentlicht wurde. bioRxiv-Datenbank. Vertreter von EvolutionaryScale, einem Unternehmen, das von ehemaligen Meta-Forschern gegründet wurde, erläuterten am 25. Juni ebenfalls Einzelheiten in einem Stellungnahme.
Das Forschungsteam veröffentlichte eine kleine Version des Modells unter einer nichtkommerziellen Lizenz und wird die große Version des Modells kommerziellen Forschern zur Verfügung stellen. Laut EvolutionaryScale könnte die Technologie in vielen Bereichen von der Arzneimittelforschung bis hin zur Entwicklung neuer Chemikalien für den Kunststoffabbau nützlich sein.
ESM3 ist ein großes Sprachmodell (LLM) ähnlich dem GPT-4 von OpenAI, das den Chatbot ChatGPT antreibt, und die Wissenschaftler trainierten ihre größte Version an 2,78 Milliarden Proteinen. Für jedes Protein extrahierten sie Informationen über die Sequenz (die Reihenfolge der Aminosäurebausteine, aus denen das Protein besteht), die Struktur (die dreidimensionale gefaltete Form des Proteins) und die Funktion (was das Protein tut). Sie maskierten zufällig Teile der Informationen über diese Proteine und forderten ESM3 auf, die fehlenden Teile vorherzusagen.
Sie haben dieses Modell aus der Forschung skaliert, die das gleiche Team noch bei Meta durchgeführt hat. Im Jahr 2022 EMSFold angekündigt — ein Vorläufer von ESM3, der unbekannte mikrobielle Proteinstrukturen vorhersagte. In diesem Jahr DeepMind Auch vorhergesagte Proteinstrukturen für 200 Millionen Proteine.
Verwandt: Das KI-Programm AlphaFold3 von DeepMind kann die Struktur jedes Proteins im Universum vorhersagen – und zeigen, wie es funktioniert
Wissenschaftler wiesen daraufhin darauf hin, dass es Einschränkungen der Vorhersagen dieser KI-Modelle und dass die Proteinvorhersagen überprüft werden müssen. Aber die Methoden können die Suche nach Proteinstrukturen immer noch massiv beschleunigen, denn die Alternative besteht darin, mit Röntgenstrahlen Proteinstrukturen einzeln zu kartieren – was langsam und teuer ist.
ESM3 geht jedoch über die bloße Vorhersage bestehender Proteine hinaus. Mithilfe der aus 771 Milliarden einzigartigen Informationen über Struktur, Funktion und Sequenz gewonnenen Informationen kann das Modell neue Proteine mit bestimmten Funktionen generieren. Es wurde als „ChatGPT-Moment für die Biologie“ bezeichnet von einer der Unterstützer von EvolutionaryScale.
In der neuen Studie hinterfragten die Forscher das Modell, um ein neues fluoreszierendes Protein zu erzeugen – eine Art Protein, das Licht einfängt und es bei einer längeren Wellenlänge wieder abgibt, wodurch es in einem neuen Grünton leuchtet. Diese Proteine sind wichtig für biologische Forscher, die sie an Moleküle anhängen, die sie untersuchen möchten, um sie zu verfolgen und abzubilden; ihre Entdeckung und Entwicklung gewann eine Nobelpreis für Chemie in 2008.
Das Modell generierte 96 Proteine mit Sequenzen und Strukturen, die wahrscheinlich Fluoreszenz erzeugen. Die Forscher wählten dann eines aus, das die wenigsten Sequenzen mit natürlich fluoreszierenden Proteinen gemeinsam hatte. Obwohl dieses Protein 50-mal weniger hell war als natürliche grün fluoreszierende Proteine, generierte ESM3 eine weitere Iteration, die zu neuen Sequenzen führte, die die Helligkeit erhöhten – und das Ergebnis war ein grün fluoreszierendes Protein, das anders war als alle in der Natur vorkommenden, genannt „esmGPF“. Diese Iterationen, die von der KI in wenigen Augenblicken durchgeführt werden, würden 500 Millionen Jahre Evolution in Anspruch nehmen, schätzte das Team von EvolutionaryScale.
„Derzeit fehlt uns noch das grundlegende Verständnis dafür, wie sich Proteine, insbesondere solche, die „neu für die Wissenschaft“ sind, verhalten, wenn sie in ein lebendes System eingeführt werden, aber dies ist ein cooler neuer Schritt, der es uns ermöglicht, die synthetische Biologie auf eine neue Art und Weise anzugehen. KI-Modellierung wie ESM3 wird die Entdeckung neuer Proteine ermöglichen, die die Beschränkungen der natürlichen Selektion niemals zulassen würden, und Innovationen in der Proteintechnik hervorbringen, die die Evolution nicht kann. Das ist aufregend. Der Anspruch, 500 Millionen Jahre Evolution zu simulieren, konzentriert sich jedoch nur auf einzelne Proteine, was die vielen Stadien der natürlichen Selektion, die die Vielfalt des Lebens hervorbringen, die wir heute kennen, nicht berücksichtigt. KI-gesteuerte Proteintechnik ist faszinierend, aber ich kann das Gefühl nicht loswerden, dass wir möglicherweise zu zuversichtlich davon ausgehen, dass wir die komplizierten Prozesse, die durch Millionen von Jahren natürlicher Selektion verfeinert wurden, überlisten können.“