«Ολόκληρο το πρωτεϊνικό σύμπαν»: Η τεχνητή νοημοσύνη προβλέπει το σχήμα σχεδόν κάθε γνωστής πρωτεΐνης

Νέα
Το εργαλείο AlphaFold της DeepMind έχει καθορίσει τις δομές περίπου 200 εκατομμυρίων πρωτεϊνών.

Από σήμερα, ο προσδιορισμός του τρισδιάστατου σχήματος σχεδόν κάθε πρωτεΐνης που είναι γνωστή στην επιστήμη θα είναι τόσο απλός όσο η πληκτρολόγηση σε μια αναζήτηση Google.

Οι ερευνητές χρησιμοποίησαν το AlphaFold – το επαναστατικό δίκτυο τεχνητής νοημοσύνης (AI) – για να προβλέψουν τις δομές περισσότερων από 200 εκατομμυρίων πρωτεϊνών από περίπου 1 εκατομμύριο είδη, καλύπτοντας σχεδόν κάθε γνωστή πρωτεΐνη στον πλανήτη.

Η απόρριψη δεδομένων είναι δωρεάν διαθέσιμη σε μια βάση δεδομένων που έχει συσταθεί από την DeepMind, την εταιρεία τεχνητής νοημοσύνης με έδρα το Λονδίνο, που ανήκει στην Google, η οποία ανέπτυξε το AlphaFold, και το Ευρωπαϊκό Ινστιτούτο Βιοπληροφορικής του Ευρωπαϊκού Εργαστηρίου Μοριακής Βιολογίας (EMBL–EBI), έναν διακυβερνητικό οργανισμό κοντά στο Κέμπριτζ.

«Ουσιαστικά μπορείτε να σκεφτείτε ότι καλύπτει ολόκληρο το σύμπαν των πρωτεϊνών», δήλωσε ο διευθύνων σύμβουλος της DeepMind, Ντέμις Χασάμπης, σε συνέντευξη Τύπου. «Βρισκόμαστε στην αρχή της νέας εποχής της ψηφιακής βιολογίας».

Το τρισδιάστατο σχήμα ή δομή μιας πρωτεΐνης είναι αυτό που καθορίζει τη λειτουργία της στα κύτταρα. Τα περισσότερα φάρμακα σχεδιάζονται χρησιμοποιώντας δομικές πληροφορίες και η δημιουργία ακριβών χαρτών της διάταξης αμινοξέων των πρωτεϊνών είναι συχνά το πρώτο βήμα για να γίνουν ανακαλύψεις σχετικά με το πώς λειτουργούν οι πρωτεΐνες.

Η DeepMind ανέπτυξε το δίκτυο AlphaFold χρησιμοποιώντας μια τεχνική AI που ονομάζεται deep learning (βαθιά εκμάθηση) και η βάση δεδομένων AlphaFold κυκλοφόρησε πριν από ένα χρόνο με περισσότερες από 350.000 προβλέψεις δομής που καλύπτουν σχεδόν κάθε πρωτεΐνη που παράγεται από ανθρώπους, ποντίκια και 19 άλλους ευρέως μελετημένους οργανισμούς. Έκτοτε, ο κατάλογος έχει διογκωθεί σε περίπου 1 εκατομμύριο καταχωρήσεις.

«Προετοιμαζόμαστε για την απελευθέρωση αυτού του τεράστιου θησαυρού», λέει η Christine Orengo, υπολογιστική βιολόγος στο University College του Λονδίνου, η οποία χρησιμοποίησε τη βάση δεδομένων AlphaFold για να εντοπίσει νέες οικογένειες πρωτεϊνών. “Το να έχουμε όλα τα δεδομένα που έχουν προβλεφθεί για εμάς είναι απλά φανταστικό.”

Κατασκευές υψηλής ποιότητας

Η κυκλοφορία του AlphaFold πέρυσι έκανε θραύση στην κοινότητα των βιοεπιστημών, τα μέλη της οποίας από τότε προσπαθούν να επωφεληθούν από το εργαλείο. Το δίκτυο παράγει εξαιρετικά ακριβείς προβλέψεις για τις δομές πολλών πρωτεϊνών. Παρέχει επίσης πληροφορίες σχετικά με την ακρίβεια των προβλέψεών του, ώστε οι ερευνητές να γνωρίζουν αν μπορούν να βασιστούν σε αυτές. Συμβατικά, οι επιστήμονες χρειάστηκε να χρησιμοποιήσουν χρονοβόρες και δαπανηρές πειραματικές μεθόδους όπως η κρυσταλλογραφία ακτίνων Χ και η κρυοηλεκτρονική μικροσκοπία για την επίλυση πρωτεϊνικών δομών.

Σύμφωνα με το EMBL–EBI, περίπου το 35% των περισσότερων από 214 εκατομμυρίων προβλέψεων θεωρείται ότι είναι εξαιρετικά ακριβείς, πράγμα που σημαίνει ότι είναι εξίσου καλές με τις πειραματικά προσδιορισμένες δομές. Ένα άλλο 45% θεωρείται ότι είναι αρκετά ακριβές για πολλές εφαρμογές.

Πολλές δομές AlphaFold είναι αρκετά καλές για να αντικαταστήσουν τις πειραματικές δομές για ορισμένες εφαρμογές. Σε άλλες περιπτώσεις, οι ερευνητές χρησιμοποιούν προβλέψεις AlphaFold για να επικυρώσουν και να κατανοήσουν τα πειραματικά δεδομένα. Οι κακές προβλέψεις είναι συχνά προφανείς και μερικές από αυτές προκαλούνται από εγγενή διαταραχή στην ίδια την πρωτεΐνη, που σημαίνει ότι δεν έχει καθορισμένο σχήμα – τουλάχιστον, όχι χωρίς άλλα μόρια.

Οι 200 ​​εκατομμύρια προβλέψεις που κυκλοφόρησαν σήμερα βασίζονται στις ακολουθίες μιας άλλης βάσης δεδομένων, που ονομάζεται UniProt. Είναι πιθανό ότι οι επιστήμονες θα είχαν ήδη μια ιδέα για τα σχήματα ορισμένων από αυτές τις πρωτεΐνες, επειδή περιλαμβάνονται σε βάσεις δεδομένων πειραματικών δομών ή μοιάζουν με άλλες πρωτεΐνες σε τέτοιες αποθήκες, λέει ο Eduard Porta Pardo, υπολογιστικός βιολόγος στο Ερευνητικό Ινστιτούτο Λευχαιμίας Josep Carreras (IJC) στη Βαρκελώνη της Ισπανίας.

Ο διευθύνων σύμβουλος της DeepMind, Demis Hassabis, λέει ότι η νέα βάση δεδομένων της AlphaFold καλύπτει «όλο το πρωτεϊνικό σύμπαν»

Αλλά τέτοιες καταχωρήσεις τείνουν να στρέφονται προς τις πρωτεΐνες του ανθρώπου, του ποντικού και άλλων θηλαστικών, λέει η Porta. Είναι πιθανό ότι η AlphaFold θα προσθέσει σημαντικές γνώσεις, επειδή περιλαμβάνει μια τόσο μεγάλη ποικιλία οργανισμών. «Θα είναι ένας φοβερός πόρος. Και μάλλον θα το κατεβάσω μόλις βγει», λέει η Πόρτα.

Επειδή το λογισμικό του AlphaFold είναι διαθέσιμο εδώ και ένα χρόνο, οι ερευνητές είχαν ήδη την ικανότητα να προβλέψουν τη δομή οποιασδήποτε πρωτεΐνης επιθυμούν. Ωστόσο, πολλοί λένε ότι η διαθεσιμότητα προβλέψεων σε μια ενιαία βάση δεδομένων θα εξοικονομήσει χρόνο, χρήμα – και χασομέρι στους ερευνητές. « Είναι άλλο ένα εμπόδιο που αφαιρείς», λέει η Porta. «Έχω χρησιμοποιήσει πολλά μοντέλα AlphaFold. Δεν έχω τρέξει ποτέ μου το AlphaFold».

Ο Jan Kosinski, δομικός μοντελιστής στην EMBL Hamburg στη Γερμανία, ο οποίος διαχειρίζεται το δίκτυο AlphaFold τον περασμένο χρόνο, ανυπομονεί για την επέκταση της βάσης δεδομένων. Η ομάδα του κάποτε πέρασε τρεις εβδομάδες προβλέποντας το πρωτεόμιο – το σύνολο όλων των πρωτεϊνών ενός οργανισμού – ενός παθογόνου. «Τώρα μπορούμε απλώς να κατεβάσουμε όλα τα μοντέλα», είπε στην ενημέρωση.

Είκοσι τρία terabyte

Η ύπαρξη σχεδόν κάθε γνωστής πρωτεΐνης στη βάση δεδομένων θα καταστήσει δυνατούς νέους τύπους μελέτης. Η Orengo και η ομάδα της έχουν χρησιμοποιήσει τη βάση δεδομένων AlphaFold για να εντοπίσουν νέα είδη οικογενειών πρωτεϊνών και τώρα θα το κάνουν σε πολύ μεγαλύτερη κλίμακα. Αυτή και οι συνάδελφοί της θα χρησιμοποιήσουν επίσης τη διευρυμένη βάση δεδομένων για να τους βοηθήσουν να κατανοήσουν την εξέλιξη των πρωτεϊνών με χρήσιμες ιδιότητες – όπως η ικανότητα κατανάλωσης πλαστικού – ή ανησυχητικές, όπως αυτές που μπορούν να προκαλέσουν καρκίνο. Η αναγνώριση μακρινών συγγενών αυτών των πρωτεϊνών στη βάση δεδομένων μπορεί να εντοπίσει τη βάση για τις ιδιότητές τους.

Ο Martin Steinegger, ένας υπολογιστικός βιολόγος στο Εθνικό Πανεπιστήμιο της Σεούλ, ο οποίος βοήθησε στην ανάπτυξη μιας έκδοσης του AlphaFold που βασίζεται στο cloud, είναι ενθουσιασμένος που βλέπει τη βάση δεδομένων να επεκτείνεται. Αλλά λέει ότι οι ερευνητές είναι ακόμα πιθανό να χρειαστεί να τρέξουν οι ίδιοι το δίκτυο. Όλο και περισσότερο, οι άνθρωποι χρησιμοποιούν το AlphaFold για να καθορίσουν πώς αλληλεπιδρούν οι πρωτεΐνες και τέτοιες προβλέψεις δεν υπάρχουν στη βάση δεδομένων. Άλλες προβλέψεις που δεν υπάρχουν επί του παρόντος περιλαμβάνουν μικροβιακές πρωτεΐνες που προσδιορίζονται με αλληλούχιση γενετικού υλικού από το έδαφος, το νερό των ωκεανών και άλλες «μεταγονιδιωματικές» πηγές.

Ορισμένες εξελιγμένες εφαρμογές της διευρυμένης βάσης δεδομένων AlphaFold μπορεί επίσης να εξαρτώνται από τη λήψη ολόκληρου του περιεχομένου των 23 terabyte, κάτι που δεν θα είναι εφικτό για πολλές ομάδες, λέει ο Steinegger. Η αποθήκευση που βασίζεται στο cloud θα μπορούσε επίσης να αποδειχθεί δαπανηρή. Ο Steinegger έχει αναπτύξει από κοινού ένα εργαλείο λογισμικού που ονομάζεται FoldSeek το οποίο μπορεί να βρει γρήγορα δομικά παρόμοιες πρωτεΐνες και το οποίο θα πρέπει επίσης να είναι σε θέση να συνθλίψει σημαντικά τα δεδομένα AlphaFold.

Ακόμη και με σχεδόν κάθε γνωστή πρωτεΐνη που περιλαμβάνεται, η βάση δεδομένων AlphaFold θα χρειαστεί ενημέρωση καθώς ανακαλύπτονται νέοι οργανισμοί. Οι προβλέψεις του AlphaFold μπορούν επίσης να βελτιωθούν καθώς γίνονται διαθέσιμες νέες δομικές πληροφορίες. Ο Hassabis λέει ότι ο DeepMind έχει δεσμευτεί να υποστηρίζει τη βάση δεδομένων για μεγάλο χρονικό διάστημα και ότι μπορεί να βλέπει ενημερώσεις να γίνονται ετησίως.

Η ελπίδα του είναι ότι η διαθεσιμότητα της βάσης δεδομένων AlphaFold θα έχει μόνιμο αντίκτυπο στις βιοεπιστήμες. «Θα απαιτήσει πολύ μεγάλη αλλαγή στη σκέψη».

Πηγή: nature.com

Αφήστε μια απάντηση

Η ηλ. διεύθυνση σας δεν δημοσιεύεται. Τα υποχρεωτικά πεδία σημειώνονται με *