Una eina basada en IA és capaç de predir funcions desconegudes de qualsevol proteïna
Una eina basada en IA és capaç de predir funcions desconegudes de qualsevol proteïna

Un equip liderat per Rosa Fernández de l'Institut de Biologia Evolutiva (IBE), un centre mixt del Consell Superior d'Investigacions Científiques (CSIC) i la Universitat Pompeu Fabra (UPF), i Ana Rojas del Centre Andalús de Biologia del Desenvolupament (CABD), un centre mixt del CSIC, la Junta d'Andalusia i la Universitat Pablo de Olavide (UPO) han desenvolupat una eina basada en intel·ligència artificial (IA) capaç de predir capaç de predir la funció desconeguda de les proteïnes a partir de seqüències genòmiques sense cap referència prèvia, mitjançant l'aplicació de models de llenguatge. En qüestió d'hores i sense necessitat d'un entrenament, aquesta eina oberta i d'ús lliure té la capacitat d'il·luminar la funció de qualsevol proteïna oculta al “proteoma fosc” (conjunt de proteïnes la funció de les quals encara es desconeix).
Mitjançant aquesta nova eina, anomenada FANTASIA (Functional ANnoTAtion based on embedding space SImilArity), l'equip de l'IBE i el CABD ha analitzat prop de 1.000 genomes animals amb una precisió propera al 100%, i ha assignat la funció de 24 milions de gens codificants de proteïnes del proteoma fosc. FANTASIA és capaç de treballar amb Big Data per analitzar un genoma animal complet en qüestió d'hores en un ordinador corrent, o en 30 minuts en un equip especialitzat.
Avui dia es dona per fet que podem sintetitzar insulina per tractar la diabetis, però això no seria possible sense comprendre la funció d’aquesta proteïna essencial per a la vida. Igual que la insulina, cada proteïna compleix una funció, i són els gens els encarregats de codificar-les, brindant a les cèl·lules el potencial d'expressar-les a través de la seva maquinària una vegada i una altra. El genoma de qualsevol organisme conté la fórmula per sintetitzar qualsevol de les seves proteïnes, és a dir, el seu proteoma. Tot i això, desconeixem la funció de bona part dels gens que vertebren l'arbre de la vida.
En humans ja es coneix la funció de la majoria de les proteïnes –al voltant del 80%-90%–, però en altres mamífers aquesta xifra disminueix, i en invertebrats la funció de més de la meitat de les proteïnes continua sent un misteri. Encara que és possible llegir els milers de milions de lletres de la seqüència d'ADN codificant, la funció biològica de moltes d'aquestes proteïnes roman oculta, i amb això s'escapen pistes fonamentals sobre l'evolució de les espècies, el metabolisme o, fins i tot, la salut. Fins ara, la principal forma de predir la seva funció era comparant els gens que les codifiquen amb altres de similars en la seva seqüència genètica, anomenats homòlegs, un mètode limitat que deixa fora bona part d'aquest univers encara per explorar.
Desxifrant el proteoma fosc de l'arbre de la vida dels animals
En la darrera dècada, projectes capdavanters en l'àmbit internacional com l'Atles Europeu de Genomes de Referència (ERGA per les sigles en anglès), part del projecte BioGenoma de la Terra (EBP per les sigles en anglès), han aconseguit generar seqüències de genomes de referència de milers d'animals per a la recerca de la biodiversitat del planeta. Però accedir a la seqüència que codifica una proteïna no vol dir entendre què fa.
Per desvetllar la funció d'aquestes proteïnes, les metodologies tradicionals (no basades en IA) comparen els gens que les codifiquen amb seqüències d'ADN semblants, coneguts com a gens homòlegs. D'aquesta manera es tradueix un nou proteoma a partir de la semblança amb els gens codificants d'altres proteïnes ja conegudes. No obstant això, una gran majoria de les proteïnes no tenen homòlegs de referència i romanen ocultes a la terra ignota del proteoma fosc.
Interpretació artística de FANTASIA. Crèdit: Gemma Isabel Martínez-Redondo.
"Comprendre la funció d'aquests gens gràcies a aquesta nova eina obre una nova finestra al coneixement de la biologia animal. Ens permetrà entendre com sorgeixen les innovacions evolutives i quin paper tenen les proteïnes desconegudes en la diversitat i adaptació de les espècies", explica Rosa Fernández, investigadora principal de l'IBE al Metazoa Phylogenomics and Genome Evolution Lab i membre executiu d’ERGA, que ha liderat l’estudi.
En aquesta línia, Ana Rojas, que colidera l'estudi des del CABD, subratlla que "l'ús de models de llenguatge basats en intel·ligència artificial ens permet anar més enllà de la simple comparació per homologia. Aquests models aprenen directament de les seqüències genètiques i són capaços d'inferir la funció potencial de gens sense equivalents coneguts, obrint noves possibilitats per explorar el proteoma fosc." En aquest sentit, EBP recomana l'ús de FANTASIA a tots els seus col·laboradors a la pàgina web del projecte.
Amb els models de llenguatge, un tipus específic d’aplicació d’IA, per primera vegada és possible predir la funció d’una proteïna sense necessitat de comparar la seqüència dels seus gens codificants amb la d’altres gens coneguts. En lloc de cercar similituds directes, aquests mètodes tradueixen les seqüències d'ADN en fragments i les analitza sintàcticament, com si fossin frases en un idioma. Cada fragment de la seqüència rep un valor numèric i, amb ells, el sistema construeix la seva pròpia gramàtica per anticipar allò que falta, de la mateixa manera que un processador de text completa oracions.
Aquest ChatGPT de les proteïnes aprèn de milers d'exemples ja estudiats, identificant què fa cada proteïna, en quin procés biològic participa i en quina part de la cèl·lula es troba (el que els científics anomenen termes GO, de l'anglès Gene Ontology). Amb aquesta informació, cada proteïna es converteix en un vector numèric, una mena d'empremta digital matemàtica que en resumeix les característiques. Gràcies a aquests vectors, FANTASIA pot analitzar noves seqüències d'ADN i predir-ne la funció amb gran precisió, obrint la porta a descobriments que abans semblaven inabastables. I ho fa amb milers de proteïnes alhora.
"FANTASIA és un software obert i fàcil d'utilitzar per a usuaris sense experiència en programació. Inclou models ja entrenats, per la qual cosa s'acull als principis de sostenibilitat i es pot fer servir sense necessitat d'accés a superordinadors", comenta Gemma Martínez Redondo, estudiant de doctorat de l'IBE i primera autora de l'estudi.
Il·luminar la “biologia fosca”: una FANTAS-IA?
Descobrir les funcions que compleixen les proteïnes d'un organisme és crucial per desxifrar l'evolució dels genomes i la complexitat de la vida, per això aquest nou model de llenguatge podria impulsar el coneixement de la comunitat científica en aquest camp, però també en l'estudi de la biodiversitat i la salut global.
"FANTASIA és un generador d'hipòtesis: aquesta eina posa llum a la foscor, ja que és impensable estudiar tots els gens un a un de cada organisme. Ara, serà més fàcil dirigir els esforços per investigar en profunditat la funció de les proteïnes. Això pot ser molt útil en l'àmbit farmacèutic, identificant dianes terapèutiques, per exemple”, comenta Fernández.
L'estudi ja ha revelat proteïnes ocultes de tardígrads, ctenòfors i micrognatozous, tres fílums invertebrats poc coneguts el proteoma dels quals continua estant ocult en la seva major part.
Ctenòfor Beroidae, un zooplàncton gelatinós que es desplaça mitjançant cili i s’alimenta d’altres ctenòfors. Crèdit: National Oceanic and Atmospheric Administration. Llicència de domini públic. Via Picryl.
"En la biologia evolutiva, el canvi, la pèrdua o el guany de la funció de proteïnes als diferents organismes expliquen la història de l'evolució del seu fílum o espècie. Pot indicar-nos com un organisme es va adaptar a un medi nou, de què s'alimentava o per què va deixar de necessitar certes eines del seu genoma, entre moltes altres", afegeix Fernández.
L'eina d'IA desenvolupada es troba a disposició de qualsevol grup de recerca al món, amb el potencial per il·luminar la investigació genòmica i proteòmica virtualment en qualsevol àmbit d'aplicació.
"Sabem que altres grups de recerca en l’àmbit internacional ja estan utilitzant FANTASIA en les seves investigacions, i estem veient que no només funciona en animals, sinó també en plantes, virus, fongs o protists. El potencial per descobrir nous gens que revolucionin la biotecnologia, la medicina o la conservació de la biodiversitat no té límit", conclou Fernández. “Les possibilitats dels mètodes que fem servir en aquesta eina són enormes per completar el coneixement sobre funcions alternatives de proteïnes conegudes, és com desxifrar-ne la gramàtica”, puntualitza Rojas.
Article de referència:
Martínez-Redondo, G. I., Perez-Canales, F. M., Carbonetto, B., Fernández, J. M., Barrios-Núñez, I., Vázquez-Valls, M., Cases, I., Rojas, A. M., & Fernández, R. (2025). FANTASIA leverages language models to decode the functional dark proteome across the animal tree of life. Communications Biology, 8(1), 1227. https://doi.org/10.1038/s42003-025-08651-2