De l'EPFL un nou model multimodal per a una IA més flexible

Pot aprendre de text, imatges, vídeo i so i, gràcies a la modularitat, produeix qualsevol nombre o combinació de prediccions.

Aprenentatge automàtic: un nou model multimodal per a una IA més flexible de l'EPFL
Des de l'EPFL un nou model multimodal per a una IA més flexible (Foto: Brian Penny/Pixabay)

Tant si estem parlant d'OpenAI com de ChatGPT, la gran majoria de chatbots intel·ligència artificial generativa es basen en els anomenats Gran model de llengua (LLM), models de aprenentatge profund a gran escala entrenats per donar respostes a les preguntes que se'ls plantegen mitjançant l'aprenentatge d'informació a través de grans quantitats de text.

L'última frontera deIA generativa sóc jo models multimodals, que combinen comprensió lingüística i imatges, vídeo i àudio per oferir una experiència i un servei encara més avançats.

La seva creació, però, presenta diversos reptes, sobretot si la intenció és construir models multimodals a petita escala: els freqüents presència de dades que falten per la indisponibilitat d'informació, gairebé sempre per disponibilitat parcial de recursos.

En definitiva, el risc és que el model aprengui a partir d'una manca, i que els càlculs i les prediccions estiguin distorsionats. I aquí va començar l'EPFL amb el seu nou projecte.

De la Universitat Tècnica de Lausana i Zuric una coalició per l'energia verda
En 3D el guant tecnològic que farà tangible la Realitat Virtual

Aprenentatge automàtic
El campus de la Politècnica Federal de Lausana (Foto: Facebook/EFPL)

MultiModN, el model multimodal modular nascut a Lausana

Els investigadors del Politècnica Federal de Lausana (EPFL), una de les millors universitats del món pel que fa a enginyeria i tecnologia de la informació, s'han desenvolupat de fet MultiModN, un model multimodal modular únic presentat recentment a NeurIPS2023.

Investigadors dels laboratoris Machine Learning for Education (ML4ED) i Machine Learning and Optimization (MLO) de l'Escola d'Informàtica i Comunicació de l'EPFL van decidir desenvolupar i provar exactament el contrari d'un gran, però pensar en una escala més petita.

Dirigit pel professor Mary-Anne Hartley, director del Laboratori de Tecnologies de Salut Global Intel·ligents allotjat conjuntament a MLO i la Facultat de Medicina de Yale, i professor Tanja Käser, director de ML4ED, l'equip va crear un model multimodal que pot aprendre de text, imatges, vídeos i sons però que, a diferència dels existents, està format per un nombre variable de mòduls més petits, autònoms i específics d'entrada.

Aquest últim es pot seleccionar en funció de la informació disponible i després agrupar-lo en una seqüència de qualsevol nombre, combinació o tipus d'entrada. Per tant, pot produir qualsevol nombre, o combinació, de prediccions.

"Hem avaluat MultiModN a deu activitats reals, inclòs el suport per al diagnòstic mèdic, la predicció del rendiment acadèmic i la previsió meteorològica". ha explicat Vinitra Swamy, estudiant de doctorat a ML4ED i MLO i primer coautor del projecte.

"A través d'aquests experiments, creiem que MultiModN és el primer enfocament intrínsecament interpretable i resistent a les dades que falten per al modelatge multimodal.".

La "recepta" de l'EPFL per a ordinadors quàntics més potents
Des de la Intel·ligència Artificial un impuls decisiu a les criptomonedes?

Aprenentatge automàtic
Escola d'Informàtica i Comunicació de l'EPFL (Foto: Facebook/EPFL IC)

El primer cas d'ús: decisions clíniques per al personal mèdic

El primer cas d'ús de MultiModN serà com a sistema de suport per decisions clíniques per al personal mèdic en entorns amb recursos limitats.

En el sector sanitari, de fet, sovint falten dades clíniques, potser per recursos limitats (un pacient no es pot permetre una prova concreta) o, al contrari, per l'abundància de recursos i informació. MultiModN és capaç d'aprendre d'aquestes dades del món real sense absorbir els seus anomenats biaixos i d'adaptar les prediccions a qualsevol combinació o nombre d'entrades.

"Les dades que falten són un segell distintiu en contextos amb recursos limitats i, a mesura que els models aprenen aquests patrons que falten, poden codificar errors en les seves prediccions ". va subratllar Mary-Anne Hartley.

"La necessitat de flexibilitat davant dels recursos disponibles de manera imprevisible és el que va inspirar MultiModN".

En un esdeveniment destacat, l'impacte de la IA i l'aprenentatge automàtic en els serveis
Totes les raons de la creixent influència de la IA en l'art digital

Aprenentatge automàtic
Un laboratori d'anàlisi (Foto: Michal Jarmoluk/Pixabay)

Del laboratori a la vida real: està en marxa un assaig sobre pneumònia i tuberculosi

La publicació, però, és només el primer pas cap a la implementació i les proves de camp. El professor Hartley va treballar amb col·legues de l'Hospital Universitari de Lausana (CHUV) i de l'Inselspital, l'Hospital Universitari de Berna, per dur a terme estudis clínics centrat en el diagnòstic de pneumònia i tuberculosi en entorns amb recursos limitats, i està en procés de reclutar milers de pacients Sud-Àfrica, Tanzània, Namíbia e Benín.

Els grups de recerca van dur a terme una àmplia iniciativa formativa, docent més de 100 metges per recollir sistemàticament dades multimodals incloses imatges i vídeos d'ultrasons, de manera que MultiModN es pugui entrenar per ser sensible a dades reals de regions amb pocs recursos.

"Estem recopilant exactament el tipus de dades multimodals complexes que MultiModN està dissenyat per gestionar", va dir el metge Noémie Boillat-Blanco, especialista en malalties infeccioses del CHUV.

"Estem emocionats de veure un model que pugui apreciar complexitat dels recursos que falten en els nostres contextos i la manca sistemàtica d'avaluacions clíniques rutinàries", va afegir el metge Kristina Keitel de l'Inselspital, l'hospital universitari de la capital suïssa.

La seguretat de la IA? La declaració de Bletchley Park és crucial
Eix Axel Springer-OpenAI per a la IA al servei del periodisme

La innovació de l'EPFL està dissenyada per millorar la presa de decisions clíniques proporcionant accés a coneixements mèdics especialitzats (Foto: Irwan/Unsplash)

L'aprenentatge automàtic al servei del bé públic

El desenvolupament i la formació de MultiModN representa la continuació dels esforços de l'EPFL per adaptar les eines d'aprenentatge automàtic a la realitat i per al bé públic, i arriba poc després del llançament de Meditron, un model d'intel·ligència artificial dissenyat específicament per al sector mèdic.

Meditron també pertany a la categoria de Grans Models de Llenguatge (LLM), però a diferència dels models generalistes, que serveixen per a una àmplia gamma de tasques, se centra en camp mèdic, i és més compacte pel que fa a la mida, però igual d'eficaç.

L'objectiu de Meditron és democratitzar l'accés a la informació mèdica d'alta qualitat, ajudant així a les decisions clíniques.

Els investigadors de l'EPFL van desenvolupar dues versions amb 7 milions i 70 milions de paràmetres respectivament, i els models van ser entrenats en fonts de dades mèdiques seleccionades i d'alta qualitat, inclosa la literatura científica revisada per parells i diverses directrius clíniques, garantint una base de coneixement àmplia i precisa.

Tant Meditron, presentat el novembre de 2023, com MultiModN estan, doncs, en línia amb la missió del nou Centre d'IA de l'EPFL, que se centra en com la intel·ligència artificial responsable i eficaç pot promoure la innovació tecnològica en benefici de tots els sectors de la societat.

Els sensors revolucionaris que poden estalviar milions de bateries
AI: la guerra que està a punt d'esclatar no serà com esperem...

Aprenentatge automàtic: un nou model multimodal per a una IA més flexible de l'EPFL
L'exterior del campus de l'EPFL amb el logotip de la Politècnica Federal de Lausana (Foto: Facebook/EFPL IC)