De l'EPFL un nou model multimodal per a una IA més flexible
Pot aprendre de text, imatges, vídeo i so i, gràcies a la modularitat, produeix qualsevol nombre o combinació de prediccions.
Tant si estem parlant d'OpenAI com de ChatGPT, la gran majoria de chatbots intel·ligència artificial generativa es basen en els anomenats Gran model de llengua (LLM), models de aprenentatge profund a gran escala entrenats per donar respostes a les preguntes que se'ls plantegen mitjançant l'aprenentatge d'informació a través de grans quantitats de text.
L'última frontera deIA generativa sóc jo models multimodals, que combinen comprensió lingüística i imatges, vídeo i àudio per oferir una experiència i un servei encara més avançats.
La seva creació, però, presenta diversos reptes, sobretot si la intenció és construir models multimodals a petita escala: els freqüents presència de dades que falten per la indisponibilitat d'informació, gairebé sempre per disponibilitat parcial de recursos.
En definitiva, el risc és que el model aprengui a partir d'una manca, i que els càlculs i les prediccions estiguin distorsionats. I aquí va començar l'EPFL amb el seu nou projecte.
De la Universitat Tècnica de Lausana i Zuric una coalició per l'energia verda
En 3D el guant tecnològic que farà tangible la Realitat Virtual
MultiModN, el model multimodal modular nascut a Lausana
Els investigadors del Politècnica Federal de Lausana (EPFL), una de les millors universitats del món pel que fa a enginyeria i tecnologia de la informació, s'han desenvolupat de fet MultiModN, un model multimodal modular únic presentat recentment a NeurIPS2023.
Investigadors dels laboratoris Machine Learning for Education (ML4ED) i Machine Learning and Optimization (MLO) de l'Escola d'Informàtica i Comunicació de l'EPFL van decidir desenvolupar i provar exactament el contrari d'un gran, però pensar en una escala més petita.
Dirigit pel professor Mary-Anne Hartley, director del Laboratori de Tecnologies de Salut Global Intel·ligents allotjat conjuntament a MLO i la Facultat de Medicina de Yale, i professor Tanja Käser, director de ML4ED, l'equip va crear un model multimodal que pot aprendre de text, imatges, vídeos i sons però que, a diferència dels existents, està format per un nombre variable de mòduls més petits, autònoms i específics d'entrada.
Aquest últim es pot seleccionar en funció de la informació disponible i després agrupar-lo en una seqüència de qualsevol nombre, combinació o tipus d'entrada. Per tant, pot produir qualsevol nombre, o combinació, de prediccions.
"Hem avaluat MultiModN a deu activitats reals, inclòs el suport per al diagnòstic mèdic, la predicció del rendiment acadèmic i la previsió meteorològica". ha explicat Vinitra Swamy, estudiant de doctorat a ML4ED i MLO i primer coautor del projecte.
"A través d'aquests experiments, creiem que MultiModN és el primer enfocament intrínsecament interpretable i resistent a les dades que falten per al modelatge multimodal.".
La "recepta" de l'EPFL per a ordinadors quàntics més potents
Des de la Intel·ligència Artificial un impuls decisiu a les criptomonedes?
El primer cas d'ús: decisions clíniques per al personal mèdic
El primer cas d'ús de MultiModN serà com a sistema de suport per decisions clíniques per al personal mèdic en entorns amb recursos limitats.
En el sector sanitari, de fet, sovint falten dades clíniques, potser per recursos limitats (un pacient no es pot permetre una prova concreta) o, al contrari, per l'abundància de recursos i informació. MultiModN és capaç d'aprendre d'aquestes dades del món real sense absorbir els seus anomenats biaixos i d'adaptar les prediccions a qualsevol combinació o nombre d'entrades.
"Les dades que falten són un segell distintiu en contextos amb recursos limitats i, a mesura que els models aprenen aquests patrons que falten, poden codificar errors en les seves prediccions ". va subratllar Mary-Anne Hartley.
"La necessitat de flexibilitat davant dels recursos disponibles de manera imprevisible és el que va inspirar MultiModN".
En un esdeveniment destacat, l'impacte de la IA i l'aprenentatge automàtic en els serveis
Totes les raons de la creixent influència de la IA en l'art digital
Del laboratori a la vida real: està en marxa un assaig sobre pneumònia i tuberculosi
La publicació, però, és només el primer pas cap a la implementació i les proves de camp. El professor Hartley va treballar amb col·legues de l'Hospital Universitari de Lausana (CHUV) i de l'Inselspital, l'Hospital Universitari de Berna, per dur a terme estudis clínics centrat en el diagnòstic de pneumònia i tuberculosi en entorns amb recursos limitats, i està en procés de reclutar milers de pacients Sud-Àfrica, Tanzània, Namíbia e Benín.
Els grups de recerca van dur a terme una àmplia iniciativa formativa, docent més de 100 metges per recollir sistemàticament dades multimodals incloses imatges i vídeos d'ultrasons, de manera que MultiModN es pugui entrenar per ser sensible a dades reals de regions amb pocs recursos.
"Estem recopilant exactament el tipus de dades multimodals complexes que MultiModN està dissenyat per gestionar", va dir el metge Noémie Boillat-Blanco, especialista en malalties infeccioses del CHUV.
"Estem emocionats de veure un model que pugui apreciar complexitat dels recursos que falten en els nostres contextos i la manca sistemàtica d'avaluacions clíniques rutinàries", va afegir el metge Kristina Keitel de l'Inselspital, l'hospital universitari de la capital suïssa.
La seguretat de la IA? La declaració de Bletchley Park és crucial
Eix Axel Springer-OpenAI per a la IA al servei del periodisme
L'aprenentatge automàtic al servei del bé públic
El desenvolupament i la formació de MultiModN representa la continuació dels esforços de l'EPFL per adaptar les eines d'aprenentatge automàtic a la realitat i per al bé públic, i arriba poc després del llançament de Meditron, un model d'intel·ligència artificial dissenyat específicament per al sector mèdic.
Meditron també pertany a la categoria de Grans Models de Llenguatge (LLM), però a diferència dels models generalistes, que serveixen per a una àmplia gamma de tasques, se centra en camp mèdic, i és més compacte pel que fa a la mida, però igual d'eficaç.
L'objectiu de Meditron és democratitzar l'accés a la informació mèdica d'alta qualitat, ajudant així a les decisions clíniques.
Els investigadors de l'EPFL van desenvolupar dues versions amb 7 milions i 70 milions de paràmetres respectivament, i els models van ser entrenats en fonts de dades mèdiques seleccionades i d'alta qualitat, inclosa la literatura científica revisada per parells i diverses directrius clíniques, garantint una base de coneixement àmplia i precisa.
Tant Meditron, presentat el novembre de 2023, com MultiModN estan, doncs, en línia amb la missió del nou Centre d'IA de l'EPFL, que se centra en com la intel·ligència artificial responsable i eficaç pot promoure la innovació tecnològica en benefici de tots els sectors de la societat.
Els sensors revolucionaris que poden estalviar milions de bateries
AI: la guerra que està a punt d'esclatar no serà com esperem...
També us pot interessar:
A l'Alt Adige avui EDIH NOI és el nou referent de la IA
A Bolzano, 4,6 milions d'euros del fons PNRR es destinaran a serveis a empreses locals en l'àmbit de la digitalització de la intel·ligència...
Àustria, Alemanya i Suïssa per ferrocarrils de càrrega "més innovadors".
Els ministres de DACH Leonore Gewessler, Volker Wissing i Albert Rösti: la introducció de l'aparellament automàtic digital és un element clau
Persuasió o manipulació? Gènesi i impacte històric de les relacions públiques
Així és com les Relacions Públiques, des del diàleg sofisticat de l'antiga Grècia fins a l'era digital actual, segueix oferint innovació contínua
Joves i criptomonedes: com esbrinar més sobre Bitcoin...
Introduir els nens a les monedes digitals i Blockchain pot ser un esforç emocionant, donada la seva afinitat per la tecnologia i la innovació.