EPFL, un nou model multimodal per a una IA més flexible

De l'EPFL un nou model multimodal per a una IA més flexible

Pot aprendre de text, imatges, vídeo i so i, gràcies a la modularitat, produeix qualsevol nombre o combinació de prediccions.

Aprenentatge automàtic: un nou model multimodal per a una IA més flexible de l'EPFL

Des de l'EPFL un nou model multimodal per a una IA més flexible (Foto: Brian Penny/Pixabay)

Tant si estem parlant d'OpenAI com de ChatGPT, la gran majoria de chatbots intel·ligència artificial generativa es basen en els anomenats Gran model de llengua (LLM), models de aprenentatge profund a gran escala entrenats per donar respostes a les preguntes que se'ls plantegen mitjançant l'aprenentatge d'informació a través de grans quantitats de text.

L'última frontera deIA generativa sóc jo models multimodals, que combinen comprensió lingüística i imatges, vídeo i àudio per oferir una experiència i un servei encara més avançats.

La seva creació, però, presenta diversos reptes, sobretot si la intenció és construir models multimodals a petita escala: els freqüents presència de dades que falten per la indisponibilitat d'informació, gairebé sempre per disponibilitat parcial de recursos.

En definitiva, el risc és que el model aprengui a partir d'una manca, i que els càlculs i les prediccions estiguin distorsionats. I aquí va començar l'EPFL amb el seu nou projecte.

De la Universitat Tècnica de Lausana i Zuric una coalició per l'energia verda
En 3D el guant tecnològic que farà tangible la Realitat Virtual

Aprenentatge automàtic — El campus de la Politècnica Federal de Lausana (Foto: Facebook/EFPL)

MultiModN, el model multimodal modular nascut a Lausana

Els investigadors del Politècnica Federal de Lausana (EPFL), una de les millors universitats del món pel que fa a enginyeria i tecnologia de la informació, s'han desenvolupat de fet MultiModN, un model multimodal modular únic presentat recentment a NeurIPS2023.

Investigadors dels laboratoris Machine Learning for Education (ML4ED) i Machine Learning and Optimization (MLO) de l'Escola d'Informàtica i Comunicació de l'EPFL van decidir desenvolupar i provar exactament el contrari d'un gran, però pensar en una escala més petita.

Dirigit pel professor Mary-Anne Hartley, director del Laboratori de Tecnologies de Salut Global Intel·ligents allotjat conjuntament a MLO i la Facultat de Medicina de Yale, i professor Tanja Käser, director de ML4ED, l'equip va crear un model multimodal que pot aprendre de text, imatges, vídeos i sons però que, a diferència dels existents, està format per un nombre variable de mòduls més petits, autònoms i específics d'entrada.

Aquest últim es pot seleccionar en funció de la informació disponible i després agrupar-lo en una seqüència de qualsevol nombre, combinació o tipus d'entrada. Per tant, pot produir qualsevol nombre, o combinació, de prediccions.

"Hem avaluat MultiModN a deu activitats reals, inclòs el suport per al diagnòstic mèdic, la predicció del rendiment acadèmic i la previsió meteorològica". ha explicat Vinitra Swamy, estudiant de doctorat a ML4ED i MLO i primer coautor del projecte.

"A través d'aquests experiments, creiem que MultiModN és el primer enfocament intrínsecament interpretable i resistent a les dades que falten per al modelatge multimodal.".

La "recepta" de l'EPFL per a ordinadors quàntics més potents
Des de la Intel·ligència Artificial un impuls decisiu a les criptomonedes?

El primer cas d'ús: decisions clíniques per al personal mèdic

El primer cas d'ús de MultiModN serà com a sistema de suport per decisions clíniques per al personal mèdic en entorns amb recursos limitats.

En el sector sanitari, de fet, sovint falten dades clíniques, potser per recursos limitats (un pacient no es pot permetre una prova concreta) o, al contrari, per l'abundància de recursos i informació. MultiModN és capaç d'aprendre d'aquestes dades del món real sense absorbir els seus anomenats biaixos i d'adaptar les prediccions a qualsevol combinació o nombre d'entrades.

"Les dades que falten són un segell distintiu en contextos amb recursos limitats i, a mesura que els models aprenen aquests patrons que falten, poden codificar errors en les seves prediccions ". va subratllar Mary-Anne Hartley.

"La necessitat de flexibilitat davant dels recursos disponibles de manera imprevisible és el que va inspirar MultiModN".

En un esdeveniment destacat, l'impacte de la IA i l'aprenentatge automàtic en els serveis
Totes les raons de la creixent influència de la IA en l'art digital

Del laboratori a la vida real: està en marxa un assaig sobre pneumònia i tuberculosi

La publicació, però, és només el primer pas cap a la implementació i les proves de camp. El professor Hartley va treballar amb col·legues de l'Hospital Universitari de Lausana (CHUV) i de l'Inselspital, l'Hospital Universitari de Berna, per dur a terme estudis clínics centrat en el diagnòstic de pneumònia i tuberculosi en entorns amb recursos limitats, i està en procés de reclutar milers de pacients Sud-Àfrica, Tanzània, Namíbia e Benín.

Els grups de recerca van dur a terme una àmplia iniciativa formativa, docent més de 100 metges per recollir sistemàticament dades multimodals incloses imatges i vídeos d'ultrasons, de manera que MultiModN es pugui entrenar per ser sensible a dades reals de regions amb pocs recursos.

"Estem recopilant exactament el tipus de dades multimodals complexes que MultiModN està dissenyat per gestionar", va dir el metge Noémie Boillat-Blanco, especialista en malalties infeccioses del CHUV.

"Estem emocionats de veure un model que pugui apreciar complexitat dels recursos que falten en els nostres contextos i la manca sistemàtica d'avaluacions clíniques rutinàries", va afegir el metge Kristina Keitel de l'Inselspital, l'hospital universitari de la capital suïssa.

La seguretat de la IA? La declaració de Bletchley Park és crucial
Eix Axel Springer-OpenAI per a la IA al servei del periodisme

La innovació de l'EPFL està dissenyada per millorar la presa de decisions clíniques proporcionant accés a coneixements mèdics especialitzats (Foto: Irwan/Unsplash)

L'aprenentatge automàtic al servei del bé públic

El desenvolupament i la formació de MultiModN representa la continuació dels esforços de l'EPFL per adaptar les eines d'aprenentatge automàtic a la realitat i per al bé públic, i arriba poc després del llançament de Meditron, un model d'intel·ligència artificial dissenyat específicament per al sector mèdic.

Meditron també pertany a la categoria de Grans Models de Llenguatge (LLM), però a diferència dels models generalistes, que serveixen per a una àmplia gamma de tasques, se centra en camp mèdic, i és més compacte pel que fa a la mida, però igual d'eficaç.

L'objectiu de Meditron és democratitzar l'accés a la informació mèdica d'alta qualitat, ajudant així a les decisions clíniques.

Els investigadors de l'EPFL van desenvolupar dues versions amb 7 milions i 70 milions de paràmetres respectivament, i els models van ser entrenats en fonts de dades mèdiques seleccionades i d'alta qualitat, inclosa la literatura científica revisada per parells i diverses directrius clíniques, garantint una base de coneixement àmplia i precisa.

Tant Meditron, presentat el novembre de 2023, com MultiModN estan, doncs, en línia amb la missió del nou Centre d'IA de l'EPFL, que se centra en com la intel·ligència artificial responsable i eficaç pot promoure la innovació tecnològica en benefici de tots els sectors de la societat.

Els sensors revolucionaris que poden estalviar milions de bateries
AI: la guerra que està a punt d'esclatar no serà com esperem...

L'exterior del campus de l'EPFL amb el logotip de la Politècnica Federal de Lausana (Foto: Facebook/EFPL IC)

De l'EPFL un nou model multimodal per a una IA més flexible

De l'EPFL un nou model multimodal per a una IA més flexible

Pot aprendre de text, imatges, vídeo i so i, gràcies a la modularitat, produeix qualsevol nombre o combinació de prediccions.

MultiModN, el model multimodal modular nascut a Lausana

El primer cas d'ús: decisions clíniques per al personal mèdic

Del laboratori a la vida real: està en marxa un assaig sobre pneumònia i tuberculosi

L'aprenentatge automàtic al servei del bé públic

També us pot interessar:

A l'Alt Adige avui EDIH NOI és el nou referent de la IA

Àustria, Alemanya i Suïssa per ferrocarrils de càrrega "més innovadors".

Persuasió o manipulació? Gènesi i impacte històric de les relacions públiques

Joves i criptomonedes: com esbrinar més sobre Bitcoin...

Preguntes freqüents

Pàgines útils

targetes d'ètica

L'emoció de l'excel·lència suïssa

La nostra opinió

Per què Innovando News? Què hi ha darrere? Quines són les nostres motivacions? I per què ens has de seguir?

Estem convençuts que no hi ha innovació sense informació: per això hem creat una revista en línia, amb un abast genuïnament global, que no té barreres lingüístiques ni culturals, amb l'objectiu d'aportar el millor de la transformació digital, la sostenibilitat i el desenvolupament humà.

Dades corporatives

Innovando GmbH / Editor

Oficina d'impostos

Seu operativa

Innovando Gmbh / Notícies Innovando

contactes

Notícies innovadores

Innovating GmbH

informació

Cap de redacció

Aspectes legals

Les nostres certificacions

Som periodistes reconeguts

Innovando és membre de l'IWA

Innovando té la certificació Swiss Label

Innovando té la certificació de Swiss Digital Services

En honor i memòria de Silvano Testi e Arno Magnus pel que van poder construir durant la seva vida i pel gran i important llegat ètic i moral que ens van deixar.