{rfName}
Te

Llicència i ús

Icono OpenAccess

Citacions

6

Altmetrics

Grant support

We thank two anonymous reviewers for their feedback.

Anàlisi d'autories institucional

Dentella, VittoriaAutor (correspondència)

Compartir

3 dedesembre de 2024
Publicacions
>
Article

Testing AI on language comprehension tasks reveals insensitivity to underlying meaning

Publicat a:Scientific Reports. 14 (1): 28083- - 2024-11-14 14(1), DOI: 10.1038/s41598-024-79531-8

Autors: Dentella, Vittoria; Guenther, Fritz; Murphy, Elliot; Marcus, Gary; Leivada, Evelina

Afiliacions

Autonomous Univ Barcelona, Barcelona, Spain - Autor o coautor
Humboldt Univ, Berlin, Germany - Autor o coautor
Inst Catalana Recerca & Estudis Avancats, Barcelona, Spain - Autor o coautor
NYU, New York, NY USA - Autor o coautor
Univ Pavia, Pavia, Italy - Autor o coautor
Univ Rovira & Virgili, Tarragona, Spain - Autor o coautor
UTHealth, Houston, TX USA - Autor o coautor
Veure més

Resum

Large Language Models (LLMs) are recruited in applications that span from clinical assistance and legal support to question answering and education. Their success in specialized tasks has led to the claim that they possess human-like linguistic capabilities related to compositional understanding and reasoning. Yet, reverse-engineering is bound by Moravec's Paradox, according to which easy skills are hard. We systematically assess 7 state-of-the-art models on a novel benchmark. Models answered a series of comprehension questions, each prompted multiple times in two settings, permitting one-word or open-length replies. Each question targets a short text featuring high-frequency linguistic constructions. To establish a baseline for achieving human-like performance, we tested 400 humans on the same prompts. Based on a dataset of n = 26,680 datapoints, we discovered that LLMs perform at chance accuracy and waver considerably in their answers. Quantitatively, the tested models are outperformed by humans, and qualitatively their answers showcase distinctly non-human errors in language understanding. We interpret this evidence as suggesting that, despite their usefulness in various tasks, current AI models fall short of understanding language in a way that matches humans, and we argue that this may be due to their lack of a compositional operator for regulating grammatical and semantic information.

Paraules clau

Artificial intelligenceComprehensionFemaleHumansLanguageLinguisticsSemantics

Indicis de qualitat

Impacte bibliomètric. Anàlisi de la contribució i canal de difusió

El treball ha estat publicat a la revista Scientific Reports a causa de la seva progressió i el bon impacte que ha aconseguit en els últims anys, segons l'agència WoS (JCR), s'ha convertit en una referència en el seu camp. A l'any de publicació del treball, 2024 encara no hi ha indicis calculats, però el 2023, es trobava a la posició 25/135, aconseguint així situar-se com a revista Q1 (Primer Cuartil), en la categoria Multidisciplinary Sciences.

Independentment de l'impacte esperat determinat pel canal de difusió, és important destacar l'impacte real observat de la pròpia aportació.

Segons les diferents agències d'indexació, el nombre de citacions acumulades per aquesta publicació fins a la data 2025-08-07:

  • Scopus: 1

Impacte i visibilitat social

Des de la dimensió d'influència o adopció social, i prenent com a base les mètriques associades a les mencions i interaccions proporcionades per agències especialitzades en el càlcul de les denominades "Mètriques Alternatives o Socials", podem destacar a data 2025-08-07:

  • L'ús, des de l'àmbit acadèmic evidenciat per l'indicador de l'agència Altmetric referit com a agregacions realitzades pel gestor bibliogràfic personal Mendeley, ens dona un total de: 24.
  • L'ús d'aquesta aportació en marcadors, bifurcacions de codi, afegits a llistes de favorits per a una lectura recurrent, així com visualitzacions generals, indica que algú està fent servir la publicació com a base del seu treball actual. Això pot ser un indicador destacat de futures cites més formals i acadèmiques. Aquesta afirmació està avalada pel resultat de l'indicador "Capture", que aporta un total de: 43 (PlumX).

Amb una intenció més de divulgació i orientada a audiències més generals, podem observar altres puntuacions més globals com:

  • El Puntuació total de Altmetric: 72.5.
  • El nombre de mencions a la xarxa social Facebook: 1 (Altmetric).
  • El nombre de mencions a la xarxa social X (abans Twitter): 62 (Altmetric).
  • El nombre de mencions a mitjans de comunicació: 3 (Altmetric).

És fonamental presentar evidències que recolzin l'alineació plena amb els principis i directrius institucionals sobre Ciència Oberta i la Conservació i Difusió del Patrimoni Intel·lectual. Un clar exemple d'això és:

  • El treball s'ha enviat a una revista la política editorial de la qual permet la publicació en obert Open Access.
  • Assignació d'un Handle/URN com a identificador dins del Dipòsit en el Repositori Institucional: http://hdl.handle.net/20.500.11797/imarina9393177

Anàlisi del lideratge dels autors institucionals

Aquest treball s'ha realitzat amb col·laboració internacional, concretament amb investigadors de: Germany; Italy; United States of America.

Hi ha un lideratge significatiu, ja que alguns dels autors pertanyents a la institució apareixen com a primer o últim signant, es pot apreciar en el detall: Primer Autor (Dentella, Vittoria) .

l'autor responsable d'establir les tasques de correspondència ha estat Dentella, Vittoria.