{rfName}
Te

Indexado en

Licencia y uso

Icono OpenAccess

Citaciones

6

Altmetrics

Grant support

We thank two anonymous reviewers for their feedback.

Análisis de autorías institucional

Dentella, VittoriaAutor (correspondencia)

Compartir

3 de diciembre de 2024
Publicaciones
>
Artículo

Testing AI on language comprehension tasks reveals insensitivity to underlying meaning

Publicado en:Scientific Reports. 14 (1): 28083- - 2024-11-14 14(1), DOI: 10.1038/s41598-024-79531-8

Autores: Dentella, Vittoria; Guenther, Fritz; Murphy, Elliot; Marcus, Gary; Leivada, Evelina

Afiliaciones

Autonomous Univ Barcelona, Barcelona, Spain - Autor o Coautor
Humboldt Univ, Berlin, Germany - Autor o Coautor
Inst Catalana Recerca & Estudis Avancats, Barcelona, Spain - Autor o Coautor
NYU, New York, NY USA - Autor o Coautor
Univ Pavia, Pavia, Italy - Autor o Coautor
Univ Rovira & Virgili, Tarragona, Spain - Autor o Coautor
UTHealth, Houston, TX USA - Autor o Coautor
Ver más

Resumen

Large Language Models (LLMs) are recruited in applications that span from clinical assistance and legal support to question answering and education. Their success in specialized tasks has led to the claim that they possess human-like linguistic capabilities related to compositional understanding and reasoning. Yet, reverse-engineering is bound by Moravec's Paradox, according to which easy skills are hard. We systematically assess 7 state-of-the-art models on a novel benchmark. Models answered a series of comprehension questions, each prompted multiple times in two settings, permitting one-word or open-length replies. Each question targets a short text featuring high-frequency linguistic constructions. To establish a baseline for achieving human-like performance, we tested 400 humans on the same prompts. Based on a dataset of n = 26,680 datapoints, we discovered that LLMs perform at chance accuracy and waver considerably in their answers. Quantitatively, the tested models are outperformed by humans, and qualitatively their answers showcase distinctly non-human errors in language understanding. We interpret this evidence as suggesting that, despite their usefulness in various tasks, current AI models fall short of understanding language in a way that matches humans, and we argue that this may be due to their lack of a compositional operator for regulating grammatical and semantic information.

Palabras clave

Artificial intelligenceComprehensionFemaleHumansLanguageLinguisticsSemantics

Indicios de calidad

Impacto bibliométrico. Análisis de la aportación y canal de difusión

El trabajo ha sido publicado en la revista Scientific Reports debido a la progresión y el buen impacto que ha alcanzado en los últimos años, según la agencia WoS (JCR), se ha convertido en una referencia en su campo. En el año de publicación del trabajo, 2024 aún no existen indicios calculados, pero en 2023, se encontraba en la posición 25/135, consiguiendo con ello situarse como revista Q1 (Primer Cuartil), en la categoría Multidisciplinary Sciences.

2025-08-06:

  • Scopus: 1

Impacto y visibilidad social

Desde la dimensión de Influencia o adopción social, y tomando como base las métricas asociadas a las menciones e interacciones proporcionadas por agencias especializadas en el cálculo de las denominadas “Métricas Alternativas o Sociales”, podemos destacar a fecha 2025-08-06:

  • El uso, desde el ámbito académico evidenciado por el indicador de la agencia Altmetric referido como agregaciones realizadas por el gestor bibliográfico personal Mendeley, nos da un total de: 24.
  • La utilización de esta aportación en marcadores, bifurcaciones de código, añadidos a listas de favoritos para una lectura recurrente, así como visualizaciones generales, indica que alguien está usando la publicación como base de su trabajo actual. Esto puede ser un indicador destacado de futuras citas más formales y académicas. Tal afirmación es avalada por el resultado del indicador “Capture” que arroja un total de: 43 (PlumX).

Con una intencionalidad más de divulgación y orientada a audiencias más generales podemos observar otras puntuaciones más globales como:

  • El Score total de Altmetric: 72.5.
  • El número de menciones en la red social Facebook: 1 (Altmetric).
  • El número de menciones en la red social X (antes Twitter): 62 (Altmetric).
  • El número de menciones en medios de comunicación: 3 (Altmetric).

Es fundamental presentar evidencias que respalden la plena alineación con los principios y directrices institucionales en torno a la Ciencia Abierta y la Conservación y Difusión del Patrimonio Intelectual. Un claro ejemplo de ello es:

  • El trabajo se ha enviado a una revista cuya política editorial permite la publicación en abierto Open Access.
  • Asignación de un Handle/URN como identificador dentro del Depósito en el Repositorio Institucional: http://hdl.handle.net/20.500.11797/imarina9393177

Análisis de liderazgo de los autores institucionales

Este trabajo se ha realizado con colaboración internacional, concretamente con investigadores de: Germany; Italy; United States of America.

Existe un liderazgo significativo ya que algunos de los autores pertenecientes a la institución aparecen como primer o último firmante, se puede apreciar en el detalle: Primer Autor (Dentella, Vittoria) .

el autor responsable de establecer las labores de correspondencia ha sido Dentella, Vittoria.