Saltar al contenido principalSaltar al pie de página

Tecnología y sociedad

La IA y los humanos tropezamos en la misma piedra cuando programamos

Un código confuso genera la misma sorpresa en el cerebro que en una máquina inteligente

Los investigadores Sven Apel, Catedrático de Ingeniería de Software de la Universidad del Sarre, y Mariya Toneva, Jefa del Grupo de Investigación “ Conectando IA y Neurociencia" del Instituto Max Planck de Sistemas de Software.

Los investigadores Sven Apel, Catedrático de Ingeniería de Software de la Universidad del Sarre, y Mariya Toneva, Jefa del Grupo de Investigación “ Conectando IA y Neurociencia" del Instituto Max Planck de Sistemas de Software. / UdS/Oliver Dietze (zda.) y MPI-SWS. (Montaje de T21)

EDUARDO MARTÍNEZ DE LA FE/T21

EDUARDO MARTÍNEZ DE LA FE/T21

Madrid

Los humanos y los grandes modelos de lenguaje responden de manera similar a un código de programa confuso, lo que sugiere que ciertas regularidades en el código afectan de forma parecida a un LLM y a nuestro sistema nervioso. Todavía no se entiende bien qué implica exactamente esta coincidencia.

Los asistentes automáticos de programación no solo completan líneas de código, sino que empiezan a parecerse a nuestros propios patrones de comprensión. Un nuevo estudio compara, por primera vez de forma sistemática, cómo reaccionan desarrolladores humanos y un modelo de lenguaje grande (LLM) ante fragmentos de código limpios y fragmentos deliberadamente confusos, y encuentra algo sorprendente: ambos “tropiezan” prácticamente en los mismos sitios.

Claves de esta investigación

  • Radar compartido: Los programadores humanos y un asistente de IA para código se “atascan” en los mismos puntos cuando leen fragmentos de código confusos.
  • Sorpresa: Los picos de “sorpresa” de la IA aparecen justo en las mismas zonas del código donde el cerebro de los programadores muestra más señales de confusión.
  • Radar cognitivo: Esto sugiere que personas y máquinas comparten un “radar cognitivo” parecido para detectar código difícil, aunque funcionen de forma muy distinta por dentro.
  • Aplicación práctica: Esa “sorpresa” puede usarse para alertar a programadores humanos de los recodos del código que exigirán más esfuerzo mental.

Referencia

How do Humans and LLMs Process Confusing Code? Youssef Abdelsalam et al. arXiv:2508.18547v1. DOI: https://doi.org/10.48550/arXiv.2508.18547

Un LLM es un modelo de IA entrenado con grandes volúmenes de texto y código para predecir la siguiente “pieza” de información. Esa pieza mínima se llama token: puede ser una palabra, parte de una palabra o un símbolo de código. Cuando el modelo se encuentra con algo poco habitual en sus datos de entrenamiento, ese “radar cognitivo” del LLM se puede medir con una magnitud muy concreta: la perplexity. En términos sencillos, indica cuánto se sorprende el modelo al predecir el siguiente token: si el código sigue patrones habituales, la sorpresa es baja; si aparece algo poco esperado, la perplexity sube. Es una medida estadística de incertidumbre que, en la práctica, funciona como un termómetro de cuán “natural” o “extraño” le resulta al modelo ese fragmento de código.

El radar cognitivo humano

En los programadores humanos, ese radar se observa a través del cerebro. El estudio utiliza EEG y seguimiento ocular para registrar la actividad cerebral mientras 24 personas leen pequeños trozos de código que contienen “átomos de confusión”: patrones correctos desde el punto de vista sintáctico, pero cognitivamente enrevesados, como incrementos o condiciones en posiciones poco intuitivas. Estas zonas generan una respuesta neurofisiológica concreta (late frontal positivity) asociada a confusión y esfuerzo extra de procesamiento.

Lo llamativo es que los picos de perplexity del LLM aparecen justo en las mismas regiones del código donde el EEG detecta mayor confusión en los humanos. La correlación es estadísticamente significativa y se mantiene al comparar variantes limpias y confusas de los mismos fragmentos. En otras palabras, allí donde el modelo “se sorprende”, el cerebro humano también intensifica su actividad para intentar descifrar qué está pasando.

IA como detector de deuda cognitiva

A partir de esta alineación, los autores proponen usar la perplexity como un proxy, es decir, como un indicador indirecto y práctico, para localizar regiones de código que imponen alta carga mental a los desarrolladores. Un asistente integrado en el entorno de desarrollo (IDE, el programa donde se escribe y prueba el código) podría marcar automáticamente estas zonas, sugerir refactorizaciones o priorizar su revisión, funcionando como un radar cognitivo compartido entre humanos y máquina. Esto abre la puerta a herramientas que no solo validan que el código “funciona”, sino que además alertan de su coste cognitivo para el equipo.

Un espejo útil, pero no perfecto

Pero hay algo más. Esta convergencia no implica que humanos y LLM “entiendan” el código del mismo modo: el modelo opera sobre estadísticas aprendidas de grandes corpus, mientras que el cerebro combina contexto, experiencia, intención y semántica.

Lo más importante es que la idea de un radar cognitivo compartido entre personas y máquinas sugiere que ciertos patrones poco habituales en el código afectan de forma similar a un LLM y a nuestro sistema nervioso. El siguiente paso será ver hasta dónde puede generalizarse esta aproximación a otros lenguajes, tipos de tareas y modelos, y qué ocurre cuando llevamos este enfoque más allá del código, hacia textos, interfaces o decisiones complejas.

“Con este trabajo, estamos dando un paso hacia una mejor comprensión de la alineación entre humanos y máquinas”, explica Mariya Toneva, investigadora del Instituto Max Planck de Sistemas de Software y una de las autoras de este trabajo.

“Si sabemos cuándo y por qué los LLM y los humanos tropiezan en los mismos lugares, podemos desarrollar herramientas que hagan que el código sea más comprensible y mejoren significativamente la colaboración entre humanos y IA”, concluye.

Tracking Pixel Contents