La IA piensa como un estudiante

ChatGPT no solo repite como un loro las respuestas memorizadas, sino que a veces busca a tientas, improvisa e incluso razona de maneras que parecen sorprendentemente aprendizas. Esa imprevisibilidad puede limitar su confiabilidad en un aula de matemáticas, pero también insinúa algo poderoso: la IA puede ser más que un recuperador de hechos. Si se usa con cuidado, podría convertirse en un socio que despierte la curiosidad, desafíe las suposiciones y ayude a los estudiantes a practicar las mismas habilidades que hacen de las matemáticas un acto de descubrimiento

El chatbot de Inteligencia Artificial, ChatGPT, parecía improvisar ideas y cometer errores como un estudiante, según una investigación que reinició un desafío matemático de 2.400 años de antigüedad.

El experimento, realizado por dos investigadores de la educación, le pidió al chatbot que resolviera una versión del problema de “duplicar el cuadrado”, una lección descrita por Platón alrededor del año 385 a.C. y, sugiere el documento, “quizás el primer experimento documentado en educación matemática”. El rompecabezas provocó siglos de debate sobre si el conocimiento está latente dentro de nosotros, esperando ser “recuperado”, o algo que “generamos” a través de experiencias y encuentros vividos.

El nuevo estudio exploró una pregunta similar sobre el “conocimiento” matemático de ChatGPT, al menos en la medida en que sus usuarios pueden percibirlo. Los investigadores querían saber si resolvería el problema de Platón utilizando el conocimiento que ya “tenía” o desarrollando adaptativamente sus propias soluciones.

Platón describe a Sócrates enseñando a un niño sin educación cómo duplicar el área de un cuadrado. Al principio, el niño sugiere erróneamente duplicar la longitud de cada lado, pero las preguntas de Sócrates finalmente lo llevan a comprender que los lados del nuevo cuadrado deben tener la misma longitud que la diagonal del original.

Los investigadores plantearon este problema a ChatGPT-4, al principio imitando las preguntas de Sócrates y luego introduciendo deliberadamente errores, consultas y nuevas variantes del problema.

Al igual que otros modelos de lenguaje grandes (LLM), ChatGPT está entrenado en vastas colecciones de texto y genera respuestas al predecir secuencias de palabras aprendidas durante su entrenamiento. Los investigadores esperaban que manejara su desafío matemático de la Antigua Grecia regurgitando su “conocimiento” preexistente de la famosa solución de Sócrates. Sin embargo, en cambio, pareció improvisar su enfoque y, en un momento, también cometió un error claramente humano.

El estudio fue realizado por el Dr. Nadav Marco, de la Universidad Hebrea, y del David Yellin College of Education, es profesor visitante en la Universidad de Cambridge, y Andreas Stylianides, profesor de Educación Matemática en Cambridge.

A pesar de "conocer" la famosa solución geométrica que dio Sócrates (izquierda) para duplicar el tamaño de cualquier cuadrado (derecha), ChatGPT prefirió su propio enfoque idiosincrásico, encontraron los investigadores. Imágenes: Greg O'Bairne, licencia CC-BY-SA 3.0, vía Wikimedia Commons / Nadav Marco.
A pesar de “conocer” la famosa solución geométrica que dio Sócrates (izquierda) para duplicar el tamaño de cualquier cuadrado (derecha), ChatGPT prefirió su propio enfoque idiosincrásico, encontraron los investigadores. Imágenes: Greg O’Bairne, licencia CC-BY-SA 3.0, vía Wikimedia Commons / Nadav Marco.

Si bien son cautelosos con los resultados, enfatizando que los LLM no piensan como humanos ni “resuelven las cosas”, Marco caracterizó el comportamiento de ChatGPT como “similar al de un alumno”.

“Cuando nos enfrentamos a un nuevo problema, nuestro instinto a menudo es probar cosas basadas en nuestra experiencia pasada”, dijo Marco. “En nuestro experimento, ChatGPT pareció hacer algo similar. Como un estudiante o un erudito, parecía presentar sus propias hipótesis y soluciones”.

Debido a que ChatGPT se entrena con texto y no con diagramas, tiende a ser más débil en el tipo de razonamiento geométrico que Sócrates usó en el problema de duplicar el cuadrado. A pesar de esto, el texto de Platón es tan conocido que los investigadores esperaban que el chatbot reconociera sus preguntas y reprodujera la solución de Sócrates.

Curiosamente, no lo hizo. Cuando se le pidió que duplicara el cuadrado, ChatGPT optó por un enfoque algebraico que habría sido desconocido en la época de Platón.

Luego se resistió a los intentos de hacer que cometiera el error del niño y se apegó obstinadamente al álgebra incluso cuando los investigadores se quejaron de que su respuesta era una aproximación. Solo cuando Marco y Stylianides le dijeron que estaban decepcionados de que, a pesar de todo su entrenamiento, no pudiera proporcionar una respuesta “elegante y exacta”, el Chat produjo la alternativa geométrica.

A pesar de esto, ChatGPT demostró un conocimiento completo del trabajo de Platón cuando se le preguntó directamente al respecto. “Si solo hubiera estado recordando de memoria, es casi seguro que habría hecho referencia a la solución clásica de construir un nuevo cuadrado en la diagonal del cuadrado original de inmediato”, dijo Stylianides. “En cambio, pareció adoptar su propio enfoque”.

Los investigadores también plantearon una variante del problema de Platón, pidiendo a ChatGPT que duplicara el área de un rectángulo conservando sus proporciones. A pesar de que ahora era consciente de su preferencia por la geometría, el Chat se apegó obstinadamente al álgebra. Cuando se le presionó, afirmó erróneamente que, debido a que la diagonal de un rectángulo no se puede usar para duplicar su tamaño, no se disponía de una solución geométrica.

El punto sobre la diagonal es cierto, pero existe una solución geométrica diferente. Marco sugirió que la posibilidad de que esta afirmación falsa proviniera de la base de conocimientos del chatbot era “muy pequeña”. En cambio, el Chat parecía estar improvisando sus respuestas basadas en su discusión anterior sobre la plaza.

Finalmente, Marco y Stylianides le pidieron que duplicara el tamaño de un triángulo. El Chat volvió al álgebra una vez más, pero después de más indicaciones se le ocurrió una respuesta geométrica correcta.

Los investigadores enfatizan la importancia de no sobreinterpretar estos resultados, ya que solo estaban interactuando con el Chat y no podían observar científicamente su codificación. Sin embargo, desde la perspectiva de su experiencia digital como usuarios, lo que surgió en ese nivel superficial fue una mezcla de recuperación de datos y razonamiento sobre la marcha.

Comparan este comportamiento con el concepto educativo de una “zona de desarrollo próximo” (ZPD): la brecha entre lo que un alumno ya sabe y lo que eventualmente podría saber con apoyo y orientación. Quizás, argumentan, la IA generativa tiene un “ZPD de Chat” metafórico: en algunos casos, no podrá resolver problemas de inmediato, pero podría hacerlo con indicaciones.

Los autores sugieren que trabajar con el Chat en su ZPD puede ayudar a convertir sus limitaciones en oportunidades de aprendizaje. Al preguntar, cuestionar y probar sus respuestas, los estudiantes no solo navegarán por los límites del Chat, sino que también desarrollarán las habilidades críticas de evaluación de pruebas y razonamiento que se encuentran en el corazón del pensamiento matemático.

“A diferencia de las pruebas que se encuentran en libros de texto de buena reputación, los estudiantes no pueden asumir que las pruebas de Chat GPT son válidas. Comprender y evaluar las pruebas generadas por IA está emergiendo como habilidades clave que deben integrarse en el plan de estudios de matemáticas”, dijo Stylianides.

“Estas son habilidades básicas que queremos que los estudiantes dominen, pero significa usar indicaciones como: ‘Quiero que exploremos este problema juntos’, no ‘Dime la respuesta’“, agregó Marco.

La investigación se publicó en el International Journal of Mathematical Education in Science and Technology.