[RECIENTE]

🤖ChatGPT (GPT-4) desafía el razonamiento lógico del LSAT: logra una precisión inicial del 76 % y nuestra visión para la integración de la IA con el engaño.

gredaisy logo
by Daisy · Updated Nov 1, 2023

Resumen

Hicimos que ChatGPT enfrentara una sección de razonamiento lógico del LSAT y obtuvo 19 de 25 puntos. Eso es un índice de aciertos del 76%, indicando que no está listo para reemplazar a los expertos humanos en pruebas. Aunque es un comienzo prometedor, apuntamos a mejorar el rendimiento de la IA a través de ajustes finos y análisis, mientras seguimos confiando en nuestros expertos en pruebas para tomar decisiones finales en situaciones cruciales.

¿Alguna vez te has preguntado cómo un modelo de IA de última generación como ChatGPT se desempeñaría frente a las formidables preguntas de razonamiento lógico del LSAT? Bueno, teníamos curiosidad y lo pusimos a prueba.

El Desafío y el Método

Presentamos a ChatGPT la sección 2 del pretest 93 del LSAT, una mezcla difícil de acertijos lógicos.

Utilizamos el enfoque zero-shot, como detalla Takeshi Kojima et al. en 2022, usando la indicación: "Vamos a pensar paso a paso antes de responder la pregunta."

Rendimiento

ChatGPT logró solo 19 respuestas correctas de 25, obteniendo un modesto índice de aciertos del 76% frente a estas preguntas de razonamiento lógico. En contraste, nuestros expertos en pruebas promedian de 23 a 25 respuestas correctas en la sección de razonamiento lógico.

Próximos pasos

Con una tarjeta de puntuación que refleja un índice de aciertos del 76%, ChatGPT, en su estado actual, no está en condiciones de reemplazar a nuestros expertos humanos en pruebas en el corto plazo.

Si bien este es un buen comienzo, hay margen para mejorar. Esto es lo que planeamos hacer:

  • Ajustar el modelo base y analizar las preguntas respondidas incorrectamente para reforzar el rendimiento de la IA.
  • Aprovechar la IA para ayudar en la resolución de problemas, mientras garantizamos que nuestros expertos en pruebas con mayor puntaje tengan la última palabra en esos escenarios de alta importancia.

メイル

Consulta gratuita

O... envíanos un mensaje a