Evaluación Comparativa de Modelos de Lenguaje de Inteligencia Artificial vs Evaluación Humana en Trabajos Académicos: Un Caso de Estudio en la Materia “Proyecto de Innovación”
Resumen
La integración de la inteligencia artificial (IA) en la evaluación educativa representa uno de los avances más significativos en la transformación de los procesos académicos contemporáneos. Este estudio presenta una evaluación comparativa entre tres modelos de lenguaje de inteligencia artificial (ChatGPT4o, Claude Sonnet 4, y DeepSeek-V3) y la evaluación humana tradicional en el contexto de trabajos académicos de estudiantes de sexto semestre de Ingeniería de Software en la materia de Proyecto de Innovación. La investigación empleó un diseño comparativo descriptivo con una muestra de cinco equipos estudiantiles, evaluando cinco criterios específicos mediante una rúbrica estandarizada: hoja de portada, índice, desarrollo del contenido, conclusiones y referencias consultadas. Los resultados revelan diferencias significativas en los patrones de evaluación entre los modelos de IA y el evaluador humano, con la evaluación humana mostrando la media más alta (3.88), seguida de ChatGPT-4o (3.67), mientras que Claude Sonnet y DeepSeek-V3 obtuvieron medias idénticas (3.12). Los modelos de IA demostraron correlaciones altas entre sí, especialmente DeepSeek-V3 y la evaluación humana (r = 0.987), sugiriendo alineación en la identificación de patrones de calidad. Los hallazgos indican que los modelos de IA pueden complementar efectivamente la evaluación realizada por el profesor, proporcionando retroalimentación consistente, aunque requieren ajustes específicos dependiendo del contexto pedagógico.