Quantitative Characteristics of Human‑Written Short Stories as a Metric for Automated Storytelling

2020 · New Generation Computing (Springer) · DOI: 10.1007/s00354-020-00111-1

Cuando un sistema genera una historia automáticamente, surge una pregunta incómoda: ¿se parece en algo a lo que escribiría una persona? Es fácil decir "esta historia es buena" o "esta otra es mala", pero esas evaluaciones son subjetivas y difíciles de reproducir. ¿Hay manera de medir objetivamente si una historia generada tiene las características estructurales de las historias humanas?

Este trabajo propone un conjunto de métricas cuantitativas para responder esa pregunta. La idea es sencilla: si analizamos muchas historias escritas por humanos y extraemos patrones estadísticos (cuántos personajes suelen tener, cómo se distribuyen los eventos, qué proporción de texto es diálogo vs narración, etc.), podemos usar esos patrones como referencia para evaluar historias generadas.

Para construir las métricas, recogimos un corpus de historias cortas escritas por personas en condiciones controladas. Les dimos a los participantes un punto de partida (un personaje, una situación inicial) y les pedimos que escribieran una historia de cierta longitud. Luego anotamos cada historia con rasgos estructurales que se usan en muchos generadores automáticos: componentes del plot (incidente incitador, clímax, resolución), relaciones entre personajes, cadenas causales entre eventos, arcos de transformación de los personajes.

Lo que buscamos no es "la historia perfecta", sino "lo típico". ¿Cuántos eventos tiene una historia corta promedio? ¿Qué porcentaje de los eventos están causalmente conectados? ¿Cuántas historias tienen un clímax claro? ¿Cuántas dejan hilos sin resolver? Las respuestas a estas preguntas forman un perfil estadístico de "cómo escriben los humanos historias cortas".

Con ese perfil, podemos evaluar historias generadas automáticamente. Si un sistema genera historias con 50 eventos cuando las humanas tienen 10-15 de media, algo raro pasa. Si genera historias sin ninguna relación causal, está fallando algo estructural. Las métricas no dicen si una historia es "buena" en el sentido estético, pero sí dicen si es "rara" en el sentido estadístico.

También encontramos patrones interesantes en las historias humanas. Por ejemplo, la mayoría de los participantes introdujo el conflicto principal en el primer tercio de la historia, aunque nadie les dijo que lo hicieran. El clímax tendía a estar en el último cuarto. La proporción de diálogo variaba mucho entre autores, pero dentro de cada autor era bastante consistente. Estos patrones son útiles como reglas de diseño para generadores: si quieres que tu sistema genere historias "de aspecto humano", estas estadísticas te dicen hacia dónde apuntar.

Una limitación importante es que las métricas son estructurales, no semánticas. Pueden decir "esta historia tiene cinco eventos y dos personajes", pero no "esta historia tiene sentido" o "esta historia es emocionante". Para eso harían falta métricas de otro tipo (coherencia, interés, sorpresa) que son mucho más difíciles de definir objetivamente.

Otra limitación es que el corpus es de historias cortas escritas en condiciones de laboratorio. Las novelas profesionales probablemente tienen estadísticas distintas, y las historias escritas sin restricciones de tiempo o tema también. Las métricas sirven para el dominio específico donde se recogieron los datos.

Dicho esto, el trabajo aporta algo que faltaba: una forma de comparar historias generadas con historias humanas que no dependa de evaluaciones subjetivas. Un sistema de generación puede usar estas métricas como parte de su función de evaluación, o como diagnóstico para detectar problemas ("tus historias tienen demasiados personajes sin desarrollar").

¿Para qué sirve? Para evaluar de manera cuantitativa si las historias generadas automáticamente se parecen estructuralmente a las escritas por humanos. Útil para desarrolladores de sistemas de generación narrativa, investigadores en creatividad computacional y diseñadores de experiencias interactivas.

Si te interesó este…