Menu

Automatizar corrección errores en un ebook

¿Podemos automatizar la tarea de corrección de un ebook?

A medida que voy leyendo el libro, si encuentro alguna errata, la anoto bien en un papel, en el iPhone o si estoy leyendo en un ebook que permite tomar notas directamente, pues ahí mismo.
Una vez finalizada la lectura, elaboramos una lista en un fichero txt con cada errata y su sustitución correspondiente, como la que habeis visto arriba.
Finalmente, vamos a usar un pequeño script que realizará todas las modificaciones anotadas en el ebook y generará una versión corregida. El script nos pedirá primero el epub a corregir, y en segundo lugar el archivo de texto con las correcciones. (es un script bastante guarro y puede fallar en cualquier caso inesperado, como es simplemente una herramienta personal, no me he tomado la molestia de hacerlo robusto). El script lo podeis consultar aqui. http://snipt.org/wmkkj

Muchos de los errores tipográficos que aparecen al realizar un OCR a un libro escaneado, o que simplemente contiene el libro si no ha atravesado un exhaustivo proceso de edición, pueden corregirse de manera automática en la mayoría de los casos mediante el uso de expresiones regulares.

Vamos a ver algúnos ejemplos sencillitos.

#Espacio que no aparece tras un punto y seguido
Expresión: “.([A-Z])”
Sustitución: “. $1″

#Espacio antes de cerrar interrogación
Expresión: “s?”
Sustitución: “?”

#Guiones largos en el interior de una palabra, lo sustituimos por un guión corto
Expresión: “([A-Za-zÁÉÍÓÚÑáéíóúü])–([A-Za-zÁÉÍÓÚÑáéíóúü])”
Sustitución: “$1-$2″

Y siguiendo esta estructura podemos confeccionarnos una lista para corregir los errores más frecuentes (espacios antes de exclamaciones, guiones de diálogo, etc..) Mientras más sofisticada sea la búsqueda que queremos hacer, más se complicará la expresión regular, pero con paciencia y maña se puede hacer casi de todo.

Y si las colocamos todas en un archivo de texto siguiendo el formato

#comentario
expresión
sustitución

#comentario
expresión
sustitución

podemos aplicarlas todas de golpe a un epub que tengamos ya preparado, mediante el script epubcorrect que mencioné anteriormente.

Escrito por Daniel J.K.

Daniel J.K.

Comments

comments

Qué opinas tu?

Tu dirección de correo electrónico no será publicada. Los campos necesarios están marcados *

5 + 2 =