[escepticos] OT: lectores e-Book, otra vez

Borja Marcos BORJAMAR en SARENET.ES
Lun Sep 24 11:03:12 WEST 2012


On 24/09/2012, at 11:56, José Ángel Morente <joseangel en morente.org> wrote:

> ¿Ves bien los PDFs que contengan fórmulas matemáticas, tablas,
> gráficas, etc.? Parece que es el punto flaco de los Kindle.

Hay un problema inherente ante el que no caben milagros: el PDF es un formato de impresión que produce un documento dividido en páginas de un tamaño determinado.

Como es un formato muy flexible, hay casos en los que, dependiendo de cómo estructure el contenido el software que genera el documento, se pueden hacer jugaditas y cábalas que permitan "domesticarlo" para otros tamaños de pantalla. Pero de ninguna manera está garantizado que sirva para cualquier documento y siempre se encontrarán ejemplos desastrosos.

Recordad las diferencias entre documentos aparentemente similares cuando se quiere extraer texto de un PDF. En algunos funciona bien, pero en otros es misión imposible. A la hora de generar un PDF hay una pérdida inherente de información de estructura: lo que para un procesador de texto son líneas, párrafos y palabras, para un PDF son en principio caracteres a colocar en una página, sin que haya necesariamente un nexo de unión o relación entre elos, más allá del interlineado y distancia entre caracteres.

(detalles técnicos aburridos a continuación)

PDF es un derivado de PostScript, que es lisa y llanamente un lenguaje de programación. Si el software que genera los PDFs emplea un esquema más o menos estructurado. Ejemplo, para una página dividida en párrafos define un formato de párrafo y después marca el texto de cada párrafo (que es un grupo de palabras) como "párrafo", es posible que un programa de conversión o "domesticación" de PDFs reconozca esos bloques de texto como párrafos (porque el desarrollador habrá hecho la suposición razonable de que un bloque de más de unas cuantas palabras es un párrafo). Pero si el software es más bien desorganizado a la hora de generar PDFs y se limita a plantar palabras, o incluso caracteres sueltos pintados sobre una hoja... Abandonad toda esperanza.





Borja.




Más información sobre la lista de distribución Escepticos