• Tabla de contenidos

    • [+]Preliminares (3)
    • [+]Introducción (4)
    • [+]América Latina (13)
    • [+]África Subsahariana (9)
    • [—]Mundo árabe (11)
    • [+]Rusia (11)
    • [+]India (11)
    • [+]China (9)
    • [+]Conclusiones (6)
    • [+]Anexos (1)

Mundo árabe

Dificultades técnicas de la edición digital en árabe: ePub y OCR

Los formatos PDF o Flash no representan ninguna complicación técnica para los editores locales. Pero Ramy Habeeb, co-fundador de Kotobarabia, explica que incluso cuando un texto en árabe ha sido cuidadosamente diagramado en InDesign y otras herramientas similares, su conversión a ePub resulta sumamente dificultosa, por varios motivos:

1) El flujo del texto va de derecha a izquierda, lo que trae conflictos de diagramación: si dentro del archivo ePub hay párrafos indentados o citas, éstos no se visualizarán adecuadamente. Con lo cual aun cuando el flujo de derecha a izquierda se muestra correctamente, ciertos formatos hacen que los caracteres se vuelvan ilegibles, lo que obliga a resolver el problema manualmente. De modo que no se puede obtener un ePub directamente desde un RTF o un archivo de InDesign: es preciso verificar el texto línea por línea.

2) Otro inconveniente se relaciona con las fuentes. Habeeb señala que lo mismo ocurría en la edición europea de hace algunas décadas, cuando los editores se distinguían unos de otros por sus tipografías: cada editor podía crear la suya propia, y el resultado era una plétora de fuentes. En la actualidad esto ya no representa un inconveniente en Europa, pues existen diferentes instrumentos estandarizados, como Microsoft Office o InDesign. No obstante, en los textos en árabe la dificultad permanece, ya que cuando se cita el Corán, por ejemplo, los editores dedican un gran esfuerzo a que esas líneas se escriban con una fuente de gran belleza, pero a menudo el conversor a ePub no consigue decodificarla. Una solución sería tomar esas fuentes como imágenes, pero allí surge un nuevo problema: el de insertar una imagen dentro de un archivo.

3) En tercer lugar, la mayoría de las letras árabes pueden representarse de tres o cuatro formas diferentes. La letra se verá distinta si aparece sola, si está al comienzo, en la mitad o al final de la palabra. A menudo, el editor necesita que la letra se vea como en la mitad de una palabra, pero ocurre que aparece como si estuviera sola –y el resultado es un total galimatías.

4) Finalmente, el árabe clásico –que no se utiliza todo el tiempo, pero sí en los textos de alto nivel– lleva Teshkil –acentuación. Uno puede tener “a”, “b”, “c” y colocar sobre esas letras 5 acentos diferentes, lo que constituye un desafío técnico a la hora de convertir a ePub.[1]

Ahora bien, si la multiplicidad de fuentes del árabe implica una dificultad para la conversión a ePub, lo mismo ocurre a la hora de utilizar sistemas de reconocimiento de texto (OCR). Habeeb lo explica de esta forma:

Son tantos los puntos y líneas y otros detalles, que un OCR automático suele confundir las letras, lo que complica aun más las cosas: como la industria editorial es relativamente pobre, la calidad del papel y de la tinta no siempre es la mejor, lo que a su vez deriva en un escaneo defectuoso. Todos estos factores combinados hacen que el OCR se convierta en una misión complejísima.

Es interesante examinar la estrategia implementada por Kotobarabia para superar estos escollos técnicos:

En nuestro caso, cada libro pasa por uno de estos dos procesos: 1) Re-escribimos el texto de modo que sea completamente indexable; hemos descubierto que re-tipear un libro y corregirlo es de hecho más económico que trabajar con el software de OCR disponible hoy en el mercado; luego se produce la metadata asociada y se sube el contenido al sitio, convirtiéndolo a los dos formatos que utilizamos. 2) Otra posibilidad es escanear: luego nuestro equipo leerá esas páginas y seleccionará palabras clave de modo que el libro sea semi-indexable. Hacemos esto para la mayoría de nuestros libros. Pero cuando un título es muy consultado o tiene un interés particular, entonces volvemos atrás y lo re-tipeamos. Es una opción más económica, y un modelo de negocio más sustentable.[2]


Notas    
  1. Entrevista personal, diciembre de 2010.
  2. Turner, James: “Bringing e-Books to Africa and the Middle East”, O’Reilly Radar, 19 de enero de 2010.

4 Comentarios

  1. Hedaya

     /  19/07/2011

    Very interesting. I hope we will continue to have people such as Habeeb following up with this. I’m hopeful that soon we will soon a plethora of Arabic texts available in epub format.

  2. Soon this will be updated. We once struggled to OCR an Arab book. Its just a three days work took a week to get completed. My technical guys tried their best to bring out the book.

  3. thierry quinqueton

     /  27/08/2011

    I think this question is a very important one considering cultural diversity. Universities and big libraries, inside this arabic area, but also in other parts of the world must be associated.

  4. No need to exaggerate. There is always a work around and following is one of them. For current technology, only way to get accurate text in Arabic is either using pdf or image.

    With following version you can read you book in two different font size assuming you have landscape mode on your device. If not, no problem just download your epub in landscape mode. Rest is explained in the post.

    http://avaxhome.ws/ebooks/religion/The_Quran_Arabic_Hayrat_Nesriyat_Epub_Mobi_Prc_Kuran_Hayrat_Nesriyat.html

    Also, I tried Indesign and many other ways but no use. Using html is much easier than using intermediate software.

Deja un comentario