Un flujo editorial concreto: de Word a JATS (parte 5)

Cómo se ve en la práctica todo lo anterior. Esta parte final ancla los conceptos desarrollados en las entregas anteriores en un caso práctico: el flujo completo de un artículo desde que llega en formato Word hasta que se publica como XML-JATS validado, con sus derivaciones en PDF, HTML y EPUB. El ejemplo utiliza gbpublisher, un sistema de gestión editorial pensado específicamente para este tipo de trabajos, pero la lógica es transferible a cualquier entorno de edición científica.


1. Punto de partida: el manuscrito

Un investigador entrega un archivo articulo_educacion_rural.docx a una revista académica. El archivo contiene:

  • Título y resumen
  • Secciones sin marcado estructural claro
  • Referencias bibliográficas en formato libre (sin normalización)
  • Tablas insertadas como imágenes
  • Notas al pie mezcladas con citas
  • Sin metadatos explícitos (ORCID, afiliaciones, financiamiento)

Este es el escenario habitual: un texto completo pero estructuralmente opaco.


2. Evaluación inicial: ¿tiene estructura IMRyD?

Antes de entrar en la producción técnica, el editor científico verifica:

Pregunta 1: ¿El artículo separa claramente Introducción, Métodos, Resultados y Discusión?

  • Si sí: puede avanzar.
  • Si no: se devuelve al autor con indicaciones estructurales.

En este caso, el autor tituló sus secciones como:

  • “Contexto del problema” (debería ser Introducción)
  • “Cómo trabajamos” (debería ser Métodos)
  • “Lo que encontramos” (debería ser Resultados)
  • “Qué significa esto” (debería ser Discusión)

Decisión editorial: Solicitar al autor que renombre las secciones conforme a IMRyD, o bien proceder con renombrado interno si la estructura lógica es correcta.

Dávalos (2008) señala que aunque el formato IMRyD surgió en ciencias experimentales, su lógica es aplicable a otras disciplinas siempre que la investigación esté basada en una toma de datos guiada por metodología explícita.


3. Conversión a Markdown: primera estructuración

El editor abre gbpublisher y crea un nuevo artículo en la base de datos. Convierte el Word a Markdown usando Pandoc:

pandoc articulo_educacion_rural.docx -o articulo_educacion_rural.md

El Markdown resultante permite trabajar sobre texto plano con marcado explícito:

# Introducción

A pesar de la abundante literatura sobre educación secundaria...

## Métodos

El corpus está compuesto por 124 resoluciones ministeriales...

## Resultados

El 73 % de las instituciones analizadas...

## Discusión

Estos resultados coinciden con lo observado por Pérez (2019)...

Por qué Markdown: Es el formato canónico de gbpublisher porque:

  • Permite edición humana legible
  • Separa contenido de presentación
  • Es versionable con Git
  • Facilita transformaciones posteriores

4. Enriquecimiento de metadatos: el formulario JATS

En gbpublisher, el editor completa un formulario con más de 200 campos que corresponden a elementos JATS:

Metadatos del artículo

  • Título en español e inglés
  • Resumen en español e inglés
  • Palabras clave
  • DOI
  • Fechas (recepción, aceptación, publicación)

Metadatos de autores

  • Nombre completo
  • ORCID
  • Afiliación institucional (con ROR si existe)
  • Rol (autor, editor, traductor)
  • Correo electrónico
  • Contribución específica (conceptualización, análisis, escritura)

Metadatos de financiamiento

  • Agencia financiadora
  • Número de proyecto
  • País

Este paso es invisible para el lector final del PDF, pero crítico para la indexación: sin estos metadatos estructurados, el artículo no puede ser procesado por SciELO, Redalyc, DOAJ, etc.


5. Gestión de referencias: de texto libre a BibTeX

El manuscrito original contenía referencias escritas manualmente:

Pérez, J. (2019). Capacitación administrativa en contextos rurales. Revista de Educación, 45(2), 112-130.

El editor:

  1. Crea un archivo .bib con entradas estructuradas:
@article{perez2019,
  author = {Pérez, Juan},
  title = {Capacitación administrativa en contextos rurales},
  journal = {Revista de Educación},
  year = {2019},
  volume = {45},
  number = {2},
  pages = {112--130},
  doi = {10.1234/reveduc.2019.45.2.112}
}
  1. En el Markdown, reemplaza citas textuales por claves BibTeX:
Estos resultados coinciden con lo observado por [@perez2019]...
  1. gbpublisher valida cada entrada contra Crossref para verificar DOIs y autocompletar metadatos faltantes.

Por qué importa: Este paso garantiza que las referencias sean procesables como <element-citation> en JATS, lo que permite:

  • Enlace directo a los artículos citados
  • Conteo de citas por sistemas automatizados
  • Verificación de integridad bibliográfica

6. Generación de XML-JATS: la transformación central

Una vez que el Markdown está limpio y los metadatos completos, gbpublisher ejecuta un pipeline XSLT:

saxon -s:articulo_educacion_rural.md \
      -xsl:md_to_jats.xsl \
      -o:articulo_educacion_rural.xml \
      metadata=metadata.json \
      references=referencias.bib

El resultado es un archivo XML-JATS validado:

<article xmlns:xlink="http://www.w3.org/1999/xlink"
         xmlns:mml="http://www.w3.org/1998/Math/MathML"
         dtd-version="1.3"
         article-type="research-article">
  <front>
    <article-meta>
      <article-id pub-id-type="doi">10.1234/revista.2026.15.3.45</article-id>
      <title-group>
        <article-title xml:lang="es">Impacto de la digitalización administrativa...</article-title>
        <trans-title-group xml:lang="en">
          <trans-title>Impact of administrative digitalization...</trans-title>
        </trans-title-group>
      </title-group>
      <contrib-group>
        <contrib contrib-type="author">
          <name>
            <surname>García</surname>
            <given-names>María</given-names>
          </name>
          <contrib-id contrib-id-type="orcid">0000-0002-1234-5678</contrib-id>
        </contrib>
      </contrib-group>
      ...
    </article-meta>
  </front>
  <body>
    <sec sec-type="intro">
      <title>Introducción</title>
      <p>A pesar de la abundante literatura...</p>
    </sec>
    <sec sec-type="methods">
      <title>Métodos</title>
      <p>El corpus está compuesto por 124 resoluciones...</p>
    </sec>
    ...
  </body>
  <back>
    <ref-list>
      <ref id="ref-perez2019">
        <element-citation publication-type="journal">
          <person-group person-group-type="author">
            <name><surname>Pérez</surname><given-names>Juan</given-names></name>
          </person-group>
          <article-title>Capacitación administrativa en contextos rurales</article-title>
          <source>Revista de Educación</source>
          <year>2019</year>
          <volume>45</volume>
          <issue>2</issue>
          <fpage>112</fpage>
          <lpage>130</lpage>
          <pub-id pub-id-type="doi">10.1234/reveduc.2019.45.2.112</pub-id>
        </element-citation>
      </ref>
    </ref-list>
  </back>
</article>

La conversión de formatos ligeros como Markdown a XML-JATS mediante transformaciones XSLT es una práctica documentada por Fenner (2013), quien demostró que esta ruta simplifica significativamente los flujos de producción editorial para revistas pequeñas y medianas.


7. Validación contra DTD: garantizar interoperabilidad

gbpublisher valida automáticamente el XML contra el DTD de JATS 1.3:

xmllint --dtdvalid JATS-archivearticle1-3.dtd \
        --noout articulo_educacion_rural.xml

Si hay errores (por ejemplo, un elemento <contrib> sin <name>), el sistema los reporta y el editor corrige en el formulario de metadatos.

Por qué es crítico: Un XML mal formado será rechazado por los sistemas de indexación. La validación previa evita rechazos posteriores.


8. Derivación a múltiples formatos

Ahora que existe un XML-JATS canónico, gbpublisher genera las versiones de lectura:

PDF para impresión/descarga

saxon -s:articulo_educacion_rural.xml \
      -xsl:jats_to_latex.xsl \
      -o:articulo_educacion_rural.tex

pdflatex articulo_educacion_rural.tex

HTML para web

saxon -s:articulo_educacion_rural.xml \
      -xsl:jats_to_html.xsl \
      -o:articulo_educacion_rural.html

EPUB para lectura móvil

pandoc articulo_educacion_rural.xml \
       -f jats -t epub \
       -o articulo_educacion_rural.epub

Punto clave: El PDF ya no es el origen. Es una salida derivada del XML canónico.


9. Depósito en repositorios e indexadores

Finalmente, gbpublisher prepara paquetes para cada sistema.

Noreña-Chávez, Garofolin y Limaymanta (2024) documentan los criterios específicos de cada indexador latinoamericano e internacional, mostrando que si bien todos requieren XML-JATS, cada sistema tiene especificaciones técnicas particulares que deben atenderse.

Para SciELO

  • XML-JATS
  • PDF
  • Metadatos complementarios en formato SciELO-específico
  • Archivos de imagen en resolución adecuada

Para Redalyc

  • XML-JATS
  • Referencias en formato normalizado
  • Clasificación temática según taxonomía Redalyc

Para DOAJ

  • Metadatos en formato JSON conforme a API DOAJ
  • URL del artículo en acceso abierto

10. Mantenimiento y correcciones

Si después de publicado se detecta un error (por ejemplo, una afiliación incorrecta), el editor:

  1. Corrige en la base de datos de gbpublisher
  2. Regenera el XML-JATS
  3. Regenera las salidas (PDF, HTML, EPUB)
  4. Notifica a los indexadores para actualización

Ventaja del flujo XML-primero: Una única corrección en la fuente propaga a todos los formatos automáticamente.


11. Cierre

Este flujo muestra que la edición científica no consiste en “hacer un PDF bonito”, sino en:

  1. Verificar estructura epistemológica (IMRyD)
  2. Capturar metadatos semánticos completos
  3. Normalizar referencias bibliográficas
  4. Generar XML-JATS validado
  5. Derivar formatos de lectura
  6. Asegurar interoperabilidad con indexadores

Cada paso tiene un por qué técnico y epistemológico. Saltarse cualquiera de ellos compromete la existencia del artículo en el sistema científico.

gbpublisher automatiza lo automatizable, pero el criterio editorial humano sigue siendo imprescindible: solo el editor puede juzgar si la estructura del manuscrito es coherente, si los metadatos son correctos, y si el resultado final respeta la intención científica del autor mientras garantiza su circulación sistémica.


Referencias

Dávalos, H. (2008). Cómo se hace un artículo científico para Historia. Cultura Científica y Tecnológica, 5(29). Disponible en: https://erevistas.uacj.mx/ojs/index.php/culcyt/article/view/369

Fenner, M. (2013). From Markdown to JATS XML in One Step. Martin Fenner Blog. Disponible en: http://blog.martinfenner.org/2013/12/12/from-markdown-to-jats-xml-in-one-step/

Noreña-Chávez, D., Garofolin, A., & Limaymanta, C. H. (2024). Criterios de Indexación de Revistas Científicas: Latindex, Redalyc, SciELO, DOAJ, Scopus y Web of Science. Lima: Universidad de Lima, Escuela de Posgrado. Disponible en: https://repositorio.ulima.edu.pe/handle/20.500.12724/19992