Lenguajes de marcas: evolución, fundamentos y Estado del Arte

Los lenguajes de marcas (markup languages) constituyen una categoría fundamental de sistemas formales diseñados para anotar, estructurar y describir información textual mediante etiquetas o marcadores que distinguen el contenido de su presentación o estructura (Coombs, Renear & DeRose, 1987). Su desarrollo ha sido crucial para la revolución digital de la información, particularmente en contextos editoriales, académicos y web.

1. Orígenes y motivación histórica

1.1 Contexto Pre-Digital

Los lenguajes de marcas tienen sus raíces conceptuales en las prácticas editoriales tradicionales, donde los editores utilizaban anotaciones manuscritas para indicar formato tipográfico, estructura y otros aspectos de producción (Goldfarb, 1996). Estas “marcas” manuscritas sobre los manuscritos representaban metainformación sobre el texto, separando conceptualmente el contenido de su presentación física.

1.2 Nacimiento de GML (Generalized Markup Language)

El primer lenguaje de marcas formal nació en IBM durante la década de 1960. Charles Goldfarb, Edward Mosher y Raymond Lorie desarrollaron GML (Generalized Markup Language) en 1969 para resolver problemas de intercambio de documentos entre diferentes sistemas de composición tipográfica (Goldfarb, 1981). GML introdujo tres conceptos revolucionarios:

Separación de contenido y presentación: Las etiquetas describían qué era algo, no cómo debía verse
Marcas descriptivas: Tags que identificaban la función estructural de los elementos
Independencia de plataforma: Documentos portables entre diferentes sistemas

1.3 De GML a SGML

La experiencia con GML condujo al desarrollo de SGML (Standard Generalized Markup Language), estandarizado por ISO en 1986 como ISO 8879 (Goldfarb, 1990). SGML fue diseñado como un metalenguaje para definir lenguajes de marcas específicos mediante Document Type Definitions (DTD), estableciendo principios que influirían en toda la familia posterior de lenguajes de marcas.

2. Taxonomía de lenguajes de marcas

Coombs et al. (1987) propusieron una clasificación tripartita fundamental que sigue siendo relevante:

2.1 Marcas procedimentales (Procedural Markup)

Especifican operaciones de procesamiento que deben ejecutarse sobre el texto. Ejemplos históricos incluyen troff, TeX y LaTeX (Knuth, 1984). Estos lenguajes indican “cómo hacer” algo con el contenido:

\textbf{Este texto está en negrita}
\begin{itemize}
  \item Primer elemento
\end{itemize}

Ventajas: Control preciso sobre la presentación, potencia expresiva para tipografía compleja.

Limitaciones: Mezclan contenido y presentación, dificultan la reutilización del contenido en contextos diferentes, procesamiento dependiente de un sistema específico (DeRose et al., 1990).

2.2 Marcas descriptivas (Descriptive/Semantic Markup)

Describen la función estructural o semántica de los elementos sin prescribir su presentación. SGML, XML y HTML5 semántico son ejemplos principales (Bray et al., 2008):

<article>
  <title>Título del artículo</title>
  <abstract>Resumen del contenido</abstract>
  <section>
    <heading>Introducción</heading>
    <para>Contenido del párrafo...</para>
  </section>
</article>

Ventajas: Separación clara de contenido y presentación, facilita múltiples representaciones del mismo contenido, mejora la accesibilidad y búsqueda, longevidad de los documentos (Renear, 2004).

2.3 Marcas referenciales (Referential Markup)

Asocian fragmentos de texto con información externa sin modificar el contenido original. Stand-off markup y anotaciones lingüísticas son ejemplos (Thompson & McKelvie, 1997). Este enfoque es fundamental en humanidades digitales y análisis de corpus.

3. La Revolución XML

3.1 Simplificación de SGML

XML (eXtensible Markup Language) surgió en 1996-1998 como una simplificación de SGML orientada a la web (Bray et al., 1998). El W3C publicó XML 1.0 como recomendación en febrero de 1998, buscando mantener la potencia de SGML eliminando características complejas raramente utilizadas.

Principios de diseño de XML (Bray et al., 1998):

Debe ser directamente utilizable en Internet
Debe soportar amplia variedad de aplicaciones
Debe ser compatible con SGML
Debe ser fácil escribir programas que procesen XML
El número de características opcionales debe ser mínimo, idealmente cero
Los documentos deben ser legibles por humanos
El diseño debe prepararse rápidamente
El diseño debe ser formal y conciso
Los documentos XML deben ser fáciles de crear
La concisión en las marcas es de importancia mínima

3.2 Ecosistema XML

XML generó un ecosistema completo de tecnologías asociadas (Harold & Means, 2004):

XML Schema (XSD): Sistema de tipos más potente que DTD (Fallside & Walmsley, 2004)
XSLT: Transformación de documentos XML (Kay, 2008)
XPath/XQuery: Lenguajes de consulta para XML (Robie et al., 2014)
Namespaces: Mecanismo para evitar conflictos de nombres (Bray et al., 2009)
XML Base, XInclude, XLink: Mecanismos de modularización y enlaces

3.3 Lenguajes específicos basados en XML

XML sirvió como fundamento para numerosos lenguajes específicos de dominio:

Publicación académica:

JATS (Journal Article Tag Suite): Estándar para artículos científicos (NISO, 2012)
BITS (Book Interchange Tag Suite): Para libros académicos
TEI (Text Encoding Initiative): Humanidades digitales (Burnard & Bauman, 2013)

Tecnología web:

SVG (Scalable Vector Graphics): Gráficos vectoriales
MathML: Notación matemática
XHTML: HTML reformulado como XML

Negocios y datos:

DocBook: Documentación técnica (Walsh, 2010)
OpenDocument: Formato de documentos de oficina
DITA: Documentación técnica modular

4. Markdown y lenguajes ligeros

4.1 Reacción contra la complejidad

A mediados de los años 2000, surgió una reacción contra la verbosidad de XML. John Gruber y Aaron Swartz crearon Markdown en 2004 como un lenguaje de marcas ligero con sintaxis de texto plano legible (Gruber, 2004):

# Título Principal

Este es un párrafo con **negrita** y *cursiva*.

- Lista item 1
- Lista item 2

[Enlace](http://ejemplo.com)

4.2 Características de Markdown

Filosofía de diseño:

Legibilidad: El texto sin procesar debe ser legible
Simplicidad: Sintaxis minimalista para casos comunes
Conversión: Fácil transformación a HTML y otros formatos

Limitaciones originales:

Ausencia de especificación formal
Ambigüedades sintácticas
Funcionalidad limitada para casos complejos

4.3 Evolución y fragmentación

La ausencia de especificación formal condujo a múltiples implementaciones incompatibles (MacFarlane, 2014):

CommonMark: Especificación formal para resolver ambigüedades (MacFarlane et al., 2019)
GitHub Flavored Markdown (GFM): Extensiones para tablas, listas de tareas
Pandoc Markdown: Extensiones académicas (MacFarlane, 2006-presente)
R Markdown: Integración con análisis estadístico (Xie et al., 2018)
AsciiDoc: Alternativa más estructurada (Gruber, 2013)

4.4 Limitaciones estructurales

Markdown enfrenta desafíos fundamentales para uso académico riguroso (MacFarlane, 2014):

Semántica limitada: Incapacidad para expresar estructuras complejas
Metadatos insuficientes: Sin mecanismos estándar para metadata académica
Ambigüedad sintáctica: Interpretaciones inconsistentes entre implementaciones
Extensibilidad problemática: Las extensiones rompen compatibilidad

5. HTML: evolución desde presentación hacia semántica

5.1 HTML temprano (1991-1999)

HTML comenzó como una aplicación SGML simple creada por Tim Berners-Lee en 1991 (Berners-Lee, 1991). HTML 1.0-3.2 mezclaban estructura y presentación con tags como <font>, <center>, <b> (Raggett, 1998).

5.2 Transición XHTML (2000-2009)

XHTML 1.0 (2000) reformuló HTML como aplicación XML, imponiendo sintaxis estricta y separación de contenido/presentación mediante CSS (Pemberton et al., 2002). XHTML 2.0 fue abandonado por ser demasiado radical.

5.3 HTML5: ppragmatismo semántico

HTML5 (finalizado en 2014, actualizado continuamente) representa un punto medio pragmático (Hickson et al., 2014):

Nuevos elementos semánticos:

<article>
  <header>
    <h1>Título del artículo</h1>
    <time datetime="2025-02-05">5 de febrero, 2025</time>
  </header>
  <section>
    <h2>Introducción</h2>
    <p>Contenido...</p>
  </section>
  <aside>Información complementaria</aside>
  <footer>Pie del artículo</footer>
</article>

Características clave:

Elementos estructurales semánticos (<article>, <section>, <nav>, <aside>)
Microdata y soporte para RDF (Resource Description Framework)
APIs JavaScript integradas
Compatibilidad hacia atrás con HTML tradicional

6. Estado del Arte contemporáneo

6.1 Convergencia de paradigmas

El estado actual muestra convergencia entre diferentes enfoques (Renear & Wickett, 2010):

Cadenas de transformación híbridas:

Markdown/LaTeX → XML canónico → XSLT → HTML/PDF/EPUB

Este patrón, llamado “Single Source Publishing”, utiliza formas ligeras para autoría y XML para procesamiento estructurado (Rahtz & Rouquette, 2013).

6.2 Web semántica y datos estructurados

HTML5 integra mecanismos para datos estructurados que coexisten con contenido legible:

Schema.org: Vocabulario compartido para markup semántico (Guha et al., 2016)
JSON-LD: Datos enlazados en JavaScript Object Notation
RDFa: RDF en atributos HTML

Ejemplo de Schema.org para artículo académico:

<article itemscope itemtype="https://schema.org/ScholarlyArticle">
  <h1 itemprop="headline">Lenguajes de Marcas</h1>
  <span itemprop="author" itemscope itemtype="https://schema.org/Person">
    <span itemprop="name">John Doe</span>
  </span>
  <time itemprop="datePublished" datetime="2025-02-05">2025-02-05</time>
</article>

6.3 Publicación académica digital

JATS se ha consolidado como estándar de facto para publicación académica, adoptado por PubMed Central, SciELO, DOAJ y otros (NISO, 2012; Beck, 2011). JATS define tres tag sets:

Article Authoring: Para envío de manuscritos
Journal Publishing: Para publicación final
Article Interchange: Para intercambio entre sistemas

JATS permite expresar estructuras académicas complejas con semántica precisa:

<article dtd-version="1.3" article-type="research-article">
  <front>
    <article-meta>
      <title-group>
        <article-title>Título del artículo</article-title>
      </title-group>
      <contrib-group>
        <contrib contrib-type="author">
          <name><surname>Doe</surname><given-names>John</given-names></name>
          <orcid>0000-0001-2345-6789</orcid>
        </contrib>
      </contrib-group>
      <abstract><p>Resumen del contenido...</p></abstract>
    </article-meta>
  </front>
  <body>...</body>
  <back>
    <ref-list>...</ref-list>
  </back>
</article>

6.4 Tensiones actuales

El campo actual exhibe tensiones productivas entre objetivos incompatibles (Renear, 2004):

Autoría vs. Procesamiento:

Autores prefieren formatos ligeros (Markdown, LaTeX)
Procesamiento riguroso requiere estructura explícita (XML, JATS)
Solución: Cadenas de transformación con validación

Simplicidad vs. Expresividad:

Markdown es simple pero limitado semánticamente
XML/JATS son expresivos pero verbosos
Compromiso: Extensiones controladas de Markdown (Pandoc, R Markdown)

Legibilidad humana vs. procesabilidad automática:

Formatos legibles sacrifican precisión estructural
XML optimiza procesamiento a costa de legibilidad
Híbridos: YAML frontmatter + Markdown body

6.5 Desarrollos recientes

Asciidoctor y AsciiDoc: Evolución de AsciiDoc con sintaxis más consistente que Markdown, herramientas más robustas, y mejor soporte para publicación técnica compleja (Gruber, 2013; Dan Allen et al., 2024).

Pandoc como estándar de facto: La herramienta de conversión universal de John MacFarlane se ha convertido en infraestructura crítica para publicación académica, soportando más de 40 formatos y permitiendo cadenas complejas de transformación (MacFarlane, 2006-2024).

Jupyter Notebooks: Formato JSON que combina código ejecutable, texto narrativo en Markdown, y visualizaciones, revolucionando la publicación científica reproducible (Kluyver et al., 2016).

Quarto: Sistema de publicación científica y técnica construido sobre Pandoc que unifica R Markdown, Jupyter, y Observable, permitiendo publicación multi-formato desde un único source (Allaire et al., 2022).

7. Análisis comparativo

7.1 Criterios de evaluación

Los lenguajes de marcas pueden evaluarse según múltiples dimensiones (DeRose et al., 1990; Renear, 2004):

Criterio	LaTeX	XML/JATS	Markdown	HTML5
Legibilidad humana	Media	Baja	Alta	Media
Expresividad semántica	Media	Muy Alta	Baja	Media-Alta
Curva de aprendizaje	Alta	Alta	Muy Baja	Media
Control tipográfico	Muy Alto	Bajo (delegado)	Muy Bajo	Medio
Interoperabilidad	Media	Muy Alta	Media	Alta
Longevidad	Alta	Muy Alta	Media	Alta
Extensibilidad	Alta	Muy Alta	Baja	Alta
Validación formal	No	Sí (Schema)	No	Sí (limitada)
Reutilización	Media	Muy Alta	Baja	Alta
Procesamiento	Específico	Universal	Variable	Universal

7.2 Casos de uso óptimos

LaTeX:

Publicación matemática compleja
Control tipográfico preciso
Comunidad establecida (física, matemática, CS)
Limitación: No separa semántica de presentación

XML/JATS:

Preservación a largo plazo
Publicación multi-formato desde single source
Indexación y recuperación avanzada
Intercambio entre sistemas
Limitación: Autoría directa poco práctica

Markdown:

Autoría rápida de contenido simple
Documentación técnica
Comunicación web
Blogs y sitios estáticos
Limitación: Estructuras complejas problemáticas

HTML5 semántico:

Publicación web nativa
Aplicaciones interactivas
Integración con JavaScript
Datos estructurados para SEO
Limitación: No ideal para preservación a largo plazo

7.3 Patrón emergente: cadenas de transformación

El patrón más exitoso en publicación académica contemporánea utiliza:

Formato de autoría ligero (Markdown/LaTeX con YAML metadata)
Transformación a XML canónico (JATS/TEI)
Procesamiento con XSLT/XQuery
Generación de múltiples outputs (HTML, PDF, EPUB, XML)

Este enfoque equilibra autoría accesible con procesamiento riguroso (Rahtz & Rouquette, 2013; MacFarlane, 2014).

8. Conclusiones y perspectivas futuras

8.1 Lecciones históricas

La evolución de los lenguajes de marcas demuestra varios principios duraderos:

La separación contenido/presentación es fundamental para longevidad y reutilización (Coombs et al., 1987)
El marcado descriptivo supera al procedimental para preservación a largo plazo (Renear, 2004)
La simplicidad favorece la adopción pero sacrifica expresividad (Gruber, 2004)
Los estándares abiertos superan a las soluciones propietarias (Bray et al., 2008)

8.2 Tensiones persistentes

Ciertas tensiones fundamentales permanecen irresueltas (Renear & Wickett, 2010):

Autoría vs. procesamiento: Formatos fáciles de escribir vs. fáciles de procesar
Simplicidad vs. poder expresivo: Curva de aprendizaje vs. capacidades
Flexibilidad vs. validación: Libertad creativa vs. consistencia estructural
Legibilidad vs. precisión: Comprensibilidad humana vs. semántica explícita

8.3 Direcciones futuras

Varias tendencias emergentes moldearán el futuro:

Inteligencia Artificial y LLMs:

La capacidad de modelos de lenguaje grandes para entender y generar marcado estructurado podría reducir la fricción entre formatos ligeros y estructuras ricas. LLMs pueden potencialmente:

Convertir prosa natural a XML estructurado con validación semántica
Enriquecer Markdown simple con metadata académica compleja
Validar y corregir marcado inconsistente

Publicación reproducible:

La integración de código, datos, y narrativa (Jupyter, R Markdown, Quarto) está redefiniendo la publicación científica (Kluyver et al., 2016; Xie et al., 2018). El marcado debe evolucionar para representar:

Proveniencia de datos y resultados
Dependencias computacionales
Versiones de software y entornos

Web semántica madura:

La adopción gradual de Schema.org, JSON-LD y knowledge graphs sugiere convergencia hacia datos más estructurados en la web (Guha et al., 2016). HTML semántico se volverá más expresivo.

Preservación digital:

La necesidad de preservar contenido digital a muy largo plazo (siglos) favorecerá XML y formatos con semántica explícita sobre formatos orientados a presentación (Renear, 2004).

8.4 Reflexión final

Los lenguajes de marcas representan una solución técnica a problemas fundamentalmente humanos: cómo comunicar no solo información, sino metainformación sobre esa información; cómo preservar conocimiento en formas procesables por máquinas sin sacrificar legibilidad humana; cómo equilibrar simplicidad de autoría con riqueza semántica.

No existe un mejor lenguaje de marcas universal. La elección óptima depende del contexto, prioridades, y restricciones de cada caso (DeRose et al., 1990). El éxito futuro probablemente residirá en ecosistemas híbridos que permitan autoría accesible mientras mantienen riqueza estructural mediante transformaciones automatizadas validadas.

La historia de los lenguajes de marcas es, en última instancia, la historia de intentos sucesivos de formalizar y hacer explícito el conocimiento implícito que los humanos tienen sobre la estructura, función y significado de la información textual.

Referencias

Allaire, J., et al. (2022). Quarto: An open-source scientific and technical publishing system. Posit. https://quarto.org

Beck, J. (2011). NISO Z39.96 The Journal Article Tag Suite (JATS): What happened to the NLM DTDs? The Serials Librarian, 60(1-4), 40-47.

Berners-Lee, T. (1991). HTML Tags. CERN. http://www.w3.org/History/19921103-hypertext/hypertext/WWW/MarkUp/Tags.html

Bray, T., Hollander, D., Layman, A., Tobin, R., & Thompson, H. S. (2009). Namespaces in XML 1.0 (Third Edition). W3C Recommendation.

Bray, T., Paoli, J., Sperberg-McQueen, C. M., Maler, E., & Yergeau, F. (1998). Extensible Markup Language (XML) 1.0. W3C Recommendation.

Bray, T., Paoli, J., Sperberg-McQueen, C. M., Maler, E., & Yergeau, F. (2008). Extensible Markup Language (XML) 1.0 (Fifth Edition). W3C Recommendation.

Burnard, L., & Bauman, S. (2013). TEI P5: Guidelines for Electronic Text Encoding and Interchange. Text Encoding Initiative Consortium.

Coombs, J. H., Renear, A. H., & DeRose, S. J. (1987). Markup systems and the future of scholarly text processing. Communications of the ACM, 30(11), 933-947.

DeRose, S. J., Durand, D. G., Mylonas, E., & Renear, A. H. (1990). What is text, really? Journal of Computing in Higher Education, 1(2), 3-26.

Fallside, D. C., & Walmsley, P. (2004). XML Schema Part 0: Primer (Second Edition). W3C Recommendation.

Goldfarb, C. F. (1981). A generalized approach to document markup. ACM SIGPLAN Notices, 16(6), 68-73.

Goldfarb, C. F. (1990). The SGML Handbook. Oxford University Press.

Goldfarb, C. F. (1996). The roots of SGML: A personal recollection. The SGML Newsletter.

Gruber, J. (2004). Markdown. Daring Fireball. https://daringfireball.net/projects/markdown/

Gruber, J. (2013). AsciiDoc Writer’s Guide. AsciiDoc Project.

Guha, R. V., Brickley, D., & Macbeth, S. (2016). Schema.org: Evolution of structured data on the web. Communications of the ACM, 59(2), 44-51.

Harold, E. R., & Means, W. S. (2004). XML in a Nutshell (3rd ed.). O’Reilly Media.

Hickson, I., et al. (2014). HTML5: A vocabulary and associated APIs for HTML and XHTML. W3C Recommendation.

Kay, M. (2008). XSLT 2.0 and XPath 2.0 Programmer’s Reference (4th ed.). Wrox Press.

Kluyver, T., et al. (2016). Jupyter Notebooks – a publishing format for reproducible computational workflows. In Positioning and Power in Academic Publishing: Players, Agents and Agendas (pp. 87-90). IOS Press.

Knuth, D. E. (1984). The TeXbook. Addison-Wesley.

MacFarlane, J. (2006-2024). Pandoc: A universal document converter. https://pandoc.org

MacFarlane, J. (2014). Beyond Markdown. The Haskell Symposium, 1-10.

MacFarlane, J., et al. (2019). CommonMark Spec (Version 0.29). https://commonmark.org

NISO (National Information Standards Organization). (2012). JATS: Journal Article Tag Suite (ANSI/NISO Z39.96-2012).

Pemberton, S., et al. (2002). XHTML 1.0 The Extensible HyperText Markup Language (Second Edition). W3C Recommendation.

Raggett, D. (1998). HTML 3.2 Reference Specification. W3C Recommendation.

Rahtz, S., & Rouquette, N. (2013). Single-source publishing with TEI and LaTeX. Journal of the Text Encoding Initiative, 6.

Renear, A. H. (2004). Text encoding. In S. Schreibman, R. Siemens, & J. Unsworth (Eds.), A Companion to Digital Humanities (pp. 218-239). Blackwell.

Renear, A. H., & Wickett, K. M. (2010). There are no documents. In Proceedings of Balisage: The Markup Conference 2010 (Balisage Series on Markup Technologies, Vol. 5).

Robie, J., et al. (2014). XQuery 3.0: An XML Query Language. W3C Recommendation.

Thompson, H. S., & McKelvie, D. (1997). Hyperlink semantics for standoff markup of read-only documents. In Proceedings of SGML Europe (Vol. 97, pp. 227-229).

Walsh, N. (2010). DocBook 5: The Definitive Guide. O’Reilly Media.

Xie, Y., Allaire, J. J., & Grolemund, G. (2018). R Markdown: The Definitive Guide. Chapman and Hall/CRC.