Los lenguajes de marcas (markup languages) constituyen una categoría fundamental de sistemas formales diseñados para anotar, estructurar y describir información textual mediante etiquetas o marcadores que distinguen el contenido de su presentación o estructura (Coombs, Renear & DeRose, 1987). Su desarrollo ha sido crucial para la revolución digital de la información, particularmente en contextos editoriales, académicos y web.
1. Orígenes y motivación histórica
1.1 Contexto Pre-Digital
Los lenguajes de marcas tienen sus raíces conceptuales en las prácticas editoriales tradicionales, donde los editores utilizaban anotaciones manuscritas para indicar formato tipográfico, estructura y otros aspectos de producción (Goldfarb, 1996). Estas “marcas” manuscritas sobre los manuscritos representaban metainformación sobre el texto, separando conceptualmente el contenido de su presentación física.
1.2 Nacimiento de GML (Generalized Markup Language)
El primer lenguaje de marcas formal nació en IBM durante la década de 1960. Charles Goldfarb, Edward Mosher y Raymond Lorie desarrollaron GML (Generalized Markup Language) en 1969 para resolver problemas de intercambio de documentos entre diferentes sistemas de composición tipográfica (Goldfarb, 1981). GML introdujo tres conceptos revolucionarios:
- Separación de contenido y presentación: Las etiquetas describían qué era algo, no cómo debía verse
- Marcas descriptivas: Tags que identificaban la función estructural de los elementos
- Independencia de plataforma: Documentos portables entre diferentes sistemas
1.3 De GML a SGML
La experiencia con GML condujo al desarrollo de SGML (Standard Generalized Markup Language), estandarizado por ISO en 1986 como ISO 8879 (Goldfarb, 1990). SGML fue diseñado como un metalenguaje para definir lenguajes de marcas específicos mediante Document Type Definitions (DTD), estableciendo principios que influirían en toda la familia posterior de lenguajes de marcas.
2. Taxonomía de lenguajes de marcas
Coombs et al. (1987) propusieron una clasificación tripartita fundamental que sigue siendo relevante:
2.1 Marcas procedimentales (Procedural Markup)
Especifican operaciones de procesamiento que deben ejecutarse sobre el texto. Ejemplos históricos incluyen troff, TeX y LaTeX (Knuth, 1984). Estos lenguajes indican “cómo hacer” algo con el contenido:
\textbf{Este texto está en negrita}
\begin{itemize}
\item Primer elemento
\end{itemize}
Ventajas: Control preciso sobre la presentación, potencia expresiva para tipografía compleja.
Limitaciones: Mezclan contenido y presentación, dificultan la reutilización del contenido en contextos diferentes, procesamiento dependiente de un sistema específico (DeRose et al., 1990).
2.2 Marcas descriptivas (Descriptive/Semantic Markup)
Describen la función estructural o semántica de los elementos sin prescribir su presentación. SGML, XML y HTML5 semántico son ejemplos principales (Bray et al., 2008):
<article>
<title>Título del artículo</title>
<abstract>Resumen del contenido</abstract>
<section>
<heading>Introducción</heading>
<para>Contenido del párrafo...</para>
</section>
</article>
Ventajas: Separación clara de contenido y presentación, facilita múltiples representaciones del mismo contenido, mejora la accesibilidad y búsqueda, longevidad de los documentos (Renear, 2004).
2.3 Marcas referenciales (Referential Markup)
Asocian fragmentos de texto con información externa sin modificar el contenido original. Stand-off markup y anotaciones lingüísticas son ejemplos (Thompson & McKelvie, 1997). Este enfoque es fundamental en humanidades digitales y análisis de corpus.
3. La Revolución XML
3.1 Simplificación de SGML
XML (eXtensible Markup Language) surgió en 1996-1998 como una simplificación de SGML orientada a la web (Bray et al., 1998). El W3C publicó XML 1.0 como recomendación en febrero de 1998, buscando mantener la potencia de SGML eliminando características complejas raramente utilizadas.
Principios de diseño de XML (Bray et al., 1998):
- Debe ser directamente utilizable en Internet
- Debe soportar amplia variedad de aplicaciones
- Debe ser compatible con SGML
- Debe ser fácil escribir programas que procesen XML
- El número de características opcionales debe ser mínimo, idealmente cero
- Los documentos deben ser legibles por humanos
- El diseño debe prepararse rápidamente
- El diseño debe ser formal y conciso
- Los documentos XML deben ser fáciles de crear
- La concisión en las marcas es de importancia mínima
3.2 Ecosistema XML
XML generó un ecosistema completo de tecnologías asociadas (Harold & Means, 2004):
- XML Schema (XSD): Sistema de tipos más potente que DTD (Fallside & Walmsley, 2004)
- XSLT: Transformación de documentos XML (Kay, 2008)
- XPath/XQuery: Lenguajes de consulta para XML (Robie et al., 2014)
- Namespaces: Mecanismo para evitar conflictos de nombres (Bray et al., 2009)
- XML Base, XInclude, XLink: Mecanismos de modularización y enlaces
3.3 Lenguajes específicos basados en XML
XML sirvió como fundamento para numerosos lenguajes específicos de dominio:
Publicación académica:
- JATS (Journal Article Tag Suite): Estándar para artículos científicos (NISO, 2012)
- BITS (Book Interchange Tag Suite): Para libros académicos
- TEI (Text Encoding Initiative): Humanidades digitales (Burnard & Bauman, 2013)
Tecnología web:
- SVG (Scalable Vector Graphics): Gráficos vectoriales
- MathML: Notación matemática
- XHTML: HTML reformulado como XML
Negocios y datos:
- DocBook: Documentación técnica (Walsh, 2010)
- OpenDocument: Formato de documentos de oficina
- DITA: Documentación técnica modular
4. Markdown y lenguajes ligeros
4.1 Reacción contra la complejidad
A mediados de los años 2000, surgió una reacción contra la verbosidad de XML. John Gruber y Aaron Swartz crearon Markdown en 2004 como un lenguaje de marcas ligero con sintaxis de texto plano legible (Gruber, 2004):
# Título Principal
Este es un párrafo con **negrita** y *cursiva*.
- Lista item 1
- Lista item 2
[Enlace](http://ejemplo.com)
4.2 Características de Markdown
Filosofía de diseño:
- Legibilidad: El texto sin procesar debe ser legible
- Simplicidad: Sintaxis minimalista para casos comunes
- Conversión: Fácil transformación a HTML y otros formatos
Limitaciones originales:
- Ausencia de especificación formal
- Ambigüedades sintácticas
- Funcionalidad limitada para casos complejos
4.3 Evolución y fragmentación
La ausencia de especificación formal condujo a múltiples implementaciones incompatibles (MacFarlane, 2014):
- CommonMark: Especificación formal para resolver ambigüedades (MacFarlane et al., 2019)
- GitHub Flavored Markdown (GFM): Extensiones para tablas, listas de tareas
- Pandoc Markdown: Extensiones académicas (MacFarlane, 2006-presente)
- R Markdown: Integración con análisis estadístico (Xie et al., 2018)
- AsciiDoc: Alternativa más estructurada (Gruber, 2013)
4.4 Limitaciones estructurales
Markdown enfrenta desafíos fundamentales para uso académico riguroso (MacFarlane, 2014):
- Semántica limitada: Incapacidad para expresar estructuras complejas
- Metadatos insuficientes: Sin mecanismos estándar para metadata académica
- Ambigüedad sintáctica: Interpretaciones inconsistentes entre implementaciones
- Extensibilidad problemática: Las extensiones rompen compatibilidad
5. HTML: evolución desde presentación hacia semántica
5.1 HTML temprano (1991-1999)
HTML comenzó como una aplicación SGML simple creada por Tim Berners-Lee en 1991 (Berners-Lee, 1991). HTML 1.0-3.2 mezclaban estructura y presentación con tags como <font>, <center>, <b> (Raggett, 1998).
5.2 Transición XHTML (2000-2009)
XHTML 1.0 (2000) reformuló HTML como aplicación XML, imponiendo sintaxis estricta y separación de contenido/presentación mediante CSS (Pemberton et al., 2002). XHTML 2.0 fue abandonado por ser demasiado radical.
5.3 HTML5: ppragmatismo semántico
HTML5 (finalizado en 2014, actualizado continuamente) representa un punto medio pragmático (Hickson et al., 2014):
Nuevos elementos semánticos:
<article>
<header>
<h1>Título del artículo</h1>
<time datetime="2025-02-05">5 de febrero, 2025</time>
</header>
<section>
<h2>Introducción</h2>
<p>Contenido...</p>
</section>
<aside>Información complementaria</aside>
<footer>Pie del artículo</footer>
</article>
Características clave:
- Elementos estructurales semánticos (
<article>,<section>,<nav>,<aside>) - Microdata y soporte para RDF (Resource Description Framework)
- APIs JavaScript integradas
- Compatibilidad hacia atrás con HTML tradicional
6. Estado del Arte contemporáneo
6.1 Convergencia de paradigmas
El estado actual muestra convergencia entre diferentes enfoques (Renear & Wickett, 2010):
Cadenas de transformación híbridas:
Markdown/LaTeX → XML canónico → XSLT → HTML/PDF/EPUB
Este patrón, llamado “Single Source Publishing”, utiliza formas ligeras para autoría y XML para procesamiento estructurado (Rahtz & Rouquette, 2013).
6.2 Web semántica y datos estructurados
HTML5 integra mecanismos para datos estructurados que coexisten con contenido legible:
- Schema.org: Vocabulario compartido para markup semántico (Guha et al., 2016)
- JSON-LD: Datos enlazados en JavaScript Object Notation
- RDFa: RDF en atributos HTML
Ejemplo de Schema.org para artículo académico:
<article itemscope itemtype="https://schema.org/ScholarlyArticle">
<h1 itemprop="headline">Lenguajes de Marcas</h1>
<span itemprop="author" itemscope itemtype="https://schema.org/Person">
<span itemprop="name">John Doe</span>
</span>
<time itemprop="datePublished" datetime="2025-02-05">2025-02-05</time>
</article>
6.3 Publicación académica digital
JATS se ha consolidado como estándar de facto para publicación académica, adoptado por PubMed Central, SciELO, DOAJ y otros (NISO, 2012; Beck, 2011). JATS define tres tag sets:
- Article Authoring: Para envío de manuscritos
- Journal Publishing: Para publicación final
- Article Interchange: Para intercambio entre sistemas
JATS permite expresar estructuras académicas complejas con semántica precisa:
<article dtd-version="1.3" article-type="research-article">
<front>
<article-meta>
<title-group>
<article-title>Título del artículo</article-title>
</title-group>
<contrib-group>
<contrib contrib-type="author">
<name><surname>Doe</surname><given-names>John</given-names></name>
<orcid>0000-0001-2345-6789</orcid>
</contrib>
</contrib-group>
<abstract><p>Resumen del contenido...</p></abstract>
</article-meta>
</front>
<body>...</body>
<back>
<ref-list>...</ref-list>
</back>
</article>
6.4 Tensiones actuales
El campo actual exhibe tensiones productivas entre objetivos incompatibles (Renear, 2004):
Autoría vs. Procesamiento:
- Autores prefieren formatos ligeros (Markdown, LaTeX)
- Procesamiento riguroso requiere estructura explícita (XML, JATS)
- Solución: Cadenas de transformación con validación
Simplicidad vs. Expresividad:
- Markdown es simple pero limitado semánticamente
- XML/JATS son expresivos pero verbosos
- Compromiso: Extensiones controladas de Markdown (Pandoc, R Markdown)
Legibilidad humana vs. procesabilidad automática:
- Formatos legibles sacrifican precisión estructural
- XML optimiza procesamiento a costa de legibilidad
- Híbridos: YAML frontmatter + Markdown body
6.5 Desarrollos recientes
Asciidoctor y AsciiDoc: Evolución de AsciiDoc con sintaxis más consistente que Markdown, herramientas más robustas, y mejor soporte para publicación técnica compleja (Gruber, 2013; Dan Allen et al., 2024).
Pandoc como estándar de facto: La herramienta de conversión universal de John MacFarlane se ha convertido en infraestructura crítica para publicación académica, soportando más de 40 formatos y permitiendo cadenas complejas de transformación (MacFarlane, 2006-2024).
Jupyter Notebooks: Formato JSON que combina código ejecutable, texto narrativo en Markdown, y visualizaciones, revolucionando la publicación científica reproducible (Kluyver et al., 2016).
Quarto: Sistema de publicación científica y técnica construido sobre Pandoc que unifica R Markdown, Jupyter, y Observable, permitiendo publicación multi-formato desde un único source (Allaire et al., 2022).
7. Análisis comparativo
7.1 Criterios de evaluación
Los lenguajes de marcas pueden evaluarse según múltiples dimensiones (DeRose et al., 1990; Renear, 2004):
| Criterio | LaTeX | XML/JATS | Markdown | HTML5 |
|---|---|---|---|---|
| Legibilidad humana | Media | Baja | Alta | Media |
| Expresividad semántica | Media | Muy Alta | Baja | Media-Alta |
| Curva de aprendizaje | Alta | Alta | Muy Baja | Media |
| Control tipográfico | Muy Alto | Bajo (delegado) | Muy Bajo | Medio |
| Interoperabilidad | Media | Muy Alta | Media | Alta |
| Longevidad | Alta | Muy Alta | Media | Alta |
| Extensibilidad | Alta | Muy Alta | Baja | Alta |
| Validación formal | No | Sí (Schema) | No | Sí (limitada) |
| Reutilización | Media | Muy Alta | Baja | Alta |
| Procesamiento | Específico | Universal | Variable | Universal |
7.2 Casos de uso óptimos
LaTeX:
- Publicación matemática compleja
- Control tipográfico preciso
- Comunidad establecida (física, matemática, CS)
- Limitación: No separa semántica de presentación
XML/JATS:
- Preservación a largo plazo
- Publicación multi-formato desde single source
- Indexación y recuperación avanzada
- Intercambio entre sistemas
- Limitación: Autoría directa poco práctica
Markdown:
- Autoría rápida de contenido simple
- Documentación técnica
- Comunicación web
- Blogs y sitios estáticos
- Limitación: Estructuras complejas problemáticas
HTML5 semántico:
- Publicación web nativa
- Aplicaciones interactivas
- Integración con JavaScript
- Datos estructurados para SEO
- Limitación: No ideal para preservación a largo plazo
7.3 Patrón emergente: cadenas de transformación
El patrón más exitoso en publicación académica contemporánea utiliza:
- Formato de autoría ligero (Markdown/LaTeX con YAML metadata)
- Transformación a XML canónico (JATS/TEI)
- Procesamiento con XSLT/XQuery
- Generación de múltiples outputs (HTML, PDF, EPUB, XML)
Este enfoque equilibra autoría accesible con procesamiento riguroso (Rahtz & Rouquette, 2013; MacFarlane, 2014).
8. Conclusiones y perspectivas futuras
8.1 Lecciones históricas
La evolución de los lenguajes de marcas demuestra varios principios duraderos:
- La separación contenido/presentación es fundamental para longevidad y reutilización (Coombs et al., 1987)
- El marcado descriptivo supera al procedimental para preservación a largo plazo (Renear, 2004)
- La simplicidad favorece la adopción pero sacrifica expresividad (Gruber, 2004)
- Los estándares abiertos superan a las soluciones propietarias (Bray et al., 2008)
8.2 Tensiones persistentes
Ciertas tensiones fundamentales permanecen irresueltas (Renear & Wickett, 2010):
- Autoría vs. procesamiento: Formatos fáciles de escribir vs. fáciles de procesar
- Simplicidad vs. poder expresivo: Curva de aprendizaje vs. capacidades
- Flexibilidad vs. validación: Libertad creativa vs. consistencia estructural
- Legibilidad vs. precisión: Comprensibilidad humana vs. semántica explícita
8.3 Direcciones futuras
Varias tendencias emergentes moldearán el futuro:
Inteligencia Artificial y LLMs:
La capacidad de modelos de lenguaje grandes para entender y generar marcado estructurado podría reducir la fricción entre formatos ligeros y estructuras ricas. LLMs pueden potencialmente:
- Convertir prosa natural a XML estructurado con validación semántica
- Enriquecer Markdown simple con metadata académica compleja
- Validar y corregir marcado inconsistente
Publicación reproducible:
La integración de código, datos, y narrativa (Jupyter, R Markdown, Quarto) está redefiniendo la publicación científica (Kluyver et al., 2016; Xie et al., 2018). El marcado debe evolucionar para representar:
- Proveniencia de datos y resultados
- Dependencias computacionales
- Versiones de software y entornos
Web semántica madura:
La adopción gradual de Schema.org, JSON-LD y knowledge graphs sugiere convergencia hacia datos más estructurados en la web (Guha et al., 2016). HTML semántico se volverá más expresivo.
Preservación digital:
La necesidad de preservar contenido digital a muy largo plazo (siglos) favorecerá XML y formatos con semántica explícita sobre formatos orientados a presentación (Renear, 2004).
8.4 Reflexión final
Los lenguajes de marcas representan una solución técnica a problemas fundamentalmente humanos: cómo comunicar no solo información, sino metainformación sobre esa información; cómo preservar conocimiento en formas procesables por máquinas sin sacrificar legibilidad humana; cómo equilibrar simplicidad de autoría con riqueza semántica.
No existe un mejor lenguaje de marcas universal. La elección óptima depende del contexto, prioridades, y restricciones de cada caso (DeRose et al., 1990). El éxito futuro probablemente residirá en ecosistemas híbridos que permitan autoría accesible mientras mantienen riqueza estructural mediante transformaciones automatizadas validadas.
La historia de los lenguajes de marcas es, en última instancia, la historia de intentos sucesivos de formalizar y hacer explícito el conocimiento implícito que los humanos tienen sobre la estructura, función y significado de la información textual.
Referencias
Allaire, J., et al. (2022). Quarto: An open-source scientific and technical publishing system. Posit. https://quarto.org
Beck, J. (2011). NISO Z39.96 The Journal Article Tag Suite (JATS): What happened to the NLM DTDs? The Serials Librarian, 60(1-4), 40-47.
Berners-Lee, T. (1991). HTML Tags. CERN. http://www.w3.org/History/19921103-hypertext/hypertext/WWW/MarkUp/Tags.html
Bray, T., Hollander, D., Layman, A., Tobin, R., & Thompson, H. S. (2009). Namespaces in XML 1.0 (Third Edition). W3C Recommendation.
Bray, T., Paoli, J., Sperberg-McQueen, C. M., Maler, E., & Yergeau, F. (1998). Extensible Markup Language (XML) 1.0. W3C Recommendation.
Bray, T., Paoli, J., Sperberg-McQueen, C. M., Maler, E., & Yergeau, F. (2008). Extensible Markup Language (XML) 1.0 (Fifth Edition). W3C Recommendation.
Burnard, L., & Bauman, S. (2013). TEI P5: Guidelines for Electronic Text Encoding and Interchange. Text Encoding Initiative Consortium.
Coombs, J. H., Renear, A. H., & DeRose, S. J. (1987). Markup systems and the future of scholarly text processing. Communications of the ACM, 30(11), 933-947.
DeRose, S. J., Durand, D. G., Mylonas, E., & Renear, A. H. (1990). What is text, really? Journal of Computing in Higher Education, 1(2), 3-26.
Fallside, D. C., & Walmsley, P. (2004). XML Schema Part 0: Primer (Second Edition). W3C Recommendation.
Goldfarb, C. F. (1981). A generalized approach to document markup. ACM SIGPLAN Notices, 16(6), 68-73.
Goldfarb, C. F. (1990). The SGML Handbook. Oxford University Press.
Goldfarb, C. F. (1996). The roots of SGML: A personal recollection. The SGML Newsletter.
Gruber, J. (2004). Markdown. Daring Fireball. https://daringfireball.net/projects/markdown/
Gruber, J. (2013). AsciiDoc Writer’s Guide. AsciiDoc Project.
Guha, R. V., Brickley, D., & Macbeth, S. (2016). Schema.org: Evolution of structured data on the web. Communications of the ACM, 59(2), 44-51.
Harold, E. R., & Means, W. S. (2004). XML in a Nutshell (3rd ed.). O’Reilly Media.
Hickson, I., et al. (2014). HTML5: A vocabulary and associated APIs for HTML and XHTML. W3C Recommendation.
Kay, M. (2008). XSLT 2.0 and XPath 2.0 Programmer’s Reference (4th ed.). Wrox Press.
Kluyver, T., et al. (2016). Jupyter Notebooks – a publishing format for reproducible computational workflows. In Positioning and Power in Academic Publishing: Players, Agents and Agendas (pp. 87-90). IOS Press.
Knuth, D. E. (1984). The TeXbook. Addison-Wesley.
MacFarlane, J. (2006-2024). Pandoc: A universal document converter. https://pandoc.org
MacFarlane, J. (2014). Beyond Markdown. The Haskell Symposium, 1-10.
MacFarlane, J., et al. (2019). CommonMark Spec (Version 0.29). https://commonmark.org
NISO (National Information Standards Organization). (2012). JATS: Journal Article Tag Suite (ANSI/NISO Z39.96-2012).
Pemberton, S., et al. (2002). XHTML 1.0 The Extensible HyperText Markup Language (Second Edition). W3C Recommendation.
Raggett, D. (1998). HTML 3.2 Reference Specification. W3C Recommendation.
Rahtz, S., & Rouquette, N. (2013). Single-source publishing with TEI and LaTeX. Journal of the Text Encoding Initiative, 6.
Renear, A. H. (2004). Text encoding. In S. Schreibman, R. Siemens, & J. Unsworth (Eds.), A Companion to Digital Humanities (pp. 218-239). Blackwell.
Renear, A. H., & Wickett, K. M. (2010). There are no documents. In Proceedings of Balisage: The Markup Conference 2010 (Balisage Series on Markup Technologies, Vol. 5).
Robie, J., et al. (2014). XQuery 3.0: An XML Query Language. W3C Recommendation.
Thompson, H. S., & McKelvie, D. (1997). Hyperlink semantics for standoff markup of read-only documents. In Proceedings of SGML Europe (Vol. 97, pp. 227-229).
Walsh, N. (2010). DocBook 5: The Definitive Guide. O’Reilly Media.
Xie, Y., Allaire, J. J., & Grolemund, G. (2018). R Markdown: The Definitive Guide. Chapman and Hall/CRC.