Struktury informačních zdrojů: studijní opora

5. Stromová struktura otevřených dokumentů: standard SGML

Používaná terminologie

markup

označování, značkování, vyznačování
typ metadat: text, který je přidán k datům dokumentu, aby o nich poskytl informaci

tag

příznak: popisné vyznačení, značka
existují dva druhy příznaků - počáteční a koncový

parser

syntaktický analyzátor
program (procesor), který rozpoznává značky v dokumentech (např. SGML nebo HTML tagy)

typ dokumentu (document type)
třída dokumentů, které mají podobné charakteristiky, např. časopis, článek, technická příručka nebo dopis
typ prvku (element type)
třída prvků, které mají podobné vlastnosti, např. odstavec, kapitola, anotace, poznámka pod čarou nebo bibliografie
prvek - element
komponenta hierarchické struktury definovaná v definici typu dokumentu; v instanci dokumentu je identifikována popisným vyznačením, obvykle počátečním a koncovým tagem
validace
ověření shody vyznačeného dokumentu s příslušným modelem  struktury (schématem)
Definice typu dokumentu - DTD
  • Jedna ze dvou základních částí dokumentů strukturovaných podle standardu SGML, která popisuje strukturu obsahu dokumentu. Definuje všechny elementy dokumentu a jejich vzájemné vztahy. Obsah dokumentu je tak tvořen textovými informacemi oddělenými označením struktury, definovaným v DTD. DTD vznikne použitím SGML pro určitý typ dokumentu (= popis značek a jejich vzájemných možných vztahů).
  • DTD zahrnuje formální specifikaci (vyjádřenou v deklaraci typu dokumentu) typů prvků, vztahů mezi prvky a atributů a rovněž odkazů, které mohou být vyjádřeny vyznačením. Tím definuje slovník vyznačení, pro nějž SGML definuje syntaxi.

DTD definuje:

  • elementy - název, obsah, atributy elementů
    obsah elementu:
    elementy rozkládáme až na úroveň primitivních datových typů - obdoba datového typu v databázích (např. CDATA, PCDATA, EMPTY...)
  • pořadí elementů
  • nadřazenost - podřazenost elementů
  • povinnost výskytu elementů
  • možnost vícenásobného (opakovaného) výskytu elementů
  • povinnost - nepovinnost uvádění tagu
DTD

Ukázka:

Definice typu dokumentu pro HTML 4.01 Transitional http://www.w3.org/TR/REC-html40/loose.dtd