4. Typy strukturování dokumentů

Kritéria pro volbu typu struktury

Při posuzování vhodnosti určitého typu struktury jsou uplatňována především kritéria sémantiky (které vztahy je struktura schopná vyjádřit), flexibility struktury (tj. přizpůsobivost změnám) a případů užití a) při organizaci informačních zdrojů (makro-struktury kolekcí dokumentů) a b) při strukturování dokumentů (mikro-struktury jednotlivých zdrojů).

Nejčastěji se berou v úvahu tato kritéria:

  • Funkce dokumentu
  • Účel obsahu dokumentu
  • Typ obsažených informací (text, grafika, audio, video, multimédia...)
  • Způsob užití / prezentace dokumentu
  • Možnost editace
  • Možnost vyhledávání / přístupu
  • Obtížnost (pracnost) tvorby dokumentu
  • Nároky na zdroje, cena vybavení
  • Uživatelé dokumentu

Možné způsoby strukturování elektronických dokumentů

  • „nestrukturované“
    např. image (obraz digitalizovaného dokumentu), tzv. binární formáty aj.
  • strukturované
    celý dokument je rozdělen na označené části (elementy)
  • hybridní (semistrukturované)
    např. strukturované záhlaví, nestrukturované tělo v emailu
Typy strukturování
a) obsahové - formální

Explicitně a pro počítačový program srozumitelně vyjádřená informace o elementech

  • obsahu (logická struktura)
  • formy (vzhled, formát, styl, layout)

styl (angl. style)
pojmenovaná množina formátovacích instrukcí umožňující uživateli uplatnit na text více atributů současně a standardizovat rozvržení dokumentu použitím týchž formátovacích charakteristik na různé části textu

style sheet (formátovací sada, příloha stylu, šablona stylu, tabulka stylu)
souhrn stylů uložený v souboru; určuje úpravu dokumentů, k nimž je připojen

Problém: Mnohdy se obtížně rozlišuje, co je obsah a co forma (např. Název)

forma      obsah

Obr. 7 Struktura formy a struktura obsahu

b) homogenní - nehomogenní
Homogenní
tzv. strukturované, příp. pevně strukturované dokumenty
Nehomogenní
tzv. nestrukturované dokumenty
software DBMS (systém řízení báze dat) textové editory
informace o struktuře obsahuje schéma (datový model + datový slovník) definice typu dokumentu
způsob prezentace určují formuláře styly
obsah záznamy instance
název souborů takto strukturovaných dokumentů databáze textové databáze, kolekce
Příklad: homogenní struktura v relační databázi nehomogenní struktura v HTML dokumentu

c) editovatelné - needitovatelné

uživatel má / nemá k dispozici nástroje pro editaci dokumentu

d) procedurální - neprocedurální (deklarativní, deskriptivní)

určuje, co se má s dokumentem (elementem) dělat / co dokument (element) je

e) dle datové struktury: lineární - stromová (hierarchická) - síťová - relační
f) proprietární - otevřené

závislé / nezávislé na použitém hardwaru a softwaru


Nejčastěji používané nástroje pro elektronické publikování a typ strukturování, který umožňují:
typ formátu
/
typ strukturování
textové
editory
jazyky
pro popis stránky
databázové
programy
značkovací
jazyky
obsahové   x x
formální x x x x
homogenní     x  
nehomogenní x x   x
editovatelné x   x x
proprietární x x x  
otevřené   x
procedurální x x x  
neprocedurální   x x
lineární x x    
hierarchická     x x
síťová       x
relační     x