Struktury informačních zdrojů: studijní opora

4. Typy strukturování dokumentů

Kritéria pro volbu typu struktury

Při posuzování vhodnosti určitého typu struktury jsou uplatňována především kritéria sémantiky (které vztahy je struktura schopná vyjádřit), flexibility struktury (tj. přizpůsobivost změnám) a případů užití a) při organizaci informačních zdrojů (makro-struktury kolekcí dokumentů) a b) při strukturování dokumentů (mikro-struktury jednotlivých zdrojů).

Nejčastěji se berou v úvahu tato kritéria:

  • Funkce dokumentu
  • Účel obsahu dokumentu
  • Typ obsažených informací (text, grafika, audio, video, multimédia...)
  • Způsob užití / prezentace dokumentu
  • Možnost editace
  • Možnost vyhledávání / přístupu
  • Obtížnost (pracnost) tvorby dokumentu
  • Nároky na zdroje, cena vybavení
  • Uživatelé dokumentu

Možné způsoby strukturování elektronických dokumentů

  • „nestrukturované“
    např. image (obraz digitalizovaného dokumentu), tzv. binární formáty aj.
  • strukturované
    celý dokument je rozdělen na označené části (elementy)
  • hybridní (semistrukturované)
    např. strukturované záhlaví, nestrukturované tělo v emailu
Typy strukturování
a) obsahové - formální

Explicitně a pro počítačový program srozumitelně vyjádřená informace o elementech

  • obsahu (logická struktura)
  • formy (vzhled, formát, styl, layout)

styl (angl. style)
pojmenovaná množina formátovacích instrukcí umožňující uživateli uplatnit na text více atributů současně a standardizovat rozvržení dokumentu použitím týchž formátovacích charakteristik na různé části textu

style sheet (formátovací sada, příloha stylu, šablona stylu, tabulka stylu)
souhrn stylů uložený v souboru; určuje úpravu dokumentů, k nimž je připojen

Problém: Mnohdy se obtížně rozlišuje, co je obsah a co forma (např. Název)

forma      obsah

Obr. 7 Struktura formy a struktura obsahu

b) homogenní - nehomogenní
Homogenní
tzv. strukturované, příp. pevně strukturované dokumenty
Nehomogenní
tzv. nestrukturované dokumenty
software DBMS (systém řízení báze dat) textové editory
informace o struktuře obsahuje schéma (datový model + datový slovník) definice typu dokumentu
způsob prezentace určují formuláře styly
obsah záznamy instance
název souborů takto strukturovaných dokumentů databáze textové databáze, kolekce
Příklad: homogenní struktura v relační databázi nehomogenní struktura v HTML dokumentu

c) editovatelné - needitovatelné

uživatel má / nemá k dispozici nástroje pro editaci dokumentu

d) procedurální - neprocedurální (deklarativní, deskriptivní)

určuje, co se má s dokumentem (elementem) dělat / co dokument (element) je

e) dle datové struktury: lineární - stromová (hierarchická) - síťová - relační
f) proprietární - otevřené

závislé / nezávislé na použitém hardwaru a softwaru


Nejčastěji používané nástroje pro elektronické publikování a typ strukturování, který umožňují:
typ formátu
/
typ strukturování
textové
editory
jazyky
pro popis stránky
databázové
programy
značkovací
jazyky
obsahové   x x
formální x x x x
homogenní     x  
nehomogenní x x   x
editovatelné x   x x
proprietární x x x  
otevřené   x
procedurální x x x  
neprocedurální   x x
lineární x x    
hierarchická     x x
síťová       x
relační     x