Struktury informačních zdrojů: studijní opora
4. Typy strukturování dokumentů
Kritéria pro volbu typu struktury
Při posuzování vhodnosti určitého typu struktury jsou uplatňována především kritéria sémantiky (které vztahy je struktura schopná vyjádřit), flexibility struktury (tj. přizpůsobivost změnám) a případů užití a) při organizaci informačních zdrojů (makro-struktury kolekcí dokumentů) a b) při strukturování dokumentů (mikro-struktury jednotlivých zdrojů).
Nejčastěji se berou v úvahu tato kritéria:
- Funkce dokumentu
- Účel obsahu dokumentu
- Typ obsažených informací (text, grafika, audio, video, multimédia...)
- Způsob užití / prezentace dokumentu
- Možnost editace
- Možnost vyhledávání / přístupu
- Obtížnost (pracnost) tvorby dokumentu
- Nároky na zdroje, cena vybavení
- Uživatelé dokumentu
Možné způsoby strukturování elektronických dokumentů
- „nestrukturované“
např. image (obraz digitalizovaného dokumentu), tzv. binární formáty aj. - strukturované
celý dokument je rozdělen na označené části (elementy) - hybridní (semistrukturované)
např. strukturované záhlaví, nestrukturované tělo v emailu
Typy strukturování
a) obsahové - formální
Explicitně a pro počítačový program srozumitelně vyjádřená informace o elementech
- obsahu (logická struktura)
- formy (vzhled, formát, styl, layout)
styl (angl. style)
pojmenovaná množina formátovacích instrukcí umožňující uživateli uplatnit na text více atributů současně a standardizovat rozvržení dokumentu použitím týchž formátovacích charakteristik na různé části textu
style sheet (formátovací sada, příloha stylu, šablona stylu, tabulka stylu)
souhrn stylů uložený v souboru; určuje úpravu dokumentů, k nimž je připojen
Problém: Mnohdy se obtížně rozlišuje, co je obsah a co forma (např. Název)
Obr. 7 Struktura formy a struktura obsahu
b) homogenní - nehomogenní
Homogenní tzv. strukturované, příp. pevně strukturované dokumenty |
Nehomogenní tzv. nestrukturované dokumenty |
|
software | DBMS (systém řízení báze dat) | textové editory |
informace o struktuře obsahuje | schéma (datový model + datový slovník) | definice typu dokumentu |
způsob prezentace určují | formuláře | styly |
obsah | záznamy | instance |
název souborů takto strukturovaných dokumentů | databáze | textové databáze, kolekce |
Příklad: | homogenní struktura v relační databázi | nehomogenní struktura v HTML dokumentu |
c) editovatelné - needitovatelné
uživatel má / nemá k dispozici nástroje pro editaci dokumentu
d) procedurální - neprocedurální (deklarativní, deskriptivní)
určuje, co se má s dokumentem (elementem) dělat / co dokument (element) je
e) dle datové struktury: lineární - stromová (hierarchická) - síťová - relační
Nejčastěji používané nástroje pro elektronické publikování a typ strukturování, který umožňují:
typ formátu / typ strukturování |
textové editory |
jazyky pro popis stránky |
databázové programy |
značkovací jazyky |
obsahové | x | x | ||
formální | x | x | x | x |
homogenní | x | |||
nehomogenní | x | x | x | |
editovatelné | x | x | x | |
proprietární | x | x | x | |
otevřené | x | |||
procedurální | x | x | x | |
neprocedurální | x | x | ||
lineární | x | x | ||
hierarchická | x | x | ||
síťová | x | |||
relační | x |