Struktury informačních zdrojů: studijní opora
1. Úvod
Za informační zdroje pro účely tohoto textu považujeme dokumenty, záznamy, data i metadata včetně jejich kolekcí (agregáty, databáze, datové sady). Takto široce vymezené zdroje zahrnují tedy jakékoli informační objekty, zprávy, aplikace a služby.
Kdy považujeme informační zdroj za strukturovaný?
Obsahuje-li alespoň jeden element (tj. formální nebo obsahový strukturní prvek menší než celý dokument a větší než základní konstrukční prvek – písmeno, znak, pixel...), rozpoznatelný člověkem i počítačovým programem.
a) | b) |
Obr. 1 Dokumenty "bez struktury": a) struktura nerozpoznatelná člověkem, b) struktura nerozpoznatelná počítačem
Tip:
Přečtěte si vysvětlení Billa Inmona, jakému typu struktur "rozumí" počítače, na https://www.linkedin.com/pulse/text-really-unstructured-bill-inmon/.
Význam znalostí o struktuře zdrojů v informační praxi:
- Volba strukturování dokumentu bezprostředně ovlivňuje efektivnost operací/interakcí s ním (srovnáváme cenu/výkon).[1]
- Přesná pravidla pro strukturování dokumentů potřebujeme z důvodu jejich počítačového zpracování, často i generování.
Informační procesy vyžadující znalost struktury informačního zdroje
- Publikování
Základní současné technologie publikování informací: - tisk na papír (knihy, časopisy) - uzavřená vývojová etapa
- přenos energií (vysílání)
- elektronické (digitální) dokumenty - perspektivní, stále ve vývoji
- Zpracování
- zdroje, které získáme, musíme umět dále zpracovat (např. vytisknout, sloučit s jiným dokumentem...)
- popisování a odkazování - popis a odkaz "připojujeme" k rozpoznané strukturní části zdroje
- Vyhledávání
- při znalosti struktury zdroje můžeme při vyhledávání zamířit přímo do určitých informačně významných částí (např. obsah, název, anotace)
- zdroje se třídí podle obsahu příslušných strukturních prvků (např. název)
- význam znakových sad pro vyhledávání informací: podle pořadí ve znakové sadě (kódové tabulce) se postupuje při třídění (tj. ovlivňuje složení indexů), kódování znaků je rozhodující pro výsledek jejich porovnávání při vyhledávání (string matching)
Cíl: Najít obecnou / otevřenou strukturu (formát, architekturu)
- použitelnou pro co největší počet typů zdrojů (heterogenita)
- nezávislou na platformě, tj. na použitém hardwaru a softwaru
- umožňující distribuovat informační zdroje
- srozumitelnou lidem i počítačovým programům
[1] Viz např. TKAČÍKOVÁ, Daniela. Kvalitní dokument jako základ účinného vyhledávání informací. In: Informace na dlani [online]. Praha: Albertina icome Praha, ©2004. ISSN 1214-1429. Dostupné z: https://www.inforum.cz/pdf/2004/Tkacikova_Daniela.pdf.