Struktury informačních zdrojů: studijní opora

1. Úvod

Za informační zdroje pro účely tohoto textu považujeme dokumenty, záznamy, data i metadata včetně jejich kolekcí (agregáty, databáze, datové sady). Takto široce vymezené zdroje zahrnují tedy jakékoli informační objekty, zprávy, aplikace a služby.

Kdy považujeme informační zdroj za strukturovaný?

Obsahuje-li alespoň jeden element (tj. formální nebo obsahový strukturní prvek menší než celý dokument a větší než základní konstrukční prvek – písmeno, znak, pixel...), rozpoznatelný člověkem i počítačovým programem.

a)  bez struktury 1  b)  bez struktury 2

Obr. 1 Dokumenty "bez struktury": a) struktura nerozpoznatelná člověkem, b) struktura nerozpoznatelná počítačem

Tip:
Přečtěte si vysvětlení Billa Inmona, jakému typu struktur "rozumí" počítače, na https://www.linkedin.com/pulse/text-really-unstructured-bill-inmon/.

Význam znalostí o struktuře zdrojů v informační praxi:
  • Volba strukturování dokumentu bezprostředně ovlivňuje efektivnost operací/interakcí s ním (srovnáváme cenu/výkon).[1]
  • Přesná pravidla pro strukturování dokumentů potřebujeme z důvodu jejich počítačového zpracování, často i generování.
Informační procesy vyžadující znalost struktury informačního zdroje
  • Publikování
    Základní současné technologie publikování informací:
  • tisk na papír (knihy, časopisy) - uzavřená vývojová etapa
  • přenos energií (vysílání)
  • elektronické (digitální) dokumenty - perspektivní, stále ve vývoji
  • Zpracování
    • zdroje, které získáme, musíme umět dále zpracovat (např. vytisknout, sloučit s jiným dokumentem...)
    • popisování a odkazování - popis a odkaz "připojujeme" k rozpoznané strukturní části zdroje
  • Vyhledávání
    • při znalosti struktury zdroje můžeme při vyhledávání zamířit přímo do určitých informačně významných částí (např. obsah, název, anotace)
    • zdroje se třídí podle obsahu příslušných strukturních prvků (např. název)
    • význam znakových sad pro vyhledávání informací: podle pořadí ve znakové sadě (kódové tabulce) se postupuje při třídění (tj. ovlivňuje složení indexů), kódování znaků je rozhodující pro výsledek jejich porovnávání při vyhledávání (string matching)
Cíl: Najít obecnou / otevřenou strukturu (formát, architekturu)
  • použitelnou pro co největší počet typů zdrojů (heterogenita)
  • nezávislou na platformě, tj. na použitém hardwaru a softwaru
  • umožňující distribuovat informační zdroje
  • srozumitelnou lidem i počítačovým programům


[1] Viz např. TKAČÍKOVÁ, Daniela. Kvalitní dokument jako základ účinného vyhledávání informací. In: Informace na dlani [online]. Praha: Albertina icome Praha, ©2004. ISSN 1214-1429. Dostupné z: https://www.inforum.cz/pdf/2004/Tkacikova_Daniela.pdf.