Struktury informačních zdrojů: studijní opora
Požadavky na absolvování
7. Indexový soubor
Technologie přístupu k informačním zdrojům
Podmínky efektivního přístupu
- zdroje musí být sémanticky popsané (musí být znám jejich význam, tj. musí k nim existovat metadata)
- zdroje musí být organizované (uspořádané, tj. musí být určeny vztahy mezi nimi)
Techniky organizace - umístění a označení
umístění | označení | |
Otázka | Kde je to? | Co je to? |
Typ techniky | konkrétní | abstraktní |
Typ vlastnosti | vnitřní, statická | vnější, dynamická |
Teoretický základ | fyzika | sémiotika |
Typ objektů | materiální objekty nemovité objekty |
neomezené |
Omezení | místo - objekt: 1:1 jednoznačné |
označení - objekt: N : M nejednoznačné |
Typy technologií přístupu k informacím
jednotka uložení | jednotka zpracování | struktura | přístup | jazyk | ||
vyhledávání | strukturované | záznam | atribut (element, pole, sloupec) | relační | množinový | SQL |
plnotextové | text | slovo (lexém) | lineární (text), stromová (index) | množinový (prostřednictvím indexu) | ||
prohlížení / navigace | zdroj (dokument/datový objekt) | uzel, odkaz (hrana, reference, spoj, link) | síťová | navigace | SPARQL |
Vyhledávání
- stanovení, zda konkrétní údaj je prvkem určité množiny, a určení jeho umístění (tj. identifikace)
- princip: porovnávání hodnoty vyhledávacího klíče s hodnotami prvků dané množiny (souboru)
kritérium efektivnosti:
počet prvků prohledávaného souboru (slov, záznamů, dokumentů...), které musíme tímto způsobem otestovat (tj. doba potřebná k vyhledávání)
Využití indexového souboru pro kontextové operátory
a) operátor proximity
podmínka vzdálenosti se vyhodnocuje přes absolutní hodnocení rozdílu pořadí slov
b) operátor pořadí
podmínka pořadí je vyhodnocována na základě větší velikosti čísla udávajícího pořadí slov