Struktury informačních zdrojů: studijní opora

7. Indexový soubor

Technologie přístupu k informačním zdrojům
Podmínky efektivního přístupu
  • zdroje musí být sémanticky popsané (musí být znám jejich význam, tj. musí k nim existovat metadata)
  • zdroje musí být organizované (uspořádané, tj. musí být určeny vztahy mezi nimi)
Techniky organizace - umístění a označení
  umístění označení
Otázka Kde je to? Co je to?
Typ techniky konkrétní abstraktní
Typ vlastnosti vnitřní, statická vnější, dynamická
Teoretický základ fyzika sémiotika
Typ objektů materiální objekty
nemovité objekty
neomezené
Omezení místo - objekt: 1:1
jednoznačné
označení - objekt: N : M
nejednoznačné

Typy technologií přístupu k informacím
    jednotka uložení jednotka zpracování struktura přístup jazyk
vyhledávání strukturované záznam atribut (element, pole, sloupec) relační množinový SQL
plnotextové text slovo (lexém) lineární (text), stromová (index) množinový (prostřednictvím indexu)  
prohlížení / navigace zdroj (dokument/datový objekt) uzel, odkaz (hrana, reference, spoj, link) síťová navigace SPARQL
 
Vyhledávání
  • stanovení, zda konkrétní údaj je prvkem určité množiny, a určení jeho umístění (tj. identifikace)
  • princip: porovnávání hodnoty vyhledávacího klíče s hodnotami prvků dané množiny (souboru)
kritérium efektivnosti:

počet prvků prohledávaného souboru (slov, záznamů, dokumentů...), které musíme tímto způsobem otestovat (tj. doba potřebná k vyhledávání)

Využití indexového souboru pro kontextové operátory

a) operátor proximity

podmínka vzdálenosti se vyhodnocuje přes absolutní hodnocení rozdílu pořadí slov

b) operátor pořadí

podmínka pořadí je vyhodnocována na základě větší velikosti čísla udávajícího pořadí slov