Lingvistické problémy obsahové analýzy: studijní opora

7. Možnosti řešení lingvistických a sémantických problémů

KDO/CO/KDE

na straně systému
na straně uživatele


KDY

při tvorbě systému organizace znalostí
během indexace zdroje (analýza obsahu zdroje)
během požadavku na zdroj (analýza informační potřeby)


JAK (metoda - co chceme dělat)
Synonymie

rozšíření požadavku o synonyma => rozšíření výsledků dotazu o zdroje obsahující synonyma - zvýšení úplnosti

Homonymie

zúžení požadavku o nerelevantní homonyma => zúžení výsledků dotazu na zdroje, obsahující pouze relevantní homonyma - zvýšení přesnosti

Složená témata

analýza: např. fasetová nebo závislostní analýza

syntéza: koordinace (tj. kombinace) složek tématu
a) prekoordinace - enumerace složených témat během indexace zdroje - zvýšení přesnosti
b) postkoordinace - syntéza jednoduchých témat během požadavku na zdroj - zvýšení úplnosti

Slovní spojení

a) zúžení výsledků dotazu na zdroje, obsahující daná slova těsně vedle sebe - zvýšení přesnosti
b) rozlišení syntagmatických a paradigmatických slovních spojení (zúžení výsledků dotazu na paradigmatická spojení) - zvýšení přesnosti


JAK (technika - jak/čím to udělat)

a) manuálně/intelektuálně

b) strojově/automatizovaně


JAK (nástroj - jak/čím to udělat)

1. Řízený slovník (systém organizace znalostí)

cíl: sjednocení sémantiky

=> zjednoznačnění významu

ekvivalence - homonyma: vyloučení z používání (balón viz míč), upřesnění významu definicí nebo kvalifikátorem (Úterý (den), Úterý (obec))

ekvivalence - gramatická synonyma: lemmatizace (přiřazení slovního tvaru k základnímu tvaru - lemmatu) a doplnění všech gramatických tvarů se stejným lemmatem

=> sjednocení označení

ekvivalence - synonyma: volba preferovaného termínu (např. UF - USE v tezaurech), jednotná notace (např. třídník/znak MDT, VIAF ID)

=> explicitní vyjádření vztahů

ekvivalence - synonyma: enumerace synonymních výrazů (např. synset ve WordNetu)

asociace, hierarchie

2. Indexový soubor

cíl: poskytnout přístup podle jiného hlediska, než podle jakého je setříděn (řazen) základní soubor.

zdroj indexového souboru:
text dokumentů
text realizovaných dotazů (seznam uložených dotazů)
metadata (např. intelektuálně vytvořená obsahová metadata vztahující se k dokumentům, kvantitativní údaje o "popularitě" dotazu)

3. Kontext / kolokace

cíl: využití kolokability – v textu, v indexu

=> převod syntagmatických vztahů na paradigmatické


Principy ekvivalence a jejich aplikace v přístupu ke zdrojům

1) ekvivalence umístěním (kolokace, kontext)

typ přístupu: browsing (prohlížení) – nahlédnutí do textu / do indexu
hypotéza: slova, která jsou v textech či v indexu blízko sebe, mají podobný význam (převod syntagmatických vztahů na paradigmatické)

2) ekvivalence označením/pojmenováním

typ přístupu: searching (vyhledávání)
hypotéza: slova, která se podobně píšou, mají podobný význam (převod formální ekvivalence na obsahovou)