Lingvistické problémy obsahové analýzy: studijní opora
7. Možnosti řešení lingvistických a sémantických problémů
KDO/CO/KDE
na straně systému
na straně uživatele
KDY
při tvorbě systému organizace znalostí
během indexace zdroje (analýza obsahu zdroje)
během požadavku na zdroj (analýza informační potřeby)
JAK (metoda - co chceme dělat)
Synonymie
rozšíření požadavku o synonyma => rozšíření výsledků dotazu o zdroje obsahující synonyma - zvýšení úplnosti
Homonymie
zúžení požadavku o nerelevantní homonyma => zúžení výsledků dotazu na zdroje, obsahující pouze relevantní homonyma - zvýšení přesnosti
Složená témata
analýza: např. fasetová nebo závislostní analýza
syntéza: koordinace (tj. kombinace) složek tématu
a) prekoordinace - enumerace složených témat během indexace zdroje - zvýšení přesnosti
b) postkoordinace - syntéza jednoduchých témat během požadavku na zdroj - zvýšení úplnosti
Slovní spojení
a) zúžení výsledků dotazu na zdroje, obsahující daná slova těsně vedle sebe - zvýšení přesnosti
b) rozlišení syntagmatických a paradigmatických slovních spojení (zúžení výsledků dotazu na paradigmatická spojení) - zvýšení přesnosti
JAK (technika - jak/čím to udělat)
a) manuálně/intelektuálně
b) strojově/automatizovaně
JAK (nástroj - jak/čím to udělat)
1. Řízený slovník (systém organizace znalostí)
cíl: sjednocení sémantiky
=> zjednoznačnění významu
ekvivalence - homonyma: vyloučení z používání (balón viz míč), upřesnění významu definicí nebo kvalifikátorem (Úterý (den), Úterý (obec))
ekvivalence - gramatická synonyma: lemmatizace (přiřazení slovního tvaru k základnímu tvaru - lemmatu) a doplnění všech gramatických tvarů se stejným lemmatem
=> sjednocení označení
ekvivalence - synonyma: volba preferovaného termínu (např. UF - USE v tezaurech), jednotná notace (např. třídník/znak MDT, VIAF ID)
=> explicitní vyjádření vztahů
ekvivalence - synonyma: enumerace synonymních výrazů (např. synset ve WordNetu)
asociace, hierarchie
2. Indexový soubor
cíl: poskytnout přístup podle jiného hlediska, než podle jakého je setříděn (řazen) základní soubor.
zdroj indexového souboru:
text dokumentů
text realizovaných dotazů (seznam uložených dotazů)
metadata (např. intelektuálně vytvořená obsahová metadata vztahující se k dokumentům, kvantitativní údaje o "popularitě" dotazu)
3. Kontext / kolokace
cíl: využití kolokability – v textu, v indexu
=> převod syntagmatických vztahů na paradigmatické
Principy ekvivalence a jejich aplikace v přístupu ke zdrojům
1) ekvivalence umístěním (kolokace, kontext)
typ přístupu: browsing (prohlížení) – nahlédnutí do textu / do indexu
hypotéza: slova, která jsou v textech či v indexu blízko sebe, mají podobný význam (převod syntagmatických vztahů na paradigmatické)
2) ekvivalence označením/pojmenováním
typ přístupu: searching (vyhledávání)
hypotéza: slova, která se podobně píšou, mají podobný význam (převod formální ekvivalence na obsahovou)