1. Úvod

Základ lingvistických a sémantických problémů organizace znalostí - vztahy 1 : N

Ideál:

  • najít vše, co je relevantní
  • vyloučit vše, co není relevantní
relevance
    

Ukazatele:

  • úplnost (ang. recall)
    podíl vyhledaných zdrojů z relevantních
  • přesnost (ang. precision)
    podíl relevantních zdrojů z vyhledaných
 

Typologie problémů

Paradigmatické vztahy 1 : N
Syntagmatické vztahy 1 : N
Synonymie (1 význam – N lexémů) Složený pojem / složené téma (N významů)

Souznačnost. Konjunktivní (slučující) vztah jednotek vyjádření / lexémů (logické OR, a nebo).

Příklad:
„Ty raubíři, rošťáku, ničemo, šibeničníku, prašivko, hrubiáne, lotře, kreminálníku, poberto, vandráku, lenochu, darebo, kujóne, lupiči, taškáři, šupáku, pobudo, lumpe, otrapo, lucipere, nemravo, holomku, špatenko a zloději zlodějská...
(Karel Čapek. Pohádka o zdvořilém loupežníkovi)

Problém: Snížení úplnosti

Pojem/téma, které jsou rozložitelné na více jednotek obsahu. Partitivní vztah jednotek obsahu (logické AND, a zároveň).

Příklady:
elektrokolo = kolo + elektřina + pohon

matematicko-statistická teorie informace = matematika + statistika + informace + teorie
vojevůdce = muž + boj/bitva + vedení

Problém: analýza, syntéza

Homonymie (1 lexém – N významů) Slovní spojení (1 význam – N lexémů)

Disjunktivní (vylučující) vztah jednotek obsahu (XOR, buď / nebo).

Přesněji: víceznačnost. V rámci víceznačnosti se rozlišuje homonymie (souzvučnost) a polysémie (vícevýznamovost). Významy polysémů spolu souvisejí (kuchařka – kuchařka, hodinky  hodinky), významy homonym spolu nesouvisejí (stát – stát, bez - bez). Záměrně vytvořenou či použitou víceznačnost lze považovat za typ metafory nebo metonymie.

viceznacnost

Problém: Snížení přesnosti

Označuje se též jako fráze, frazém, frazeologismus, idiom, kolokace, víceslovný lexém / lexikální jednotka, koherentní víceslovný výraz, n-gram, sousloví, sdružené pojmenování.
Pojem, který je vyjádřen více slovy, ale z hlediska obsahu tvoří jeden dále nerozložitelný celek. Slovní spojení jsou tedy analyzovatelná syntakticky (např. na jednotlivá slova), ale nejsou analyzovatelná sémanticky.

Příklady:
černí baroni, červený kohout, běžný účet, stavební úřad, Jan Neruda, Nová Ves pod Pleší, postavení mimo hru, teorie sítí aktérů, plácnout se přes kapsu

Problém: Snížení přesnosti