Ontologie: studijní opora: Ontologie a znalostní systém

4. Ontologie a znalostní systém

Tradičním kontextem informatických ontologií je informační, resp. znalostní systém. Na nejobecnější úrovni lze dokonce konstatovat, že informační systémy a informatické ontologie vykazují shodné vlastnosti. Název napovídá, že obsah znalostního systému tvoří znalosti. Výchozím pojmem většiny definic informatické ontologie je rovněž znalost a možnosti jejího opětovného použití. Shoda panuje i v technologii: společnou bází informačních i znalostních systémů a informatických ontologií jsou informační technologie, techniky softwarového a znalostního inženýrství a umělé inteligence. V této kapitole se proto zaměříme na specifikaci vzájemného vztahu informačních systémů a ontologií. Využijeme k tomu pojmový model informačního systému definovaný v technické zprávě ISO/TR 9007 Pojmy a terminologie pro pojmové schéma a informační základnu[1], která byla zmíněna v předchozí kapitole. Tento model budeme konkretizovat, aby vystihoval specifika znalostních systémů, a do takto konkretizovaného modelu začleníme pojem informatické ontologie.

Z hlediska funkce lze za informační systém považovat jakýkoli systém umožňující komunikaci a transformaci informací a/nebo znalostí – časově, prostorově i co do formy tak, aby byly lépe využity než v původním stavu. Jde tedy o systém, který přidává hodnotu ke zpracovávaným či komunikovaným informacím a/nebo znalostem za účelem odstranění informačních bariér. Typickými úlohami řešenými informačními systémy jsou kromě saturování potřeby informací a/nebo znalostí (pro poznání, pro rozhodování, pro realizaci určité činnosti) problémy složitosti, opětovné použitelnosti, automatizace, komunikace a problémy bezpečnosti, spolehlivosti a minimalizace rizik.

Informační systém představuje dialektickou jednotu statického a dynamického. Má jak svou stránku pasivní – je artefaktem modelujícím svět (modelem, reprezentací, odrazem reality) prostřednictvím informací a/nebo znalostí, tak stránku aktivní – je procesem působícím na svět, procesy, jež realizuje s informacemi, ovlivňují realitu. Yair Wand a Ron Weber nabízejí v souladu s tímto pojetím dva pohledy na informační systém:

„1. Reprezentace systému reálného světa, tak jak jej někdo vnímá, prostřednictvím artefaktů, vytvořená k tomu, aby plnila funkce zpracování informací.

2. Mechanismus zachycující stavy systému reálného světa, který má modelovat.“[2]

Gove Allen a Salvatore March navrhují upřesnit formulaci druhého pohledu na „mechanismus zpracovávající události”[3], tak aby byla explicitně vyjádřena dynamická stránka informačního systému.

Technická zpráva ISO/TR 9007 definuje jak statické, tak dynamické komponenty informačního systému. Klíčovými statickými komponentami informačního systému jsou informační základna (angl. information base) a pojmové schéma[4] (angl. conceptual schema) a dynamickou složku představuje informační procesor (angl. information processor). Obrázek 1 znázorňuje obecnou strukturu informačního systému ve formě diagramu tříd v jazyce UML.

InformacniSystem

Obr. 1 Informační systém podle ISO/TR 9007

Informační procesor je v ISO/TR 9007 specifikován jako „mechanismus, který podle zadaného příkazu vykonává požadovanou činnost v pojmovém schématu a informační základně“[5]. V převážné většině typů informačních systémů plní tuto funkci software.

Na obrázku 1 je znázorněno, že základním stavebním prvkem statických komponent informačního systému jsou výroky (věty), jež tvoří základ jak pro informační základnu, tak pro pojmové schéma.

Informační základnu tvoří podle ISO/TR 9007 „soubor vět konzistentních jak navzájem, tak i s pojmovým schématem, vyjadřující výroky odlišné od nutných výroků, které platí pro určitý svět entit“[6]. V konkrétních typech informačních systémů jsou pro informační základnu používány specifické termíny – informační základna transakčních databázových systémů se označuje jako databáze[7] (angl. data base), informační základnu znalostních systémů tvoří znalostní báze (angl. knowledge base). V současné době se výroky v informační základně často označují jako instance.

Technická zpráva ISO/TR 9007 věnuje pozornost především pojmovému schématu. V souvislosti s ním zavádí významný pojem „univerzum diskurzu“, tj. obor rozpravy či úvah[8], jímž se jednoznačně vymezuje sémantický prostor v rámci nějaké úlohy (například při pojmovém modelování) či zkoumání v konkrétních vědních disciplínách. Norma vymezuje univerzum diskurzu následovně: „Jsou to všechny entity, o které se zajímáme, které byly, jsou nebo mohou být.“[9]. Pojmové schéma je v normě definováno jako „ucelený soubor vět vyjadřujících nutné výroky, které platí pro univerzum diskursu“[10]. Na rozdíl od instancí v informační základně jsou jednotky pojmového schématu obvykle označovány jako třídy. Cílem pojmového schématu je jednoznačně definovat význam dat v informační základně pro různé uživatele. Význam jednoznačného definování se v normě zdůvodňuje následovně:

„Nejdůležitější charakteristikou prostředí datových základen je, že společná data jsou sdílena mezi mnoha uživateli jednoho systému. Sdílením společných dat zakládají tito uživatelé prostřednictvím systému mezi sebou dialog. Je zřejmé, že pro užitečnost a spolehlivost této komunikace musí existovat jednotné chápání informací prezentovaných daty. Protože se může stát, že dva uživatelé se nikdy nesetkají, musí být společné chápání řízeno něčím, co stojí mimo ně. Toto společné chápání musí být zaznamenané a v pravidlech k založení dialogu musí být ustanovena potřebná, předem stanovená gramatická pravidla.“[11]

Na obrázku 2 je základní schéma informačního systému doplněno o entity významné pro znalostní systém. Znalostní systém je znázorněn pomocí symbolu generalizace jako specifický typ informačního systému, což vyjadřuje, že jeho charakteristika je odvozena z obecných vlastností informačního systému, týkajících se jeho obsahu, funkce a klíčových komponent. Tyto „zděděné“ obecné vlastnosti jsou pak v rámci znalostního systému specifikovány a doplněny o další důležité charakteristiky.

ZnalostniSystem

Obr. 2 Znalostní systém s ontologií podle ISO/TR 9007

K chápání obsahu a funkce znalostního systému se zpravidla jinak přistupuje v oblasti umělé inteligence, a jinak v pragmatičtěji orientované oblasti znalostního managementu. Vyjdeme z typologie Joerga Evermanna, který rozlišuje dvě kategorie znalostních systémů[12]: systémy založené na znalostech a systémy správy znalostí.

Systémy založené na znalostech (angl. knowledge-based systems) používají explicitní znalosti k automatickému usuzování a k odvozování nových znalostí. Obsažené znalosti jsou reprezentované formálními jazyky založenými na logice. Jejich uživatelem je software, například inteligentní agent. Tato kategorie je ve schématu na obrázku 2 označena v souladu s jejími teoretickými principy jako „umělá inteligence“.

Systémy správy znalostí (angl. knowledge management systems) spravují explicitní znalosti pro účely jejich sdílení mezi lidskými aktéry. Obvykle se vymezují v kontextu nějaké organizace. Organizace jsou potom považovány za místo zpracování a uchovávání znalostí a vytváření podmínek pro vznik nových znalostí (inovace). Tyto systémy obsahují zpravidla znalosti reprezentované přirozeným jazykem, předpokládanými uživateli jsou lidé.

Třetí kategorií znalostních systémů znázorněnou na obrázku 2 je sémantický web, do jehož prostředí se aktuálně přesouvají mnohé znalostní systémy z původních oblastí použití. Znalosti jsou obsaženy v distribuovaných webových zdrojích a jejich typickou vlastností je diverzita. Typickou strukturu tvoří grafové struktury propojených dat. Webové zdroje mohou obsahovat jak rigorózně formalizované znalosti, tak znalosti vyjádřené neformálně. Co do struktury aktuálně převažují grafové struktury propojených dat.

Specifika znalostních systémů v rámci množiny informačních systémů se týkají všech komponent popsaných výše: informační základny, pojmového schématu i informačního procesoru.

Informační základna znalostního systému se obvykle označuje jako znalostní báze nebo jako znalostní graf.

Informační procesor znalostního systému umožňuje realizovat takové operace s daty, při nichž dochází ke změně a/nebo k tvorbě nového obsahu či rozhodovací procedury díky netriviálnímu odvozování nových znalostí ze znalostí zachycených ve znalostní bázi. To je umožněno tím, že na rozdíl od transakčních informačních systémů je softwaru, který realizuje operace s daty, srozumitelná nejen syntax, ale díky ontologii i sémantika znalostní báze.

Stejně jako v informačním systému je i ve znalostním systému základním stavebním prvkem výrok coby konkrétní forma znalosti zaznamenané ve znalostním systému. Aby byl obsah pojmového schématu a informační základny komunikovatelný, je zapotřebí jej vyjádřit nějakým jazykem. Tuto komponentu znalostního systému znázorňuje na obrázku 2 třída „Jazyk pro reprezentaci znalostí“.

Na obrázku 2 je znázorněna typologie výroků ve znalostním systému. K již uvedené typologii výroků v informačním systému, jež člení výroky podle typu reprezentovaného objektu na výroky o instancích a na výroky o třídách, jsou doplněny další dvě typologie. Podle odvozenosti znalosti se výroky člení na axiomatické a odvozené. Z hlediska obsahu, přesněji řečeno podle způsobu reprezentace znalostí, se výroky ve znalostním systému obvykle člení na deklarativní a procedurální. „Inteligence“ deklarativních výroků je obsažena v datech a jejich strukturách, „inteligence“ výroků procedurálních je obsažena v procesech/programech, pravidlech, heuristikách. K těmto dvěma typům inteligence by bylo možné ještě připojit další typ, který přináší koncept propojených dat v sémantickém webu – „inteligence“ je obsažena v sémantickém propojení dat, tj. v jejich vztazích.

Členění výroků na procedurální a deklarativní je odvozeno z termínů používaných pro odlišení dvou typů znalostí – procedurálních a deklarativních. Procedurální (operační) znalost umožňuje úspěšnou realizaci nějaké akce nebo činnosti, deklarativní (konceptuální) znalost má formu tvrzení či výroku o poznané entitě, u nějž má smysl určovat, zda je pravdivý. Jejich specifika se projevují jak v modelování, tak ve způsobu reprezentace a v mechanismech odvozování a usuzování. Modely procedurálních znalostí se zaměřují na metody a algoritmy řešení úloh či problémů ve formě pravidel využívaných k diagnostice a rozhodování komplikovaných problémů, typickou aktuální aplikací jsou webové služby a mobilní aplikace. Modely deklarativních znalostí směřují k umožnění přístupu ke znalostem (vyhledávání a objevování) a ke generování nových znalostí. Jejich převažující formou jsou informatické ontologie. Typickou aktuální aplikací jsou znalostní grafy. Zatímco pro rané stadium výzkumu a aplikací v oblasti umělé inteligence byla typická snaha o modelování, reprezentaci a odvozování procedurálních znalostí, ontologie obrátily pozornost odborníků na znalosti deklarativní.

Uvedené členění navozuje dojem, že je vždy možné prohlásit znalost buď za deklarativní, nebo za procedurální, ve skutečnosti se však běžně vyskytují znalosti, vykazující rysy obou skupin. Tento názor zastává Allen Newell, který upozorňuje na obtíže s vyjádřením a zachycením znalosti a zároveň na její dialektickou povahu:

„Znalost není reprezentovatelná strukturou na úrovni symbolů. Vyžaduje jak struktury, tak procesy. Znalost zůstává navždy abstraktní a nikdy ji nelze mít skutečně k dispozici (pod kontrolou)“[13].

Příkladem snahy o propojení deklarativních a procedurálních znalostí je současné objektově orientované paradigma softwarových aplikací. V diagramech tříd, které se používají k jejich modelování, se v jedné třídě současně objevují jak deklarativní znalosti v podobě atributů, tak procedurální znalosti v podobě metod. V abstraktním pohledu von Neumannovy architektury počítačů dokonce deklarativní a procedurální znalosti splývají – jak data, tak programy jsou uloženy v paměti ve stejném formátu.

Kromě sdílení různými uživateli připadá v úvahu i sdílení pojmového schématu více systémy. Z tohoto pohledu se pojmová schémata znalostních systémů člení na proprietární nebo sdílená. Proprietární pojmové schéma je vytvořeno speciálně pro jeden konkrétní systém, sdílené schéma je použitelné pro více systémů. Nejvýznamnějším typem sdílených pojmových schémat jsou informatické ontologie.[14] Jak bylo uvedeno, obvykle mají formu množiny deklarativních výroků o třídách objektů v dané oblasti zájmu. Díky své deklarativní povaze vykazují vyšší míru nezávislosti na programech, jež s nimi mohou pracovat, a tím i vyšší míru opětovné použitelnosti.

Informační základnu znalostního systému představuje znalostní báze, tvořená množinou výroků reprezentujících tvrzení o univerzu diskurzu, vyjádřených v jazyce pro reprezentaci znalostí. Na rozdíl od informačních základen transakčních informačních systémů se znalostní báze vnímá jako těsněji spjatá s pojmovým schématem, v literatuře se lze setkat i s tím, že termínem znalostní báze je označován komplex pojmového schématu a instancí (tj. dat ve znalostní bázi). Existují i ontologie, v nichž jsou kromě výroků o třídách obsaženy i výroky o instancích.

Znalostní báze je klíčovou komponentou všech tří výše uvedených typů znalostních systémů, často ovšem s odlišnými funkcemi. V systémech umělé inteligence se báze znalostí využívá jako podmínka, východisko pro procedury či aktivity – například pro plánování, rozhodování, diagnostiku, rozpoznávání ad. Systémy správy znalostí typicky chápou bázi znalostí jako výsledný produkt – zdroj poznání umožňující opětovné použití a vyhledávání a jako podmínku, východisko pro komunikaci. Znalostní bázi sémantického webu tvoří distribuované webové zdroje opatřené sémantickými metadaty. Na rozdíl od proprietárních systémů umělé inteligence a systémů správy znalostí disponuje sémantický web standardizovaným jazykem i softwarem. Jazykem pro reprezentaci znalostí v sémantickém webu je RDF[15] (podrobněji viz kapitola RDF studijní opory ke strukturám informačních zdrojů). Funkci informačního procesoru plní protokol HTTP.

[1] Následující citace uvádíme podle českého překladu normy: ČSN ISO/TR 9007 (97 9702). Systémy zpracování informací: Pojmy a terminologie pro pojmové schéma a informační základnu. Praha: Český normalizační institut, 1996. 131 s.

[2] WAND, Yair, WEBER, Ron. Toward a theory of the deep structure of information systems. In: Janice I. DeGROSS, Maryam ALAVI, Hans J. OPPELLAND, ed. Proceedings of the Eleventh International Conference on Information Systems, December 16-19, 1990, Copenhagen, Denmark. Baltimore: ACM Press, © 1990, s. 62.

[3] ALLEN, Gove N., MARCH, Salvatore T. A critical assessment of the Bunge-Wand-Weber ontology for conceptual modeling [online]. In: 16th Annual workshop on information technologies and systems (WITS), Milwaukee, WI, Dec. 9-10 2006. https://doi.org/10.2139/ssrn.951803.

[4] Poznámka: V dalším textu používáme termín pojmový model, v této pasáži je ponechána původní terminologie použitá v českém překladu normy.

[5] ČSN ISO/TR 9007. Systémy zpracování informací: Pojmy a terminologie pro pojmové schéma a informační základnu. Praha: Český normalizační institut, 1996, s. 49.

[6] Tamtéž, s. 50.

[7] Poznámka: V českém překladu normy se používá termín „datová základna“.

[8] „Diskurz je projev racionálního myšlení v podobě souvislé řady úsudků, jež se opírají o dílčí operace a pojmy.“ DUROZOI, Gérard, ROUSSEL, André. Filozofický slovník. Přeložili Jan Binder aj. 1. vyd. Praha: EWA, 1994, s. 61. ISBN 80-85764-07-5.

[9] ČSN ISO/TR 9007. Systémy zpracování informací: Pojmy a terminologie pro pojmové schéma a informační základnu. Praha: Český normalizační institut, 1996, s. 16.

[10] Tamtéž, s. 50.

[11] Tamtéž, s. 8.

[12] EVERMANN, Joerg. Towards a cognitive foundation for knowledge representation. In: Information systems journal. April 2005, 15(2), 147-178. https://doi.org/10.1111/j.1365-2575.2005.00193.x. ISSN 1350-1917 (print). ISSN 1365-2575 (online).

[13] NEWELL, Allen. The knowledge level. In: Artificial intelligence. January 1982, 18(1), s. 125. https://doi.org/10.1016/0004-3702(82)90012-1. ISSN 0004-3702.

[14] Vzájemný vztah pojmových modelů a informatických ontologií je rozpracován v: WEBER, Ron. Conceptual modeling and ontology: possibilities and pitfalls. In: Journal of database management. July-September 2003, 14(3), 1-20. https://doi.org/10.4018/jdm.2003070101. ISSN 1063-8016.

[15] Resource description framework (RDF) [online]. W3C RDF Working Group, last modified 2018-01-16 [cit. 2024-05-09]. Dostupné z: https://www.w3.org/RDF/.