Kategorizace a klasifikace: studijní opora

Stránky: Moodle UK pro výuku 1
Kurz: Klasifikace a systémová analýza - AISPV1001
Kniha: Kategorizace a klasifikace: studijní opora
Vytiskl(a): Nepřihlášený host
Datum: pátek, 22. listopadu 2024, 17.13

1. Úvod

„Kategorie jsou třídy ekvivalence, množiny nebo skupiny věcí či abstraktních entit, se kterými zacházíme stejně. To neznamená, že všechny instance kategorie jsou identické, pouze že z určitého hlediska nebo z nějakého důvodu s nimi zacházíme jako s ekvivalentními na základě toho, co mají společného.“[1]

Kategorie jsou natolik obecným fenoménem, že jsou předmětem zkoumání filozofie jak v oblasti bytí, tj. ontologie (teorie kategorií je speciálním odvětvím ontologie), tak v oblasti vědomí, tj. teorie poznání (viz např. přehled kategoriálních systémů ve Stanfordské encyklopedii filozofie).

Klíčový význam kategorizace v procesu poznání bývá označován jako kognitivní ekonomie. Podle Eleanor Roschové je úlohou kategoriálního systému poskytnout maximum informace s minimálním kognitivním úsilím.[2] Při poznávání nových věcí se do paměti ukládají a organizují vyabstrahované pojmy (tj. myšlenkové kategorie), nikoli každý konkrétní objekt (člen kategorie). Kategorie je považována za kognitivní a lingvistický model umožňující využít existující znalosti v nových situacích a rozpoznat instance nebo události. Jakmile zatřídíme určitý objekt do kategorie,  můžeme pro něj odvodit vlastnosti, jež na samotném objektu nechceme nebo nemůžeme zjistit, ale o kategorii jsou již známé.


[1] GLUSHKO, Robert J., ANNECHINO, Rachelle, HEMERLY, Jess, PERRY, Robyn, WANG, Longhao. Categorization: describing resource classes and types. In: Robert J. Glushko, ed. The discipline of organizing: professional edition [online]. 4th ed. O'Reilly Media, 2016 [cit. 2024-05-10], s. 351. ISBN 978-1-4919-7062-1 (ebook). Dostupné z: https://www.ischools.org/discipline-of-organizing.

[2] ROSCH, Eleanor H. Principles of categorization. In: Eleanor Rosch, Barbara Bloom Lloyd, ed. Cognition and categorization: sponsored by the social science research council. Hillsdale: L. Erlbaum, 1978, s. 28. ISBN 0-470-26377-6.

2. Problém existence kategorií

Pojmy neboli kategorie jsou tradičně považovány za základní jednotku obsahu. Jednou ze základních filozofických otázek je rozhodnutí, zda kategorie existují objektivně, a priori, či zda jsou subjektivními konstrukcemi.

Ve středověku se pokusy o řešení této otázky označovaly jako spor o univerzálie. Termínem univerzálie byly ve středověké filozofii označovány obecné pojmy (obecniny) či kategorie, jejichž protikladem jsou tzv. partikulárie (jednotliviny).

Kromě otázky objektivní existence univerzálií je další významnou otázkou diskutovanou rovněž už ve středověké filozofii vztah pojmů a věcí. Krajními póly řešení této otázky jsou realismus a nominalismus. Realismus tvrdí, že univerzálie, eventuálně univerzální charakteristiky jednotlivých věcí, objektivně existují (tj. jsou to věci). Pro realisty univerzálie existují ve věcech (universalia sunt in re) nebo dokonce před věcmi (universalia sunt ante rem). Nominalismus považuje univerzálie za slova, jež pouze odkazují na věci (universalia sunt nomina post rem). Někdy se ještě vyčleňuje tzv. konceptualismus, jehož zastánci rovněž tvrdí, že univerzálie existují po věcech (universalia sunt post rem), ovšem nikoli jako slova, ale pouze jako myšlenky o věcech (tj. pojmy).

Středověký spor o univerzálie dnes ožívá v oblasti ontologického inženýrství v souvislosti s digitálními zdroji, jejichž prostřednictvím jsou vyjadřovány ontologické pojmy. Problematiku realismu, konceptualismu a nominalismu v souvislosti s daty řeší i matematik a informatik George H. Mealy (1927–2010) v článku Jiný pohled na data[1]. Mealy v úvodu článku upozorňuje, že jeho teorie je založena na „četných starých myšlenkách“ (míní tím především myšlenky filozofické a sémiotické), jež ovšem nejsou v informatice běžně uplatňovány. Připomíná, že na filozofické úrovni se obvykle uvažují tři oblasti zpracování dat: reálný svět, myšlenky lidí o světě a symboly zaznamenané na nějakém záznamovém médiu, přičemž myšlenky (ve středověké terminologii univerzálie) se považují za modely reality a symboly za modely myšlenek. Konstatuje, že na to, která z těchto oblastí "skutečně existuje" v ontologickém smyslu, existují různé filozofické názory. Mealy se přiklání k nominalistické teorii; považuje data za reálně existující symboly, jež nazývá „fragmenty teorie o reálném světě“.



[1] MEALY, George H. Another look at data. In: Proceedings of the Fall Joint Computer Conference (AFIPS Fall '67), November 14-16, 1967. New York: ACM, 1967, 525-534. https://doi.org/10.1145/1465611.1465682.

3. Kategorizace jako součást lidského myšlení

V rámci kognitivní vědy se kategorizace neboli konceptualizace zkoumá jako přirozená součást a nástroj lidského myšlení. Tradiční názor západní vědy, který má své kořeny u Aristotela, považuje za základ lidského myšlení hierarchické struktury. S nástupem webových technologií se znovu oživila alternativní myšlenka asocianismu, na niž v roce 1945 upozornil Vannevar Bush v eseji As we may think.[1] Tato teorie považuje za hlavní proces lidského myšlení asociaci.

George Lakoff ve svém historickém přehledu zkoumání kategorizace člení filozofický přístup ke zkoumání poznání a myšlení na dva hlavní proudy – „tradiční“ a „nový“. První, tzv. tradiční či abstraktní proud, který Lakoff nazývá objektivismus, tvrdí, že myšlení je abstraktní a nezávislé na těle. Představitelé tohoto proudu chápou konceptualizaci v lidské mysli jako objektivně probíhající proces, jehož pravidla jsou v zásadě totožná s tím, co bude v následující části představeno jako systémový/obsahový přístup. Druhý, tzv. interakcionistický proud, tvrdí, že myšlení je závislé na těle a že je imaginativní. Sám Lakoff je zastáncem druhého směru a svůj přístup nazývá zkušenostním realismem (experiencialismem).[2]

„Podle tradičního přístupu je rozum abstraktní a nezávislý na těle. Podle nového přístupu má rozum tělesnou podstatu. Tradiční přístupy popisují strukturu rozumu jako soubor doslovných tvrzení, především propozic, které jsou objektivně buď pravdivé, nebo nepravdivé. Nový přístup považuje imaginativní aspekty rozumu – jako jsou metafora, metonymie a mentální obraznost – spíše za centrální než periferní nebo bezvýznamné přívažky k aspektům doslovným.“[3]

Z Lakoffova přehledu výsledků empirických výzkumů lidského myšlení, prováděných v 20. století v rámci psychologie a nově se formující kognitivní vědy, se jako potenciálně užitečné jeví zejména rodinné podobnosti, centralita a prototypy, odstupňované členství v kategorii, bázová kategorizace a používání metonymie.

  • Princip rodinných podobností takto pojmenoval Ludwig Wittgenstein, Lakoff ho interpretuje jako vzájemný vztah příbuznosti členů kategorie, daný sérií řetězců rodinných podobností, aniž by existovala množina jejich společných vlastností.
  • Princip centrality a prototypů spočívá v tvrzení, že některé členy jsou lepšími reprezentanty kategorie než jiné (například vlaštovka bude zřejmě považována za lepšího reprezentanta kategorie "ptáci" než pštros).
  • Odstupňované členství v kategorii škáluje příslušnost k třídě ekvivalence do více stupňů.
  • Při bázové kategorizaci se uplatňuje tzv. postup middle-out, od středu ven: východiskem (bází) nejsou ani členy s nejvyšší mírou konkrétnosti, ani členy na nejvyšší úrovni abstrakce, nýbrž nejdůležitější zástupci, od nichž se postupuje jak směrem vzhůru, tak směrem dolů.
  • S používáním metonymie způsobem pars pro toto (pojmenováním celku jeho částí) se lze setkat například při označování všech kopírek jako xerox, což byla původně obchodní značka pouze jednoho z typů kopírovacích strojů.


[1] BUSH, Vannevar. As we may think. In: Atlantic monthly. July 1945, 176(7), 101-108. ISSN 0160-6506. Dostupné z: https://www.theatlantic.com/magazine/archive/1945/07/as-we-may-think/303881/ [cit. 2024-05-10].

[2] LAKOFF, George. Ženy, oheň a nebezpečné věci: co kategorie vypovídají o naší mysli. 1. vyd. Praha: Triáda, 2006, s. 11-15. ISBN 978-80-86138-78-7.

[3] Tamtéž, s. 11.

4. Kategorizace jako objektivní proces organizace znalostí

V rámci "umělé" kategorizace lze rozlišit tři typy, založené na různých způsobech určování ekvivalence: systémový/obsahový přístup a "nesystémové" přístupy formální a subjektivní.[1]

Systémový přístup ke kategorizaci

Přístup ke kategorizaci, který pracovně nazýváme "systémový", hraje klíčovou roli v organizaci znalostí. Je založený na ekvivalenci obsahu. V lingvistice se pro tento typ ekvivalence tradičně používá označení synonymie. Podle systémových komponent zastoupených v kritériu ekvivalence lze rozlišit několik typů kritérií obsahové ekvivalence: struktura, funkce, vztahy, prvky, vlastnosti, hodnoty.

Ve všech případech systémového přístupu je ekvivalence určená zevnitř, obsahově, analýzou struktury (tím, co jsme zjistili, "co to je", angl. isness). Tento přístup předpokládá intelektuální aktivitu, vyžadující obvykle lidskou inteligenci. Aby bylo možné zařadit určitý objekt do třídy ekvivalence, je nutné ho důkladně analyzovat. Inteligence je zapotřebí jednak pro zjištění charakteristik objektů, jichž může být nekonečný počet, ale zejména pro výběr těch vlastností, které se projeví jako užitečné pro daný účel v daném kontextu.

Nejvýznamnějším typem kategorizace, používaným tradičně v praxi organizace znalostí, je kategorizace založená na stejných vlastnostech (atributech), případně vyžadující nejen stejné atributy, ale i jejich hodnoty. Tento postup, jakkoli vzdálený "přirozenému" lidskému uvažování, se stal de facto standardem v návrhu struktur informačních systémů a softwarových aplikací.

"Nesystémové" přístupy ke kategorizaci

Formální ekvivalence se určuje zvenčí, podle "povrchu", formy (tím, co vidíme, "jak to vypadá"). V lingvistice se pro tento typ ekvivalence tradičně používá označení homonymie. Na rozdíl od systémového přístupu, který zkoumá vnitřní vlastnosti, se zájem soustředí na metadata přidělená zkoumaným objektům, tj. na vnější vlastnosti. Kritériem ekvivalence je zpravidla stejné označení (názvy, metadata) prvků, funkcí, vlastností, vztahů. Tento postup lze automatizovat a svěřit tak kategorizaci počítači.

Třetím způsobem je subjektivní, arbitrární určování ekvivalence, přizpůsobené individuálním potřebám toho, kdo konceptualizaci realizuje.[2] Tento typ ekvivalence je obvykle vyjadřován extenzionálně, tj. vyjmenováním (enumerací) ekvivalentních prvků. Do této skupiny patří i tzv. kanonicky určená ekvivalence a ekvivalence zdůvodněná různými pragmatickými důvody, kdy jsou ekvivalentní věci sdružovány na základě společného cíle či účelu. Zcela arbitrárním způsobem je určení kategorií založené na náhodě, například stanovení skupin soutěžících týmů ve sportovních soutěžích losováním.

kritéria ekvivalence

[1] Poznámka: Tyto názvy byly zformulovány jako ryze pracovní pouze pro účely tohoto textu, nejsou tedy součástí odborné terminologie.

[2] Poznámka: Jako subjektivní lze samozřejmě označit i kritéria ekvivalence pro účely kategorizace v lidské mysli, již zkoumá kognitivní věda.

5. Různé kategoriální systémy (systémy základních kategorií)

Významnou roli ve filozofii i v speciálních disciplínách hrají tzv. základní kategorie, tj. kategorie nejvyšší úrovně, zahrnující ve svém souhrnu veškeré univerzum poznání. Vymezení takových kategorií patří k základním filozofickým otázkám.

O vymezení základních kategorií se snažili i odborníci v oblasti informační vědy, kteří se zaměřují především na aplikace v oblasti systémů organizace znalostí. Například dle Anthony C. Fosketta existuje pět základních kategorií pojmů: entity, aktivity, abstraktní pojmy, vlastnosti, heterogenní pojmy.[2] Obdobný přístup je uplatněn v mezinárodní normě pro tezaury ISO 25964-1, která v částech 5.1.2 a 5.1.3 nabízí orientační výběr z typických základních kategorií: věci a jejich fyzické části, materiály, činnosti nebo procesy, události nebo výskyty, vlastnosti osob, věcí, materiálů nebo akcí, vědní disciplíny nebo obory, jednotky měření, typy osob a organizací. Individuální entity označené vlastními jmény lze podle normy rovněž seskupovat do kategorií – nabízí se kategorie pro místa, specifické objekty, topografické úkazy, jednotlivce, organizace, společnosti.

V následující tabulce jsou pro srovnání uvedeny příklady významných systémů základních kategorií. V některých případech je dvojitou čarou naznačeno vnitřní členění daného systému. Je patrné, že četné kategorie se (třeba i s pozměněnými názvy) vyskytují ve většině systémů. V plné míře to platí pro známé filozofické kategorie prostor a čas. Zároveň je však zřetelně vidět, že každý z představených systémů je založen na poněkud jiných základech a nelze je tedy jednoduše propojit přímými odkazy z jedné soustavy do druhé.

Kategorie

Tab. 1 Příklady základních kategorií

Aristotelovy kategorie

V průběhu historie se o vymezení základních kategorií snažili mnozí myslitelé. Na evropskou a obecně západní filozofickou tradici významně zapůsobil Aristotelův ontologický systém v interpretaci Porfyria z Tyru. Aristotelův systém zahrnuje deset kategorií: podstata (substance, věc – jediná samostatná kategorie, všechny další kategorie jsou považovány za tzv. případky, akcidenty), kvantita, kvalita, vztah, místo, čas, poloha, mít (vlastnictví, stav), činnost, trpnost.[1] Tento kategoriální systém spolu s přesvědčením, že příslušnost do kategorie je založena na společných vlastnostech, byl bezmála po dvě tisíciletí považován za standard a stal se základem četných vědních klasifikací a systémů organizace znalostí.

5W1H

Jedním z příkladů aplikace aristotelského systému je šestice kategorií označovaná jako 5W1H. Zkratka je vytvořena z prvních písmen anglických tázacích zájmen who – kdo, what – co, where – kde, when – kdy, why – proč, how – jak. Obdobný přístup lze vysledovat v systému mluvnických pádů v četných jazycích včetně češtiny (viz tzv. pádové otázky: nominativ – kdo, co?, genitiv – koho, čeho?, dativ – komu, čemu?,  akuzativ – koho, co?, lokál – o kom, o čem?, instrumentál – kým, čím?).

Ranganathanovy kategorie

Velký vliv na vývoj moderního přístupu k organizaci znalostí v knihovnách mělo pojetí kategorií jako základního principu metody fasetové analýzy. Prvotním impulsem byla pětice kategorií stanovená Shiyali R. Ranganathanem jako základ jeho Dvojtečkového třídění: "osobnost" (angl. personality, zkratka P) – podstata, kategorie příbuzná s Aristotelovou kategorií substance, hmota/látka/materiál (angl. matter, zkratka M), energie (angl. energy, zkratka E) – aktivita, prostor (angl. space, zkratka S) a čas (angl. time, zkratka T).

Kategorie CRG

Pětici Ranganathanových kategorií rozpracovala britská Skupina pro výzkum klasifikace (Classification Research Group – CRG) do systému 13 kategorií: věc, druh, část, vlastnost, materiál, proces, operace, pasivní prvek činnosti, produkt, vedlejší produkt, agent, prostor, čas.

Na systému základních kategorií jsou založeny i všechny typy informatických ontologií – terminologické, informační i znalostní.

Mezinárodní desetinné třídění

Typickým zástupcem terminologických ontologií je Mezinárodní desetinné třídění (MDT), jež je jedním z nejvýznamnějších a nejrozšířenějších univerzálních systémů organizace znalostí. Strukturu klasifikačního schématu MDT vyjadřují tzv. tabulky, z nichž každá obsahuje vlastní hierarchický seznam znaků, kombinovatelných se znaky z ostatních tabulek. Základní schéma představuje deset vrcholových tříd hlavních tabulek[3], postupně členěných podle narůstající specifičnosti na další úrovně s uplatněním desetinného principu. Tyto základní kategorie slouží k vyjádření tématu a jsou založeny na koncepci klasifikace věd Francise Bacona. V aktuální verzi MDT mají následující označení:[4]

0 Věda a poznání. Organizace. Věda o počítačích. Informace. Dokumentace. Knihovnictví. Instituce. Publikace
1 Filozofie. Psychologie
2 Náboženství. Teologie
3 Společenské vědy
5 Matematika a přírodní vědy
6 Aplikované vědy. Lékařství. Technika
7 Umění. Rekreace. Zábava. Sport
8 Jazyk. Lingvistika. Literatura
9 Geografie. Biografické studie. Dějiny

Tyto hlavní třídy jsou doplněny tzv. pomocnými tabulkami, jež v kombinaci s hlavními znaky umožňují uplatnit další hlediska, například formu či jazyk organizovaného zdroje. Třetí sadou jsou zvláštní pomocné znaky, navržené podle specifik konkrétního předmětu, které lze kombinovat s hlavními znaky určité třídy.

Zástupci skupiny informačních ontologií relevantní pro doménu organizace znalostí jsou referenční pojmové modely IFLA LRM[5] a CIDOC CRM[6].

Referenční pojmový model IFLA LRM je důležitým příspěvkem k tvorbě základní ontologie pro oblast knihoven. Přes svoje zakotvení ve sféře paměťových a fondových institucí a tím dané omezení na tzv. bibliografické univerzum představuje zároveň model IFLA LRM v současnosti nejobecněji přijímaný explicitně specifikovaný model (ontologii) organizace znalostí. V rámci modelu je definováno 11 kategorií propojených hierarchickými a asociativními vztahy. Na nejvyšší úrovni hierarchie se nachází entita věc (res, kód E1), zahrnující všechny entity v rámci univerza diskurzu, které v modelu IFLA LRM tvoří bibliografické univerzum. Podkategoriemi entity věc jsou dílo (angl. work, kód E2), vyjádření (angl. expression, kód E3), provedení (angl. manifestation, kód E4), jednotka (angl. item, kód E5), agent (angl. agent, kód E6) s podkategoriemi osoba (angl. person, kód E7) a kolektivní agent (angl. collective agent, kód E8), jméno (nomen, kód E9), místo (angl. place, kód E10), časové rozpětí (angl. time-span, kód E11).

Ontologie CIDOC CRM byla vytvořena mezinárodní muzeologickou organizací jako doménová referenční ontologie pro výměnu informací o kulturním dědictví, má ovšem rovněž rysy základní ontologie, protože obsahuje i obecné pojmy pro vyjádření časoprostorových charakteristik a abstraktních pojmů. Ontologie je tedy použitelná i v jiných oblastech. Díky vysoké míře formalizace je možné ji řadit mezi těžké ontologie. Zahrnuje 82 tříd a 262 predikátů, jež pokrývají i pojmy nejvyšší úrovně. Na vrcholu hierarchie je třída "E1 CRM entita", jež zahrnuje pět vrcholových kategorií: dočasnou entitu, trvalou položku, časové rozpětí, místo a rozměr.

Jako příklady kategoriálních systémů formalizovaných znalostních ontologií v našem stručném přehledu uvádíme vrcholové kategorie základních ontologií DOLCE a BFO (Basic Formal Ontology)[7] Barryho Smithe a spoluautorů.

Základní ontologie DOLCE má na nejvyšší úrovni čtyři základní kategorie: objekt (endurant), událost (perdurant), kvalita (vlastnost) a abstraktní entita.

Obdobně základní ontologie BFO obsahuje dvě nejobecnější kategorie – statické závislé a nezávislé kontinuanty a dynamické výskyty, jež se člení na procesy, hranice procesů a dočasné a časoprostorové entity.



[1] ARISTOTELÉS. Organon. I, Kategorie. Přeložil A. Kříž. [Komentář A. Kříž a K. Berka. Úvodní studii napsal Karel Berka.] 1. vyd. Praha: Nakladatelství Československé akademie věd, 1958. 75 s.

[2] FOSKETT, Anthony Charles. The subject approach to information. 5th ed. London: Library Association Publishing, 1996, s. 77.

[3] Poznámka: Třída 4 je momentálně neobsazena.

[4] Zdroj: UDC Consortium. České MDT Online [online]. Den Haag: UDC Consortium, 2018 [cit. 2024-05-10]. Dostupné z: https://cz.udc-hub.com/cs/login.php. Dostupné také z: http://www.udc-hub.com/. Přístup volný po registraci.

[5] IFLA Library Reference Model (LRM) [online]. Pat Riva, Patrick LeBoeuf, Maja Žumer, ed. Hague: International Federation of Library Associations and Institutions, rev. August 2017 [cit. 2024-05-10]. 101 s. Dostupné z: https://www.ifla.org/publications/node/11412.

[6] ICOM/CIDOC Special Interest Group. Definition of the CIDOC Conceptual Reference Model [online]. Produced by the ICOM/CIDOC Documentation Standards Group, continued by the CIDOC CRM Special Interest Group. Chryssoula Bekiari, George Bruseker, Martin Doerr, Christian-Emil Ore, Stephen Stead, Athanasios Velios, ed. Version 7.1. March 2021 [cit. 2021-04-11]. 174 s. Dostupné z: http://www.cidoc-crm.org/Version/version-7.1.

[7] ARP, Robert, SMITH, Barry, SPEAR, Andrew D. Building ontologies with Basic Formal Ontology. Cambridge, Mass.: MIT Press, 2015. 248 s. ISBN 978-0-262-52781-1 (brož.). ISBN: 978-0-262-32957-3 (eBook). https://doi.org/10.7551/mitpress/9780262527811.001.0001.