Struktury informačních zdrojů: studijní opora

Stránky: Moodle UK pro výuku 1
Kurz: Klasifikace a systémová analýza - AISPV1001
Kniha: Struktury informačních zdrojů: studijní opora
Vytiskl(a): Nepřihlášený host
Datum: pátek, 22. listopadu 2024, 23.50

1. Úvod

Za informační zdroje pro účely tohoto textu považujeme dokumenty, záznamy, data i metadata včetně jejich kolekcí (agregáty, databáze, datové sady). Takto široce vymezené zdroje zahrnují tedy jakékoli informační objekty, zprávy, aplikace a služby.

Kdy považujeme informační zdroj za strukturovaný?

Obsahuje-li alespoň jeden element (tj. formální nebo obsahový strukturní prvek menší než celý dokument a větší než základní konstrukční prvek – písmeno, znak, pixel...), rozpoznatelný člověkem i počítačovým programem.

a)  bez struktury 1  b)  bez struktury 2

Obr. 1 Dokumenty "bez struktury": a) struktura nerozpoznatelná člověkem, b) struktura nerozpoznatelná počítačem

Tip:
Přečtěte si vysvětlení Billa Inmona, jakému typu struktur "rozumí" počítače, na https://www.linkedin.com/pulse/text-really-unstructured-bill-inmon/.

Význam znalostí o struktuře zdrojů v informační praxi:
  • Volba strukturování dokumentu bezprostředně ovlivňuje efektivnost operací/interakcí s ním (srovnáváme cenu/výkon).[1]
  • Přesná pravidla pro strukturování dokumentů potřebujeme z důvodu jejich počítačového zpracování, často i generování.
Informační procesy vyžadující znalost struktury informačního zdroje
  • Publikování
    Základní současné technologie publikování informací:
  • tisk na papír (knihy, časopisy) - uzavřená vývojová etapa
  • přenos energií (vysílání)
  • elektronické (digitální) dokumenty - perspektivní, stále ve vývoji
  • Zpracování
    • zdroje, které získáme, musíme umět dále zpracovat (např. vytisknout, sloučit s jiným dokumentem...)
    • popisování a odkazování - popis a odkaz "připojujeme" k rozpoznané strukturní části zdroje
  • Vyhledávání
    • při znalosti struktury zdroje můžeme při vyhledávání zamířit přímo do určitých informačně významných částí (např. obsah, název, anotace)
    • zdroje se třídí podle obsahu příslušných strukturních prvků (např. název)
    • význam znakových sad pro vyhledávání informací: podle pořadí ve znakové sadě (kódové tabulce) se postupuje při třídění (tj. ovlivňuje složení indexů), kódování znaků je rozhodující pro výsledek jejich porovnávání při vyhledávání (string matching)
Cíl: Najít obecnou / otevřenou strukturu (formát, architekturu)
  • použitelnou pro co největší počet typů zdrojů (heterogenita)
  • nezávislou na platformě, tj. na použitém hardwaru a softwaru
  • umožňující distribuovat informační zdroje
  • srozumitelnou lidem i počítačovým programům


[1] Viz např. TKAČÍKOVÁ, Daniela. Kvalitní dokument jako základ účinného vyhledávání informací. In: Informace na dlani [online]. Praha: Albertina icome Praha, ©2004. ISSN 1214-1429. Dostupné z: https://www.inforum.cz/pdf/2004/Tkacikova_Daniela.pdf.

2. Terminologie

Většinu informačních zdrojů můžeme zpravidla chápat jako hierarchicky strukturované celky, jež tvoří strukturované jednotky (entity členěné na označené elementy) obsahující informace.

úrovně granularity

Obr. 2 Úrovně granularity organizovaných zdrojů

médium
  • Jakýkoli prostředek umožňující komunikovat znalosti a informace.
  • Potenciální zdroj informací (má schopnost obsahovat informaci).
informační zdroj / informační pramen / zdroj (information source, information resource, resource)
  • Médium obsahující informaci: prostředek společenské komunikace (tj. médium) tvořený množinou informací a sloužící k jejich fixaci (záznamu) a/nebo přenosu v čase a prostoru
  • Objekt, který je nositelem, zprostředkovatelem nebo šiřitelem informací (knihovna, archiv, počítačová databáze, CD-ROM, databázové centrum, informační středisko, televize, rozhlas, vlastní paměť, osobní informační systém, jiné osoby, jednotlivé dokumenty...)
  • Samostatná jednotka komunikace nebo zpracování informací
dokument
  • Zdroj informací, který má hmotný nosič
  • Druh informačního zdroje tvořený nosičem informací v podobě hmotného předmětu (viz např. https://www.scientificamerican.com/article/dna-data-storage-is-closer-than-you-think/) a množinou uspořádaných dat či informací na něm zaznamenaných, tj. hmotně fixovaných, sloužící k jejich přenosu v čase a prostoru
  • Samostatná jednotka z hlediska obsahu: může se identifikovat, zpracovávat a vyměňovat jako celek (jednotka) mezi uživateli a/nebo systémy.
  • Obvykle je psaný, ale může být též tvořen obrazy nebo zvukem; v elektronické podobě mají dokumenty zpravidla formu souboru nebo záznamu v databázi, případně údajů v datových sadách
  • Dle ISO/IEC 8613: strukturovaná jednotka (entita, množina) obsahující informace, určená pro smyslové vnímání člověkem
kolekce

Též korpus / sbírka / fond / báze / databáze / datová sada/ repozitoř (angl. information store, collection, stock, asset, dataset, repository)
Množina uspořádaných dokumentů.

element (prvek) dokumentu (data/information element, datový/informační element/prvek)
  • Jakákoli část menší než samotný dokument a zároveň větší než základní stavební jednotka (např. bit, pixel)
  • Dle ISO/IEC 8613: Základní jednotka identifikovatelných a definovatelných dat (informací). Má jméno, představované např. tagem, a jednu nebo více hodnot vyjadřujících konkrétní fakt/a prostřednictvím kódů, číslic nebo přirozeného jazyka. Jednotka dat, pro kterou se prostřednictvím množiny atributů specifikují: definice, identifikace, prezentace a přípustné hodnoty.

Elektronické publikování = tvorba (editace) + prezentace + výměna
Editace

Vykonávání činností spojených s vytvářením a změnou struktury a/nebo obsahu dokumentu.

Možnosti vytvoření elektronického dokumentu:

  1. prvotním pořizováním
    např. napsání dopisu na klávesnici počítače s použitím textového editoru (současně vytváříme obsah - text a značky - strukturování či formátování), vyplnění údajů do formuláře
  2. konverzí z externího zdroje
    např. převedení dopisu ve Wordu do PDF, digitalizace tištěných dokumentů
  3. generováním z jiných informací
    např. tvorba reportů (sestav) z dat uložených v databázi, mash-up

Podíl ruční práce, obtížnost algoritmizace: 1 - nejvyšší, 3 - nejnižší

Možnost ovlivnit obsah: 1 - ano, 2 - ne, 3 - zpravidla ne

Prezentace

Realizuje se jen tehdy, pokud bude příjemcem dokumentu uživatel – člověk (není zajímavé pro počítačové aplikace).

  • postup interpretování dokumentu ve smyslově vnímatelné podobě
  • formátování dokumentu na prezentačním médiu

prezentační médium
nosič informace ve smyslově vnímatelné podobě (např. papír, obrazovka počítače)

Výměna (interchange)

Proces přenášení dokumentu ze systému původce do systému příjemce pomocí prostředků datové komunikace nebo výměnou paměťového média. Je zajímavé tehdy, bude-li se dokument předávat mezi dvěma (či více) různými systémy (tj. musí-li v průběhu výměny dojít k překódování, resp. k přeformátování).

3. Typologie dokumentů

typy dokumentů

Obr. 3 Typologie dokumentů

1. Členění podle typu zpracování/editace obsahu

transakční dokument

dynamický dokument: s dokumentem nebo s jeho částmi se po jeho vytvoření budou provádět operace - transakce (přidávání či změna obsahu, kombinace s obsahem jiných dokumentů či částí, odvozování nových údajů)

Tabulka        CAD

Obr. 4 Transakční dokumenty

narativní dokument

statický dokument: po jeho vytvoření už nedochází ke změnám obsahu ani struktury

texty

Obr. 5 Narativní dokumenty

Transakční dokument Narativní dokument
typický obsah strukturovaný popis nějakého objektu či události - data (datově orientovaný dokument) lineární popis ("příběh") - text (textově orientovaný dokument)
typická informace o obsahu (metadata) pojmové schéma, metadatové schéma, datový model výsledky obsahové analýzy: redukované texty (abstrakty, referáty), rejstříková hesla, klíčová slova, třídníky použité klasifikace
typické členění logické, podle obsahu (sémantiky) jednotlivých částí, s explicitním popisem jejich vzájemných vztahů prezentační (vzhledové), implicitní struktura (např. odstavec, věta...)
typické procesy aktualizace, čištění dat, dotazování (database searching) editace, tisk, kontrola pravopisu, počítání slov, plnotextové vyhledávání informací (information retrieval)
typický cíl dotazu
část dokumentu (položka, element) dokument jako celek
typický tvůrce a příjemce (uživatel) počítačový program člověk
typické uživatelské rozhraní pro vstup/editaci obsahu
formulář textový editor
typické uživatelské rozhraní pro výstup/zpřístupnění obsahu sestava tištěný dokument (výtisk)

Tab. 1 Srovnání transakčních a narativních dokumentů


2. Členění podle typu využití obsahu

Toto členění je odvozeno z typologie znalostí založené na způsobu jejich reprezentace a na způsobu jejich využití. Tradičně se znalosti člení na deklarativní (konceptuální) a na procedurální (operační).

deklarativní dokument

Obsahuje znalosti, poznatky, jejichž účelem je něco se dozvědět.

Obsah: znalost (poznatek)
Účel: abychom věděli (něco)

procedurální dokument

Obsahuje potvrzení, jehož účelem je umožnit realizaci nějaké činnosti.

Obsah: potvrzení platnosti (důkaz, svědectví, ověření, evidence, doklad): identity, události, transakce, oprávnění, vlastnictví
Účel: abychom mohli (realizovat nějakou činnost)

Babička      Obcanka

Obr. 6 Deklarativní a procedurální dokumenty s informací o osobě

4. Typy strukturování dokumentů

Kritéria pro volbu typu struktury

Při posuzování vhodnosti určitého typu struktury jsou uplatňována především kritéria sémantiky (které vztahy je struktura schopná vyjádřit), flexibility struktury (tj. přizpůsobivost změnám) a případů užití a) při organizaci informačních zdrojů (makro-struktury kolekcí dokumentů) a b) při strukturování dokumentů (mikro-struktury jednotlivých zdrojů).

Nejčastěji se berou v úvahu tato kritéria:

  • Funkce dokumentu
  • Účel obsahu dokumentu
  • Typ obsažených informací (text, grafika, audio, video, multimédia...)
  • Způsob užití / prezentace dokumentu
  • Možnost editace
  • Možnost vyhledávání / přístupu
  • Obtížnost (pracnost) tvorby dokumentu
  • Nároky na zdroje, cena vybavení
  • Uživatelé dokumentu

Možné způsoby strukturování elektronických dokumentů

  • „nestrukturované“
    např. image (obraz digitalizovaného dokumentu), tzv. binární formáty aj.
  • strukturované
    celý dokument je rozdělen na označené části (elementy)
  • hybridní (semistrukturované)
    např. strukturované záhlaví, nestrukturované tělo v emailu
Typy strukturování
a) obsahové - formální

Explicitně a pro počítačový program srozumitelně vyjádřená informace o elementech

  • obsahu (logická struktura)
  • formy (vzhled, formát, styl, layout)

styl (angl. style)
pojmenovaná množina formátovacích instrukcí umožňující uživateli uplatnit na text více atributů současně a standardizovat rozvržení dokumentu použitím týchž formátovacích charakteristik na různé části textu

style sheet (formátovací sada, příloha stylu, šablona stylu, tabulka stylu)
souhrn stylů uložený v souboru; určuje úpravu dokumentů, k nimž je připojen

Problém: Mnohdy se obtížně rozlišuje, co je obsah a co forma (např. Název)

forma      obsah

Obr. 7 Struktura formy a struktura obsahu

b) homogenní - nehomogenní
Homogenní
tzv. strukturované, příp. pevně strukturované dokumenty
Nehomogenní
tzv. nestrukturované dokumenty
software DBMS (systém řízení báze dat) textové editory
informace o struktuře obsahuje schéma (datový model + datový slovník) definice typu dokumentu
způsob prezentace určují formuláře styly
obsah záznamy instance
název souborů takto strukturovaných dokumentů databáze textové databáze, kolekce
Příklad: homogenní struktura v relační databázi nehomogenní struktura v HTML dokumentu

c) editovatelné - needitovatelné

uživatel má / nemá k dispozici nástroje pro editaci dokumentu

d) procedurální - neprocedurální (deklarativní, deskriptivní)

určuje, co se má s dokumentem (elementem) dělat / co dokument (element) je

e) dle datové struktury: lineární - stromová (hierarchická) - síťová - relační
f) proprietární - otevřené

závislé / nezávislé na použitém hardwaru a softwaru


Nejčastěji používané nástroje pro elektronické publikování a typ strukturování, který umožňují:
typ formátu
/
typ strukturování
textové
editory
jazyky
pro popis stránky
databázové
programy
značkovací
jazyky
obsahové   x x
formální x x x x
homogenní     x  
nehomogenní x x   x
editovatelné x   x x
proprietární x x x  
otevřené   x
procedurální x x x  
neprocedurální   x x
lineární x x    
hierarchická     x x
síťová       x
relační     x  

4.1. Historie vyznačování struktury dokumentů

šipka analogové Bez vyznačení – starověká písma
Velká písmena
Mezery mezi slovy, iniciály, interpunkce
Příprava rukopisů pro sazbu: typografické značky, korekturní znaménka
digitální Značky v textových editorech
Jazyky pro popis stránky
Databázové programy
proprietární
Značkovací jazyky
Propojená data (RDF)
otevřené

Bez vyznačení struktury – starověká písma
staroveka pisma kipu latina

Velká písmena, mezery mezi slovy, iniciály, interpunkce
rukopis1 rukopis2 Dívčí válka

Příprava rukopisů pro sazbu
Typografické značky Korekturní znaménka
typograficke znacky korektury

Značky v textových editorech
MS Word WordPerfect
word WordPerfect

Jazyky pro popis stránky
PostScript PDF (Portable document format)
PostScript PDF

Databázové programy
Databáze – obsah (instance) Databáze – definice struktury Databáze – formulář (styl)
Data data2 data3

Značkovací jazyky
HTML

XML
Metadata ve formátu MODS pro píseň Amazing Grace
Zdroj: Library of Congress (http://memory.loc.gov/diglib/ihas/loc.natlib.ihas.200149079/mods.xml)

HTML    xml

4.2. Proprietární technologie

Textové editory

TXT, DOC, RTF, ODT, WPD, TEX

umožňují pouze formální strukturování dokumentu

RTF - Rich Text Format

standard firmy Microsoft, umožňující přenos dokumentů zpracovaných v MS Wordu mezi různými textovými editory

Ukázka: Report vygenerovaný z programu PowerDesigner ve formátu RTF

Jazyky pro popis stránky

umožňují pouze formální strukturování dokumentu

dokument je uložen spolu s pokyny jazyka pro popis stránky
vše - text, fonty, grafika a informace o layoutu - je součástí formátu souboru

PostScript

standard firmy Adobe
jazyk pro vektorový popis grafické informace
jazyk pro popis stránky - úplný programovací jazyk určený pro publikování

určeno ke zpracování formátovaného textu včetně vektorové i rastrové grafiky na kompatibilní tiskárně

Ukázka: Zdrojový text dokumentu ve formátu PostScript (část)

PDF - Portable Document Format

standard firmy Adobe
ISO 19005. Document management — Electronic document file format for long-term preservation.
Podmnožina jazyka PostScript - bez programovacího jazyka

obsahuje pouze data nezbytná k zobrazení nebo tisku obsahu dokumentu

Ukázky:
Dokument ve formátu PDF
Zdrojový text dokumentu ve formátu PDF (část)

TEX - TEX Device Independent File Format

Databázové programy

umožňují obsahové i formální strukturování dokumentu

4.3. Otevřené technologie

Základem otevřených technologií je oddělení tří komponent dokumentu

1) obsah

co to znamená (jedinečné pro každý dokument)

2) struktura obsahu (opakovatelné pro více dokumentů)

kde to je
jak je to organizované nebo seskupené

3) prezentace obsahu (opakovatelné pro více dokumentů)

jak to vypadá
jak je to zobrazené


ODA - Open Document Architecture (ISO 8613)

Užití: strukturování a formátování elektronických dokumentů s cílem usnadnit jejich výměnu

Princip:

Definují se dvě hierarchické struktury dokumentu:

  • struktura obsahu (logická struktura)
  • struktura formy (struktura vzhledu)

Informace o uspořádání (struktura, profil) a obsah (instance) dokumentu jsou uloženy zvlášť.

dokument:
v souvislosti s ISO 8613 se za dokumenty považují písemnosti, jako jsou zápisy, faktury, formuláře a zprávy, které mohou obsahovat obrázky a tabulky. Prvky obsahu použité v dokumentech mohou obsahovat grafické znaky, prvky vektorové a rastrové grafiky, které je možné zahrnout do jednoho dokumentu.
architektura dokumentů:
pravidla pro definování struktury a reprezentace dokumentu

3 základní prvky architektury dokumentu podle ODA:

1. vlastní obsah dokumentu (instance)
profil dokumentu:
2. model obsahu: definice logické (obsahové) struktury dokumentu - neprocedurální
3. model formy: definice struktury uspořádání dokumentu (stylu, formátu) - procedurální

ODA

ČSN ISO/IEC 8613 (36 9642) Informační technologie - Architektura otevřených dokumentů (ODA) a formát výměny

Anglická verze je dostupná z: http://www.itu.int/ (T.411-T.424)


EDI - Electronic Data Interchange

Obecné označení pro proces elektronické výměny strukturovaných standardních zpráv mezi dvěma aplikacemi dvou nezávislých subjektů.

Pravidla strukturování dávkových a interaktivních zpráv vyměňovaných v otevřeném prostředí mezi systémy počítačových aplikací
využití: obchodní transakce, e-byznys, B2B


EDI

konkrétní implementace EDI:

  • UN/EDIFACT - Elektronická výměna dat pro správu, obchod a dopravu. ISO 9735. Electronic data interchange for administration, commerce and transport (EDIFACT).
  • ANSI X12
  • GS1 EANCOM (podmnožina UN/EDIFACT), GS1 XML
  • UBL – Universal business language

Propojená data a RDF

Viz kapitola 6.2

5. Stromová struktura otevřených dokumentů: standard SGML

Používaná terminologie

markup

označování, značkování, vyznačování
typ metadat: text, který je přidán k datům dokumentu, aby o nich poskytl informaci

tag

příznak: popisné vyznačení, značka
existují dva druhy příznaků - počáteční a koncový

parser

syntaktický analyzátor
program (procesor), který rozpoznává značky v dokumentech (např. SGML nebo HTML tagy)

typ dokumentu (document type)
třída dokumentů, které mají podobné charakteristiky, např. časopis, článek, technická příručka nebo dopis
typ prvku (element type)
třída prvků, které mají podobné vlastnosti, např. odstavec, kapitola, anotace, poznámka pod čarou nebo bibliografie
prvek - element
komponenta hierarchické struktury definovaná v definici typu dokumentu; v instanci dokumentu je identifikována popisným vyznačením, obvykle počátečním a koncovým tagem
validace
ověření shody vyznačeného dokumentu s příslušným modelem  struktury (schématem)
Definice typu dokumentu - DTD
  • Jedna ze dvou základních částí dokumentů strukturovaných podle standardu SGML, která popisuje strukturu obsahu dokumentu. Definuje všechny elementy dokumentu a jejich vzájemné vztahy. Obsah dokumentu je tak tvořen textovými informacemi oddělenými označením struktury, definovaným v DTD. DTD vznikne použitím SGML pro určitý typ dokumentu (= popis značek a jejich vzájemných možných vztahů).
  • DTD zahrnuje formální specifikaci (vyjádřenou v deklaraci typu dokumentu) typů prvků, vztahů mezi prvky a atributů a rovněž odkazů, které mohou být vyjádřeny vyznačením. Tím definuje slovník vyznačení, pro nějž SGML definuje syntaxi.

DTD definuje:

  • elementy - název, obsah, atributy elementů
    obsah elementu:
    elementy rozkládáme až na úroveň primitivních datových typů - obdoba datového typu v databázích (např. CDATA, PCDATA, EMPTY...)
  • pořadí elementů
  • nadřazenost - podřazenost elementů
  • povinnost výskytu elementů
  • možnost vícenásobného (opakovaného) výskytu elementů
  • povinnost - nepovinnost uvádění tagu
DTD

Ukázka:

Definice typu dokumentu pro HTML 4.01 Transitional http://www.w3.org/TR/REC-html40/loose.dtd


5.1. SGML

SGML - Standard Generalized Markup Language (Standardní univerzální vyznačovací jazyk)
ISO 8879:1986

Příloha A - Úvod do univerzálního vyznačování

  • Obecný jazyk pro popis všech prvků elektronicky publikovaného dokumentu (textu, titulní strany, názvů kapitol, tabulek, obrázků apod.), který formalizuje vyznačování a činí je nezávislým na systému a souvislostech zpracování; dokument tvoří soubor označeného textu se vsunutými označeními údajů (tagy), jež definují začátek a konec každé logické jednotky
  • Metajazyk určený pro popis (kódování) hierarchicky strukturovaných textů
  • Metajazyk určený pro formální popis konkrétních jazyků typu "markup" (definuje jejich syntaxi)
  • Objektově orientovaná metoda popisu dokumentů

užití: oblast publikování (vydavatelská činnost) v nejširším slova smyslu, zejména textově orientovaných informací

Základní notace SGML

<počáteční tag>

</koncový tag>

<!-- komentář, který se nezobrazuje -->

Notace pro definici typu dokumentu a příklady hodnot

název prvku (elementu) pravidla minimalizace vyznačení model obsahu
povinnost uvádění
počátečního tagu
povinnost uvádění
koncového tagu
obsažené elementy možnost opakování,
povinnost výskytu
data
antologie - 0 - 0 (báseň)

+ ? *

(#PCDATA)

spojovací symboly (konektory)
, oddělovač v rámci závazného pořadí
| výběr jedné z uvedených možností
& nutné elementy bez závazného pořadí

přípony (indikátory) výskytu
? volitelný neopakovatelný element (0 nebo 1)
+ povinný opakovatelný element (1 nebo více)
* volitelný opakovatelný element (0, 1 nebo více)

obsah ("datové typy")
#PCDATA parsed character data - syntakticky analyzovaná znaková data
CDATA znaková data - jakákoli data zobrazená znaky (texty)
EMPTY obsah je prázdný
ID jedinečný identifikátor (atribut elementu, který přesně stanoví jeho obsah)
ID=něco znamená, že obsahem atributu je hodnota ID (např. soubor s obrázkem)

příklady prvků DTD

Vyjádření v notaci UML

(zahrnuje jen některé z variant uvedených v levém sloupci)

báseň (autor , sloka*)   báseň tvoří jméno autora a sloky (přesně v tomto pořadí) basen
báseň název báseň má (atribut) název
báseň (název & autor & sloka*) báseň tvoří název, jméno autora a sloky (v libovolném pořadí)
sloka (verš+) každá sloka obsahuje alespoň 1 verš, může jich mít více
autor (foto | kresba | video) u autora se uvádí buď fotografie, nebo kresba nebo video
autor? báseň může mít jen 1 autora, nemusí mít žádného
název (#PCDATA) obsah atributu název je tvořen textem

Příklad:

DTD pro antologii poezie

Logická struktura:

Antologii neboli výbor tvoří básně zpravidla různých autorů, u nichž je uveden název, údaje o autorovi a fotografie nebo kresba autora, případně videozáznam. U překladů se uvádí jméno překladatele. Básně se člení na sloky, sloky na verše. Každá báseň má alespoň jednu sloku, v každé sloce je alespoň jeden verš.

basen

antologie

Definice typu dokumentu:

<! DOCTYPE antologie [
<! ELEMENT antologie - - (báseň+)>
<! ELEMENT báseň - - (název?, autor, sloka+, překladatel?)>
<! ELEMENT název - - (#PCDATA)>
<! ELEMENT autor - - (jméno, datum narození, datum úmrtí?, foto? | kresba?, video?)>
<! ELEMENT jméno - - (#PCDATA)>
<! ELEMENT datum narození - 0 (#PCDATA)>
<! ELEMENT datum úmrtí - 0 (#PCDATA)>
<! ELEMENT foto - 0 EMPTY>
<! ELEMENT kresba - 0 EMPTY>
<! ELEMENT video - 0 (videozáznam, komentář)>
<! ELEMENT videozáznam - 0 EMPTY>
<! ELEMENT komentář - 0 (#PCDATA)>
<! ELEMENT sloka - - (verš+)>
<! ELEMENT verš - 0 (#PCDATA)>
<! ELEMENT překladatel - - (#PCDATA)>
]>

Instance dokumentu:

<antologie>
<!--
Toto je část básně z připravované antologie americké poezie -->
<báseň>
<název>
Samoobsluha v Kalifornii </název>
<autor>
<jméno>
Allen Ginsberg </jméno>
<datum narození>
1926
<datum úmrtí>1997
<foto ID=ginsberg.jpg>
<video>
<videozáznam ID=
GinsbergCorso.mov>
<komentář>
Allen Ginsberg a Gregory Corso v San Franciscu v roce 1997
</autor>
<sloka>
<verš>
Jak jsem na tebe myslel dnes večer, Walte Whitmane, když jsem kráčel postranními uličkami pod stromy, bolela mě hlava a plaše jsem hleděl na měsíc v úplňku.
<verš>Utahaný a hladový, chtěl jsem nakoupit obrazy, a tak jsem vešel do neónové samoobsluhy s ovocem a snil o tvých enumeracích!
<verš>Jaké broskve a jaké odstíny! Celé rodiny nakupující v noci! Uličky plné manželů! Ženy u avocados, děti v rajčatech! - A ty, Garcío Lorco, co tys tam hledal mezi melouny?
</sloka>
<překladatel>
Jan Zábrana</překladatel>
</báseň>
</antologie>


Ukázky struktury a stručný návod k tvorbě DTD dokumentů podle standardu SGML:

SGML1 - Antologie poezie

SGML2 - Bibliografický záznam

5.2. HTML

Hypertext Markup Language (hypertextový vyznačovací jazyk, HTML)

jazyk (DTD) pro strukturování a formátování dokumentů na webu

typ dokumentu HTML:
webová stránka/dokument (web page/document), tj. jednotka informace přístupná v síti WWW

charakteristické rysy:

  • hypertextové vazby na jiné dokumenty v síti WWW        <a href=" "> </a>
  • složené dokumenty (začínají "existovat" až v počítači příjemce)                <img src=" ">

Struktura HTML dokumentu

!DOCTYPE = deklarace typu dokumentu (zpravidla ve formě odkazu na externí DTD)
HTML = instance dokumentu
HEAD = záhlaví (informace pro browser)
META = informace o dokumentu, která není určená pro zobrazení browserem
BODY = tělo (informace pro uživatele)
html


Každý HTML dokument je složen z úseků - elementů. K rozlišení, o jaký element se jedná, slouží tagy. Nejčastější tagy jsou párové značky uzavírající příslušný úsek (element) dokumentu. Každý tag je složen ze jména (např. TITLE) uzavřeného mezi znaky < > nebo </ >.

vzhled počátečního tagu <JMENO>
vzhled koncového tagu </JMENO>

typy tagů:
    a) container (obsah elementu je uvnitř počátečního a koncového tagu)
    b) empty (ukončovací tag se nepoužívá)


Elementem může být:
a) obsahová část dokumentu (např. název)
<TITLE> </TITLE>
b) formální (vzhledová) část dokumentu (např. úsek zvýrazněný tučným písmem)
<B> </B>
c) obrázek
<IMG SRC=" ">
d) hypertextový uzel (hypertextová vazba, angl. hypertext link)
<A HREF=" "> </A>

Technologie HTML

html

browser

  • program pro prohlížení (prezentaci) HTML dokumentů
  • interpretuje tagy v HTML souboru a prezentuje soubor jako formátovanou, čitelnou webovskou stránku


HICKSON, Ian et al. HTML Standard. In: WHATWG: Living Standard [online]. Last updated 2024-04-29 [cit. 2024-05-01]. Dostupné z: https://html.spec.whatwg.org.

KOSEK, Jiří. HTML5: Tvorba dokonalých webových stránek. Dostupné z: http://htmlguru.cz/.

5.3. XML

XML - eXtensible Markup Language

TEI. A gentle introduction to XML. In: TEI: Guidelines for Electronic Text Encoding and Interchange.

rozšiřitelný vyznačovací metajazyk využitelný v prostředí Internetu

Podmnožina SGML - zjednodušení některých příliš složitých (a vývojem překonaných) pravidel

Rozšíření možností vyznačení textů oproti omezené nabídce HTML

  • umožňuje definovat vlastní tagy (resp. DTD/XSD)
  • další typy odkazů (obousměrné odkazy, odkazy na více míst, odkaz na celý úsek dokumentu)
  • oddělení informace o obsahu a stylu

typy XML dokumentů:

  • s DTD/XSD - valid (platné): splňují veškeré deklarace uvedené v DTD/XSD
  • bez DTD/XSD - well-formed (dobře vytvořené, správně strukturované): splňují obecná pravidla zápisu značek v XML

XML Schema definition language (XSD)
Jazyk pro definici struktury XML dokumentu. Rozšiřuje možnosti jazyka DTD.
https://www.w3.org/TR/xmlschema-0/

Aplikace XML Schema pro kódování bibliografických metadat vytvořených ve formátu MARC21:

METS - Metadata encoding and transmission standard
https://www.loc.gov/standards/mets/

MODS - Metadata object description schema
https://www.loc.gov/standards/mods/

MADS - Metadata authority description schema
https://www.loc.gov/standards/mads/

MARCXML - MARC21 XML schema
https://www.loc.gov/standards/marcxml/


6. Síťová struktura otevřených dokumentů: standard RDF

Používaná terminologie
IRI (Internationalized
resource identifier
)
Internacionalizovaný identifikátor zdroje.
literál Hodnota vztahující se k entitě (přesněji řečeno hodnota jejího atributu), vyjádřená řetězcem znaků; je-li například entitou tvůrce, může literál obsahovat jeho jméno.
objekt
predikát (angl. property/predicate)
prefix Zkrácená verze označení jmenného prostoru identifikátoru
subjekt
výrok / tvrzení (angl. statement) Trojice tvořená subjektem, predikátem a objektem.
zdroj (angl. resource)
Jakákoli entita v daném univerzu diskurzu. Subjekt nebo objekt.


syntaxe RDF    sémantika RDF funkčnost RDF

Výrazy v jazyce RDF tvoří 3 typy elementů:

  • zdroj
    subjekt/objekt ("podmět/předmět")
    uzel grafu

  • vlastnost/predikát
    vztah nebo atribut ("přísudek")
    hrana grafu

  • výrok
    trojice RDF (angl. RDF triple, "věta")

výrok = zdroj + vlastnost + zdroj/hodnota

      semantika RDF
  • IRI umožňuje přístup ke zdroji / odkazuje na zdroj
  • zdroj je denotát IRI
  • predikát propojuje zdroje (resp. jejich reprezentace, tj. IRI)

6.1. Propojená data

LOD - Linked open data (propojená otevřená data)

  • data jsou dostupná na webu pod otevřenou licencí
  • data jsou poskytována ve strojově čitelném strukturovaném formátu
  • formát dat je otevřený
  • jako identifikátory objektů jsou použity URI
  • data jsou pomocí odkazů propojena na jiná související data

Databáze Národní knihovny ČR jako otevřená data:
Zpřístupnění databází NK ČR pod licencí CC0. https://www.nkp.cz/o-knihovne/odborne-cinnosti/otevrena-data

6.2. RDF

"RDF je jazyk, navržený lidmi pro vyjadřování lidských myšlenek ve formě přístupné strojovému zpracování."[1]
Thomas Baker, 2012

Resource description framework (zkr. RDF) - rámec pro popis zdrojů je:

  • aplikace XML – jazyk pro psaní metadat pro zdroje na webu
  • rámec pro reprezentaci (tj. vyjádření) informací na webu
  • „obálka“, „kontejner“ na jakákoli metadata
  • jazyk pro tvorbu binárních a orientovaných výroků
  • síťová (grafová) struktura: orientovaný ohodnocený graf
Syntaxe RDF
 
„Věty“ v jazyce RDF tvoří výroky ve formě oznamovacích vět v jednotné struktuře trojic, formalizovaných jako výroky predikátové logiky.
Výroky / tvrzení tvoří dva typy strukturních prvků: 1) zdroj (angl. resource), který může být ve funkci subjektu ("podmět") nebo ve funkci objektu ("předmět") a 2) vlastnost (angl. property / predicate), jež plní funkci vztahu subjektu a objektu nebo atributu subjektu ("přísudek").

Struktura trojic RDF (angl. RDF triple): zdroj + vlastnost + zdroj / hodnota

subjekt (IRI entity A) – predikát (IRI vztahu) – objekt (IRI entity B, příp. literál)

Subjekty a objekty tvoří uzly grafu, predikáty představují jeho orientované hrany.

rdf-graph.svg 

Zdroj: https://www.w3.org/TR/rdf11-concepts/

Sémantika RDF
RDF-IRI           RDF-label
IRI označuje (reprezentuje, identifikuje) zdroj i predikát pro stroje.   rdfs:label označuje (reprezentuje, identifikuje) zdroj i predikát pro lidi.

Pro zápis IRI ze stejného jmenného prostoru (angl. namespace) lze použít zkrácenou verzi, v níž je opakující se část IRI nahrazena tzv. prefixem.

Příklad: Identifikátory a popisky prvků "textový zdroj" a "obsahuje část" metadatového schématu Dublin Core

zdroj (referent) rdfs:label IRI jmenný prostor prefix zkrácený identifikátor
subjekt/objekt textový zdroj Text http://purl.org/dc/dcmitype/Text http://purl.org/dc/dcmitype/ dcterms dcterms:Text
predikát obsahuje část hasPart http://purl.org/dc/terms/hasPart http://purl.org/dc/terms/ dcterms dcterms:hasPart

Analogií k textovým odstavcům, jež tvoří množina vět, jsou RDF grafy, tvořené množinou trojic RDF. Vztahy entit jsou implementovány jako linky RDF, jež mají rovněž formát trojic RDF. Na rozdíl od HTML linku (značka <a> s atributem „href“), který neobsahuje žádnou sémantiku, je RDF link „typovaný“, jeho význam je určen sémantikou použitého predikátu.

Příklad využití RDF pro strukturování bibliografických metadat

Bibliografické informace o knize Bohumila Hrabala Příliš hlučná samota, vydání z roku 1989. Metadata převzata z: https://aleph.nkp.cz/F/?func=direct&doc_number=000051861&local_base=NKC. Výroky jsou formulovány s využitím pojmového aparátu modelu IFLA LRM.

RDF0

Výroky:

<Bohumil Hrabal> <je autorem> <díla Příliš hlučná samota>.

<Dílo Příliš hlučná samota> <má předmětové heslo> <"Hrabal, Bohumil (1914-1997 spisovatel čes.) - dílo - studie">.

<Provedení Příliš hlučná samota: text> <je ztělesněním> <díla Příliš hlučná samota>.

<Odeon> <vydal> <provedení Příliš hlučná samota: text>.

Rozčlenění výroků na strukturní prvky trojic RDF

subjekt predikát objekt
Bohumil Hrabal je autorem/má autora
Příliš hlučná samota (dílo)
Příliš hlučná samota (dílo) je/má předmětové heslo
"Hrabal, Bohumil (1914-1997 spisovatel čes.) - dílo - studie"
Příliš hlučná samota: text (provedení) je ztělesněním/má ztělesnění
Příliš hlučná samota (dílo)
Odeon vydal/má vydavatele
Příliš hlučná samota: text (provedení)

Pro grafické znázornění výroků v jazyce RDF se používají následující konvence:

  • entity (objekty a subjekty) se znázorňují jako ovály
  • literály se zobrazují jako obdélníky
  • predikáty se znázorňují jako orientované hrany (šipky), směřující od subjektu k objektu

rdf1

Obr. 1 Trojice RDF znázorněné prostřednictvím grafu

Identifikátory subjektů a objektů

Každý subjekt ve výroku RDF musí mít IRI. Objekt má buď IRI nebo může být vyjádřen hodnotou neboli literálem. Objekt, který nemá IRI, už nemůže být propojen s žádnou další entitou, tvoří "list" grafu.[2] To je případ objektu na řádku 5.

  subjekt/objekt identifikátor jmenný prostor
prefix zkrácený identifikátor
1 Bohumil Hrabal http://viaf.org/viaf/34458072 http://viaf.org/viaf/ viaf viaf:34458072
2 Příliš hlučná samota (dílo) http://viaf.org/viaf/178450109 http://viaf.org/viaf/ viaf viaf:178450109
3 Příliš hlučná samota: text (provedení) ISBN 80-207-0156-7   isbn isbn:8020701567
4 Odeon http://viaf.org/viaf/148380530 http://viaf.org/viaf/ viaf viaf:148380530
5 "Hrabal, Bohumil (1914-1997
spisovatel čes.) - dílo - studie"

subjekty a objekty

Obr. 2 Jednoznačné identifikátory objektů a subjektů

Identifikátory predikátů

Každý predikát ve výroku RDF musí mít IRI.

predikát identifikátor jmenný prostor prefix zkrácený identifikátor
je autorem http://rdaregistry.info/Elements/a/P50541 http://rdaregistry.info/Elements/a/ rdaa rdaa:P50541
má předmět http://rdaregistry.info/Elements/w/P10256 http://rdaregistry.info/Elements/w/ rdaw rdaw:P10256
je ztělesněním http://rdaregistry.info/Elements/m/P30135 http://rdaregistry.info/Elements/m/ rdam rdam:P30135
vydal http://rdaregistry.info/Elements/m/P30083 http://rdaregistry.info/Elements/m/ rdam rdam:P30083

rdf3

Obr. 3 Jednoznačné identifikátory predikátů

Klasifikace v jazyce RDF

Vyjádření obsahu entit se děje rovněž pomocí výroků v jazyce RDF. Subjekty, objekty i predikáty se přiřazují k termínům slovníků (k tvorbě slovníků slouží jazyk RDF Schema). Termíny slovníků jsou třídy a subjekty, objekty a predikáty jsou jejich instance. V našem příkladu jsou uvedeny tyto výroky:

Příliš hlučná samota (dílo) <je instancí třídy> Dílo.

Příliš hlučná samota: text (provedení) <je instancí třídy> Provedení.

Bohumil Hrabal <je instancí třídy> Osoba.

Odeon je <instancí třídy> Kolektivní agent.

Třída Osoba <je zahrnuta ve třídě / je podtřídou třídy> Agent.

Třída Kolektivní agent <je zahrnuta ve třídě / je podtřídou třídy> Agent.

Predikáty používané pro klasifikaci entit

predikát identifikátor prefix zkrácený identifikátor
patří do třídy (je typ)
vztah instance - třída
http://www.w3.org/1999/02/22-rdf-syntax-ns#type rdf rdf:type
je podtřídou
vztah třída - třída
https://www.w3.org/TR/2014/REC-rdf-schema-20140225/#ch_subclassof rdfs rdfs:subClassOf

RDF-třídy

Obr. 4 Definování významu entit jejich klasifikací

Označování entit pro lidské uživatele

IRI subjektů, objektů a predikátů slouží pro jejich jednoznačnou identifikaci a zpracování počítačovými programy. Pro lidské uživatele slouží slovní označení (angl. label) entit, která se definují rovněž prostřednictvím trojic RDF. Pro specifikaci označení entity se používá predikát rdfs:label, hodnotou označení je literál.

Příklad:

Entita rdac:C10007 se jmenuje "Provedení"   rdac:C10007 <rdfs:label> "Provedení"
Entita rdaw:P10256 se jmenuje "má předmět"   rdaw:P10256 <rdfs:label> "má předmět"

RDF graf

Obr. 5 Kompletní RDF graf

(Poznámka: V tomto obrázku jsou pro zjednodušení slovní označení přiřazena pouze subjektům a objektům)


[1] BAKER, Thomas. Libraries, languages of description, and linked data: a Dublin Core perspective. In: Library Hi Tech. 2012, 30(1), 117. ISSN 0737-8831.

[2] Poznámka: Specifikace RDF ještě umožňuje definovat tzv. prázdné uzly (angl. blank nodes), které v tomto zjednodušeném příkladu nejsou použity.

7. Indexový soubor

Technologie přístupu k informačním zdrojům
Podmínky efektivního přístupu
  • zdroje musí být sémanticky popsané (musí být znám jejich význam, tj. musí k nim existovat metadata)
  • zdroje musí být organizované (uspořádané, tj. musí být určeny vztahy mezi nimi)
Techniky organizace - umístění a označení
umístění označení
Otázka Kde je to? Co je to?
Typ techniky konkrétní abstraktní
Typ vlastnosti vnitřní, statická vnější, dynamická
Teoretický základ fyzika sémiotika
Typ objektů materiální objekty
nemovité objekty
neomezené
Omezení místo - objekt: 1:1
jednoznačné
označení - objekt: N : M
nejednoznačné

Typy technologií přístupu k informacím
jednotka uložení jednotka zpracování struktura přístup jazyk
vyhledávání strukturované záznam atribut (element, pole, sloupec) relační množinový SQL
plnotextové text slovo (lexém) lineární (text), stromová (index) množinový (prostřednictvím indexu)
prohlížení / navigace zdroj (dokument/datový objekt) uzel, odkaz (hrana, reference, spoj, link) síťová navigace SPARQL
Vyhledávání
  • stanovení, zda konkrétní údaj je prvkem určité množiny, a určení jeho umístění (tj. identifikace)
  • princip: porovnávání hodnoty vyhledávacího klíče s hodnotami prvků dané množiny (souboru)
kritérium efektivnosti:

počet prvků prohledávaného souboru (slov, záznamů, dokumentů...), které musíme tímto způsobem otestovat (tj. doba potřebná k vyhledávání)

Vyhledávací algoritmy

rychlost vyhledávání / stupeň zpracování
sipka
sipka2 bez indexu s indexem
sekvenční úplné  
zkrácené  
množinové

1. Úplné vyhledávání

Sekvenční vyhledávání v nesetříděném souboru (lineární vyhledávání řetězců v textu) - vždy je nutné zpracovat všechna data

Příklad: hledáme heslo "alma mater" v nesetříděném souboru

algor1

2. Zkrácené vyhledávání v setříděném souboru

Poté, co najdeme hledanou hodnotu, lze zpracování ukončit

Typy třídění / řazení:

a) podle označení: abecedně, chronologicky, číselně

b) podle obsahových nebo funkčních charakteristik, např. podle pravděpodobnosti požadavku

2.1 Sekvenční vyhledávání v setříděném souboru

Příklad: hledáme heslo "alma mater" sekvenčním vyhledáváním v abecedně setříděném souboru.

algor2

2.2 Intervalové vyhledávání v setříděném souboru

Součástí prohledávaného souboru je tzv. blokový (řídký) index (např. v encyklopedii - první a poslední heslo na straně).

  • nejprve (sekvenčně) prohledáváme setříděný seznam intervalů
  • po nalezení potřebného intervalu sekvenčně prohledáme setříděné záznamy, jež jsou v něm obsaženy

Příklady:

Hledáme časopis Knihovna v Portálu e-časopisů UK: 1. zvolíme písmeno K, 2. zvolíme interval Kli-Kni, 3. najdeme časopis Knihovna.

Hledáme heslo "alma mater" s použitím blokového indexu v encyklopedii.

algor3

2.3 Binární vyhledávání (binary search) v setříděném souboru

Půlení intervalu (rozdělení souboru vždy na polovinu) v setříděném souboru.

Vyhledávanou hodnotu porovnáme s prostředním záznamem intervalu; jestliže >, postupujeme zpět, jestliže <, postupujeme vpřed.

Příklad: hledáme číslo 63 - hledanou hodnotu porovnáme s číslem 50, poté s číslem 75, poté s číslem 62 (zaokrouhlená hodnota 62,5), poté s číslem 69, poté s číslem 66, poté s číslem 64, skončíme na čísle 63.

algor4

3. Vyhledávání s použitím indexu

Dvoufázové vyhledávání: nejprve prohledáme index, pak primární soubor.

Index

Pomocný soubor strukturovaný a tříděný podle jiného hlediska než základní (primární) soubor. Obsahuje záznamy o struktuře "klíč, adresa", kde klíč je hodnota (slovo, fráze, atribut) a adresa je ukazatel na místo uložení této hodnoty v základním souboru. Prostřednictvím odkazu propojuje index označení zdroje s jeho umístěním. Účelem indexového souboru je urychlit přístup ke zdrojům a tím zkrátit dobu vyhledávání.

Poznámka: Slovo index se používá v mnoha různých významech - viz rozcestník na Wikipedii.

index1

klad:
  • urychluje přístup k datům (zkracuje dobu vyhledávání)
  • umožňuje vyhledávat podle více hledisek
zápor:
  • zabírá místo
  • údržba indexu zpomaluje práci při aktualizaci primárního souboru
indexovaný soubor:

primární soubor není setříděn (sekvenční vyhledávání)

index-sekvenční vyhledávání (ISAM - index-sequential access method):

primární soubor je sekvenčně setříděn (zkrácené vyhledávání)

Typy indexů

index

Termínové indexy

a) strukturovaný - fulltextový

1. Plnotextový (fulltextový) index

index s rozdělením víceslovných výrazů na jednotlivá slova

vyhledávaná jednotka: text (dokument), příp. jeho část

složení:

1. slovo
2. pořadové číslo dokumentu v kolekci
3. pořadí slova v rámci dokumentu (příp. v rámci elementu)

Příklad: Plnotextový index vytvořený pro záznamy knih

Číslo
záznamu/dokumentu
Text
116 Čapek, Karel. Loupežník. 31. 1958
117 Apollinaire, Guillaume. Pražský chodec. 60. 1984
118 Hartwigová, Julia. Apollinaire. 48. 1967
119 Čapek, Karel. R.U.R. 32. 1962
120 Čapek, Karel. Krakatit. 48. 1958
121 Dostojevskij, Fjodor Michajlovič. Idiot. 120. 1984
122 Čapek, Karel. Věc Makropulos. 48. 1967
123 Hrabal, Bohumil. Pábitelé. 1967
124 Čapek, Karel. Život a dílo skladatele Foltýna. 32. 1978
125 Hrabal, Bohumil. Ostře sledované vlaky. 32. 1978
126 Hrabal, Bohumil. Inzerát na dům, ve kterém už nechci bydlet. 1967
127 Apollinaire, Guillaume. Kaligramy. 32. 1962
128 Orwell, George. 1984. 32. 1991
129 Olbracht, Ivan. Nikola Šuhaj loupežník. 25. 1962

SlovoČíslo
záznamu/dokumentu
Pořadí
v dokumentu
120 121 5
1958 116 5
120 5
1962 119 5
127 5
129 7
1967 118 5
123 4
126 11
1978 124 1
1984 117 1
121 1
128 1
1991 128 1
25 129 1
31 116 1
32 119 1
124 1
125 1
127 1
128 1
48 118 1
120 1
122 1
60 117 1
a 124 2
Apollinaire 117 1
118 1
127 1
Bohumil 123 2
125 2
126 2
bydlet 126 8
Čapek 116 1
119 1
120 1
122 1
124 1
dílo 124 3
Dostojevskij 121 1
dům 126 3
Fjodor 121 2
Foltýna 124 5
George 128 2
Guillaume 117 2
127 2
Hartwigová 118 1
Hrabal 123 1
125 1
126 1
chodec 117 2
Idiot 121 1
Inzerát 126 1
Ivan 129 2
Julia 118 2
Kaligramy 127 1
Karel 116 2
119 2
120 2
122 2
124 2
Krakatit 120 1
kterém 126 5
loupežník 129 3
Loupežník 116 1
Makropulos 122 2
Michajlovič 121 3
na 126 2
nechci 126 7
Nikola 129 1
Olbracht 129 1
Orwell 128 1
Ostře 125 1
Pábitelé 123 1
Pražský 117 1
R.U.R. 119 1
skladatele 124 4
sledované 125 2
Šuhaj 129 2
126 6
ve 126 4
Věc 122 1
vlaky 125 3
Život 124 1



2. Strukturovaný index

klasický index relační databáze (s celými hodnotami atributů/položek)

vyhledávaná jednotka: záznam

složení:

1. hodnota atributu/pole
2. pořadové číslo záznamu v souboru
3. pořadové číslo pole nebo název pole v záznamu

Příklad: Strukturovaný index vytvořený pro záznamy knih

Základní soubor             Index
Číslo
záznamu
AutorNázevCenaRok
vydání
Hodnota poleČíslo
záznamu
Název pole
116 Čapek, Karel Loupežník 31 1958 120 121 Cena
117 Apollinaire, Guillaume Pražský chodec 60 1984 1958 116 Rok vydání
118 Hartwigová, Julia Apollinaire 48 1967 120 Rok vydání
119 Čapek, Karel R.U.R 32 1962 1962 119 Rok vydání
120 Čapek, Karel Krakatit 48 1958 127 Rok vydání
121 Dostojevskij, Fjodor Michajlovič Idiot 120 1984 129 Rok vydání
122 Čapek, Karel Věc Makropulos 48   1967 118 Rok vydání
123 Hrabal, Bohumil Pábitelé   1967 123 Rok vydání
124 Čapek, Karel Život a dílo skladatele Foltýna 32 1978 126 Rok vydání
125 Hrabal, Bohumil Ostře sledované vlaky 32   1978 124 Rok vydání
126 Hrabal, Bohumil Inzerát na dům, ve kterém už nechci bydlet   1967 1984 117 Rok vydání
127 Apollinaire, Guillaume Kaligramy 32 1962 121 Rok vydání
128 Orwell, George 1984 32 1991 128 Název
129 Olbracht, Ivan Nikola Šuhaj loupežník 25 1962 1991 128 Rok vydání
25 129 Cena
31 116 Cena
32 119 Cena
124 Cena
125 Cena
127 Cena
128 Cena
48 118 Cena
120 Cena
122 Cena
60 117 Cena
Apollinaire 118 Název
Apollinaire, Guillaume 117 Autor
127 Autor
Čapek, Karel 116 Autor
119 Autor
120 Autor
122 Autor
124 Autor
Dostojevskij, Fjodor Michajlovič 121 Autor
Hartwigová, Julia 118 Autor
Hrabal, Bohumil 123 Autor
125 Autor
126 Autor
Idiot 121 Název
Inzerát na dům, ve kterém už nechci bydlet 126 Název
Kaligramy 127 Název
Krakatit 120 Název
Loupežník 116 Název
Nikola Šuhaj loupežník 129 Název
Olbracht, Ivan 129 Autor
Orwell, George 128 Autor
Ostře sledované vlaky 125 Název
Pábitelé 123 Název
Pražský chodec 117 Název
R.U.R 119 Název
Věc Makropulos 122 Název
Život a dílo skladatele Foltýna 124 Název

b) index z 1 pole (elementu) - index z více polí (elementů)

1. Index vytvořený z hodnot 1 pole (elementu)

Příklad: Index vytvořený z hodnot pole NÁZEV

index2

2. Index vytvořený z hodnot více polí (elementů)

  • složený index (původní položky zůstanou zachovány, třídí se kaskádovitě)
  • hodnoty různých polí (elementů) jsou umístěny do stejného pole indexového souboru

Příklad: Složený index vytvořený z hodnot polí AUTOR a NÁZEV

index3

Využití indexového souboru pro kontextové operátory

a) operátor proximity

podmínka vzdálenosti se vyhodnocuje přes absolutní hodnocení rozdílu pořadí slov

b) operátor pořadí

podmínka pořadí je vyhodnocována na základě větší velikosti čísla udávajícího pořadí slov

8. Literatura

ČSN EN 28879. Zpracování informací. Textové a kancelářské systémy. Standardní univerzální vyznačovací jazyk (SGML). Praha: Český normalizační institut, 1995. 204 s. Třídicí znak 36 9825. [český překlad evropské verze ISO 8879:1986]

Extensible Markup Language (XML) 1.1. W3C Recommendation 04 February 2004, edited in place 15 April 2004. Dostupné z: http://www.w3.org/TR/xml11/.

GLUSHKO, Robert J., McGRATH, Tim. Document engineering: analyzing and designing documents for business informatics and web services. Cambridge: MIT Press, 2005. 703 s. ISBN 0-262-07261-0.

Index. In: Ottův slovník naučný. https://ndk.cz/view/uuid:90942c10-e6e0-11e4-9c07-001018b5eb5c?page=uuid:f275a270-04b7-11e5-95ff-5ef3fc9bb22f.

KNOLL, Adolf. Problematika elektronických publikací. In: Národní knihovna: knihovnická revue. 1999, 10(4), 173-177. ISSN 0832-7487 (print). ISSN 1214-0678 (online). Dostupné z: http://full.nkp.cz/nkkr/NKKR9904.html.

KUČEROVÁ, Helena. Metavyhledávání a jeho typy – příspěvek k terminologické diskusi. In: Knihovna plus [online]. 2011, 7(2) [cit. 2024-05-03]. ISSN 1801-5948. Dostupné z: http://knihovna.nkp.cz/knihovnaplus112/kucer.htm.

MLÝNKOVÁ, Irena et al. XML technologie: principy a aplikace v praxi. 1. vyd. Praha: Grada, 2008. 267 s. ISBN 978-80-247-2725-7.

NIČ, Miloslav. RDF tutorial. In: Zvon.org [online]. [cit. 2024-05-03] Dostupné z: http://zvon.org/comp/r/tut-RDF.

Resource description framework (RDF) [online]. W3C RDF Working Group, last modified 2020-02-18 [cit. 2024-04-29]. Dostupné z: http://www.w3.org/RDF/.

RDF 1.2 concepts and abstract syntax [online]. W3C Working Draft. Olaf Hartig, Pierre-Antoine Champin, Gregg Kellogg, Andy Seaborne, ed. W3C, 2024-05-02 [cit. 2024-05-03]. Dostupné z: https://www.w3.org/TR/rdf12-concepts/.

RDF 1.1 primer [online]. W3C Working Group Note. Guus Schreiber, Yves Raimond, ed. W3C, 2014-06-24 [cit. 2024-05-03]. Dostupné z: https://www.w3.org/TR/rdf11-primer/.

RDF 1.2 Schema [online]. W3C Working Draft. Dominik Tomaszuk, Timothée Haudebourg, ed W3C, 2024-04-18 [cit. 2024-05-03]. Dostupné z: https://www.w3.org/TR/rdf12-schema/.