Struktury informačních zdrojů: studijní opora
Stránky: | Moodle UK pro výuku 1 |
Kurz: | Klasifikace a systémová analýza - AISPV1001 |
Kniha: | Struktury informačních zdrojů: studijní opora |
Vytiskl(a): | Nepřihlášený host |
Datum: | pátek, 22. listopadu 2024, 23.50 |
1. Úvod
Za informační zdroje pro účely tohoto textu považujeme dokumenty, záznamy, data i metadata včetně jejich kolekcí (agregáty, databáze, datové sady). Takto široce vymezené zdroje zahrnují tedy jakékoli informační objekty, zprávy, aplikace a služby.
Kdy považujeme informační zdroj za strukturovaný?
Obsahuje-li alespoň jeden element (tj. formální nebo obsahový strukturní prvek menší než celý dokument a větší než základní konstrukční prvek – písmeno, znak, pixel...), rozpoznatelný člověkem i počítačovým programem.
a) | b) |
Obr. 1 Dokumenty "bez struktury": a) struktura nerozpoznatelná člověkem, b) struktura nerozpoznatelná počítačem
Tip:
Přečtěte si vysvětlení Billa Inmona, jakému typu struktur "rozumí" počítače, na https://www.linkedin.com/pulse/text-really-unstructured-bill-inmon/.
Význam znalostí o struktuře zdrojů v informační praxi:
- Volba strukturování dokumentu bezprostředně ovlivňuje efektivnost operací/interakcí s ním (srovnáváme cenu/výkon).[1]
- Přesná pravidla pro strukturování dokumentů potřebujeme z důvodu jejich počítačového zpracování, často i generování.
Informační procesy vyžadující znalost struktury informačního zdroje
- Publikování
Základní současné technologie publikování informací: - tisk na papír (knihy, časopisy) - uzavřená vývojová etapa
- přenos energií (vysílání)
- elektronické (digitální) dokumenty - perspektivní, stále ve vývoji
- Zpracování
- zdroje, které získáme, musíme umět dále zpracovat (např. vytisknout, sloučit s jiným dokumentem...)
- popisování a odkazování - popis a odkaz "připojujeme" k rozpoznané strukturní části zdroje
- Vyhledávání
- při znalosti struktury zdroje můžeme při vyhledávání zamířit přímo do určitých informačně významných částí (např. obsah, název, anotace)
- zdroje se třídí podle obsahu příslušných strukturních prvků (např. název)
- význam znakových sad pro vyhledávání informací: podle pořadí ve znakové sadě (kódové tabulce) se postupuje při třídění (tj. ovlivňuje složení indexů), kódování znaků je rozhodující pro výsledek jejich porovnávání při vyhledávání (string matching)
Cíl: Najít obecnou / otevřenou strukturu (formát, architekturu)
- použitelnou pro co největší počet typů zdrojů (heterogenita)
- nezávislou na platformě, tj. na použitém hardwaru a softwaru
- umožňující distribuovat informační zdroje
- srozumitelnou lidem i počítačovým programům
[1] Viz např. TKAČÍKOVÁ, Daniela. Kvalitní dokument jako základ účinného vyhledávání informací. In: Informace na dlani [online]. Praha: Albertina icome Praha, ©2004. ISSN 1214-1429. Dostupné z: https://www.inforum.cz/pdf/2004/Tkacikova_Daniela.pdf.
2. Terminologie
Většinu informačních zdrojů můžeme zpravidla chápat jako hierarchicky strukturované celky, jež tvoří strukturované jednotky (entity členěné na označené elementy) obsahující informace.
Obr. 2 Úrovně granularity organizovaných zdrojů
médium
- Jakýkoli prostředek umožňující komunikovat znalosti a informace.
- Potenciální zdroj informací (má schopnost obsahovat informaci).
informační zdroj / informační pramen / zdroj (information source, information resource, resource)
- Médium obsahující informaci: prostředek společenské komunikace (tj. médium) tvořený množinou informací a sloužící k jejich fixaci (záznamu) a/nebo přenosu v čase a prostoru
- Objekt, který je nositelem, zprostředkovatelem nebo šiřitelem informací (knihovna, archiv, počítačová databáze, CD-ROM, databázové centrum, informační středisko, televize, rozhlas, vlastní paměť, osobní informační systém, jiné osoby, jednotlivé dokumenty...)
- Samostatná jednotka komunikace nebo zpracování informací
dokument
- Zdroj informací, který má hmotný nosič
- Druh informačního zdroje tvořený nosičem informací v podobě hmotného předmětu (viz např. https://www.scientificamerican.com/article/dna-data-storage-is-closer-than-you-think/) a množinou uspořádaných dat či informací na něm zaznamenaných, tj. hmotně fixovaných, sloužící k jejich přenosu v čase a prostoru
- Samostatná jednotka z hlediska obsahu: může se identifikovat, zpracovávat a vyměňovat jako celek (jednotka) mezi uživateli a/nebo systémy.
- Obvykle je psaný, ale může být též tvořen obrazy nebo zvukem; v elektronické podobě mají dokumenty zpravidla formu souboru nebo záznamu v databázi, případně údajů v datových sadách
- Dle ISO/IEC 8613: strukturovaná jednotka (entita, množina) obsahující informace, určená pro smyslové vnímání člověkem
kolekce
Též korpus / sbírka / fond / báze / databáze / datová sada/ repozitoř (angl. information store, collection, stock, asset, dataset, repository)
Množina uspořádaných dokumentů.
element (prvek) dokumentu (data/information element, datový/informační element/prvek)
- Jakákoli část menší než samotný dokument a zároveň větší než základní stavební jednotka (např. bit, pixel)
- Dle ISO/IEC 8613: Základní jednotka identifikovatelných a definovatelných dat (informací). Má jméno, představované např. tagem, a jednu nebo více hodnot vyjadřujících konkrétní fakt/a prostřednictvím kódů, číslic nebo přirozeného jazyka. Jednotka dat, pro kterou se prostřednictvím množiny atributů specifikují: definice, identifikace, prezentace a přípustné hodnoty.
Elektronické publikování = tvorba (editace) + prezentace + výměna
Editace
Vykonávání činností spojených s vytvářením a změnou struktury a/nebo obsahu dokumentu.
Možnosti vytvoření elektronického dokumentu:
- prvotním pořizováním
např. napsání dopisu na klávesnici počítače s použitím textového editoru (současně vytváříme obsah - text a značky - strukturování či formátování), vyplnění údajů do formuláře - konverzí z externího zdroje
např. převedení dopisu ve Wordu do PDF, digitalizace tištěných dokumentů - generováním z jiných informací
např. tvorba reportů (sestav) z dat uložených v databázi, mash-up
Podíl ruční práce, obtížnost algoritmizace: 1 - nejvyšší, 3 - nejnižší
Možnost ovlivnit obsah: 1 - ano, 2 - ne, 3 - zpravidla ne
Prezentace
Realizuje se jen tehdy, pokud bude příjemcem dokumentu uživatel – člověk (není zajímavé pro počítačové aplikace).
- postup interpretování dokumentu ve smyslově vnímatelné podobě
- formátování dokumentu na prezentačním médiu
prezentační médium
nosič informace ve smyslově vnímatelné podobě (např. papír, obrazovka počítače)
Výměna (interchange)
Proces přenášení dokumentu ze systému původce do systému příjemce pomocí prostředků datové komunikace nebo výměnou paměťového média. Je zajímavé tehdy, bude-li se dokument předávat mezi dvěma (či více) různými systémy (tj. musí-li v průběhu výměny dojít k překódování, resp. k přeformátování).
3. Typologie dokumentů
Obr. 3 Typologie dokumentů
1. Členění podle typu zpracování/editace obsahu
transakční dokument
dynamický dokument: s dokumentem nebo s jeho částmi se po jeho vytvoření budou provádět operace - transakce (přidávání či změna obsahu, kombinace s obsahem jiných dokumentů či částí, odvozování nových údajů)
Obr. 4 Transakční dokumenty
narativní dokument
statický dokument: po jeho vytvoření už nedochází ke změnám obsahu ani struktury
Obr. 5 Narativní dokumenty
Transakční dokument | Narativní dokument | |
typický obsah | strukturovaný popis nějakého objektu či události - data (datově orientovaný dokument) | lineární popis ("příběh") - text (textově orientovaný dokument) |
typická informace o obsahu (metadata) | pojmové schéma, metadatové schéma, datový model | výsledky obsahové analýzy: redukované texty (abstrakty, referáty), rejstříková hesla, klíčová slova, třídníky použité klasifikace |
typické členění | logické, podle obsahu (sémantiky) jednotlivých částí, s explicitním popisem jejich vzájemných vztahů | prezentační (vzhledové), implicitní struktura (např. odstavec, věta...) |
typické procesy | aktualizace, čištění dat, dotazování (database searching) | editace, tisk, kontrola pravopisu, počítání slov, plnotextové vyhledávání informací (information retrieval) |
typický cíl dotazu |
část dokumentu (položka, element) | dokument jako celek |
typický tvůrce a příjemce (uživatel) | počítačový program | člověk |
typické uživatelské rozhraní pro vstup/editaci obsahu |
formulář | textový editor |
typické uživatelské rozhraní pro výstup/zpřístupnění obsahu | sestava | tištěný dokument (výtisk) |
Tab. 1 Srovnání transakčních a narativních dokumentů
2. Členění podle typu využití obsahu
Toto členění je odvozeno z typologie znalostí založené na způsobu jejich reprezentace a na způsobu jejich využití. Tradičně se znalosti člení na deklarativní (konceptuální) a na procedurální (operační).
deklarativní dokument
Obsahuje znalosti, poznatky, jejichž účelem je něco se dozvědět.
Obsah: znalost (poznatek)
Účel: abychom věděli (něco)
procedurální dokument
Obsahuje potvrzení, jehož účelem je umožnit realizaci nějaké činnosti.
Obsah: potvrzení platnosti (důkaz, svědectví, ověření, evidence, doklad): identity, události, transakce, oprávnění, vlastnictví
Účel: abychom mohli (realizovat nějakou činnost)
Obr. 6 Deklarativní a procedurální dokumenty s informací o osobě
4. Typy strukturování dokumentů
Kritéria pro volbu typu struktury
Při posuzování vhodnosti určitého typu struktury jsou uplatňována především kritéria sémantiky (které vztahy je struktura schopná vyjádřit), flexibility struktury (tj. přizpůsobivost změnám) a případů užití a) při organizaci informačních zdrojů (makro-struktury kolekcí dokumentů) a b) při strukturování dokumentů (mikro-struktury jednotlivých zdrojů).
Nejčastěji se berou v úvahu tato kritéria:
- Funkce dokumentu
- Účel obsahu dokumentu
- Typ obsažených informací (text, grafika, audio, video, multimédia...)
- Způsob užití / prezentace dokumentu
- Možnost editace
- Možnost vyhledávání / přístupu
- Obtížnost (pracnost) tvorby dokumentu
- Nároky na zdroje, cena vybavení
- Uživatelé dokumentu
Možné způsoby strukturování elektronických dokumentů
- „nestrukturované“
např. image (obraz digitalizovaného dokumentu), tzv. binární formáty aj. - strukturované
celý dokument je rozdělen na označené části (elementy) - hybridní (semistrukturované)
např. strukturované záhlaví, nestrukturované tělo v emailu
Typy strukturování
a) obsahové - formální
Explicitně a pro počítačový program srozumitelně vyjádřená informace o elementech
- obsahu (logická struktura)
- formy (vzhled, formát, styl, layout)
styl (angl. style)
pojmenovaná množina formátovacích instrukcí umožňující uživateli uplatnit na text více atributů současně a standardizovat rozvržení dokumentu použitím týchž formátovacích charakteristik na různé části textu
style sheet (formátovací sada, příloha stylu, šablona stylu, tabulka stylu)
souhrn stylů uložený v souboru; určuje úpravu dokumentů, k nimž je připojen
Problém: Mnohdy se obtížně rozlišuje, co je obsah a co forma (např. Název)
Obr. 7 Struktura formy a struktura obsahu
b) homogenní - nehomogenní
Homogenní tzv. strukturované, příp. pevně strukturované dokumenty |
Nehomogenní tzv. nestrukturované dokumenty |
|
software | DBMS (systém řízení báze dat) | textové editory |
informace o struktuře obsahuje | schéma (datový model + datový slovník) | definice typu dokumentu |
způsob prezentace určují | formuláře | styly |
obsah | záznamy | instance |
název souborů takto strukturovaných dokumentů | databáze | textové databáze, kolekce |
Příklad: | homogenní struktura v relační databázi | nehomogenní struktura v HTML dokumentu |
c) editovatelné - needitovatelné
uživatel má / nemá k dispozici nástroje pro editaci dokumentu
d) procedurální - neprocedurální (deklarativní, deskriptivní)
určuje, co se má s dokumentem (elementem) dělat / co dokument (element) je
e) dle datové struktury: lineární - stromová (hierarchická) - síťová - relační
Nejčastěji používané nástroje pro elektronické publikování a typ strukturování, který umožňují:
typ formátu / typ strukturování |
textové editory |
jazyky pro popis stránky |
databázové programy |
značkovací jazyky |
obsahové | x | x | ||
formální | x | x | x | x |
homogenní | x | |||
nehomogenní | x | x | x | |
editovatelné | x | x | x | |
proprietární | x | x | x | |
otevřené | x | |||
procedurální | x | x | x | |
neprocedurální | x | x | ||
lineární | x | x | ||
hierarchická | x | x | ||
síťová | x | |||
relační | x |
4.1. Historie vyznačování struktury dokumentů
analogové | Bez vyznačení – starověká písma Velká písmena Mezery mezi slovy, iniciály, interpunkce Příprava rukopisů pro sazbu: typografické značky, korekturní znaménka |
||
digitální | Značky v textových editorech Jazyky pro popis stránky Databázové programy |
proprietární | |
Značkovací jazyky Propojená data (RDF) |
otevřené |
Bez vyznačení struktury – starověká písma
Velká písmena, mezery mezi slovy, iniciály, interpunkce
Příprava rukopisů pro sazbu
Typografické značky | Korekturní znaménka |
Značky v textových editorech
MS Word | WordPerfect |
Jazyky pro popis stránky
PostScript | PDF (Portable document format) |
Databázové programy
Databáze – obsah (instance) | Databáze – definice struktury | Databáze – formulář (styl) |
Značkovací jazyky
HTML |
XML |
|
4.2. Proprietární technologie
Textové editory
TXT, DOC, RTF, ODT, WPD, TEX
umožňují pouze formální strukturování dokumentu
RTF - Rich Text Format
standard firmy Microsoft, umožňující přenos dokumentů zpracovaných v MS Wordu mezi různými textovými editory
Ukázka: Report vygenerovaný z programu PowerDesigner ve formátu RTF
Jazyky pro popis stránky
umožňují pouze formální strukturování dokumentu
dokument je uložen spolu s pokyny jazyka pro popis stránky
vše - text, fonty, grafika a informace o layoutu - je součástí formátu souboru
PostScript
standard firmy Adobe
jazyk pro vektorový popis grafické informace
jazyk pro popis stránky - úplný programovací jazyk určený pro publikování
určeno ke zpracování formátovaného textu včetně vektorové i rastrové grafiky na kompatibilní tiskárně
Ukázka: Zdrojový text dokumentu ve formátu PostScript (část)
PDF - Portable Document Format
standard firmy Adobe
ISO 19005. Document management — Electronic document file format for long-term preservation.
Podmnožina jazyka PostScript - bez programovacího jazyka
obsahuje pouze data nezbytná k zobrazení nebo tisku obsahu dokumentu
Ukázky:
Dokument ve formátu PDF
Zdrojový text dokumentu ve formátu PDF (část)
TEX - TEX Device Independent File Format
Databázové programy
umožňují obsahové i formální strukturování dokumentu
4.3. Otevřené technologie
Základem otevřených technologií je oddělení tří komponent dokumentu
1) obsah
co to znamená (jedinečné pro každý dokument)
2) struktura obsahu (opakovatelné pro více dokumentů)
kde to je
jak je to organizované nebo seskupené
3) prezentace obsahu (opakovatelné pro více dokumentů)
jak to vypadá
jak je to zobrazené
ODA - Open Document Architecture (ISO 8613)
Užití: strukturování a formátování elektronických dokumentů s cílem usnadnit jejich výměnu
Princip:
Definují se dvě hierarchické struktury dokumentu:
- struktura obsahu (logická struktura)
- struktura formy (struktura vzhledu)
Informace o uspořádání (struktura, profil) a obsah (instance) dokumentu jsou uloženy zvlášť.
- dokument:
- v souvislosti s ISO 8613 se za dokumenty považují písemnosti, jako jsou zápisy, faktury, formuláře a zprávy, které mohou obsahovat obrázky a tabulky. Prvky obsahu použité v dokumentech mohou obsahovat grafické znaky, prvky vektorové a rastrové grafiky, které je možné zahrnout do jednoho dokumentu.
- architektura dokumentů:
- pravidla pro definování struktury a reprezentace dokumentu
3 základní prvky architektury dokumentu podle ODA:
1. vlastní obsah dokumentu (instance)
profil dokumentu:
2. model obsahu: definice logické (obsahové) struktury dokumentu - neprocedurální
3. model formy: definice struktury uspořádání dokumentu (stylu, formátu) - procedurální
ČSN ISO/IEC 8613 (36 9642) Informační technologie - Architektura otevřených dokumentů (ODA) a formát výměny
Anglická verze je dostupná z: http://www.itu.int/ (T.411-T.424)
EDI - Electronic Data Interchange
Obecné označení pro proces elektronické výměny strukturovaných standardních zpráv mezi dvěma aplikacemi dvou nezávislých subjektů.
Pravidla strukturování dávkových a interaktivních zpráv vyměňovaných v otevřeném prostředí mezi systémy počítačových aplikací
využití: obchodní transakce, e-byznys, B2B
konkrétní implementace EDI:
- UN/EDIFACT - Elektronická výměna dat pro správu, obchod a dopravu. ISO 9735. Electronic data interchange for administration, commerce and transport (EDIFACT).
- ANSI X12
- GS1 EANCOM (podmnožina UN/EDIFACT), GS1 XML
- UBL – Universal business language
Propojená data a RDF
Viz kapitola 6.2
5. Stromová struktura otevřených dokumentů: standard SGML
Používaná terminologie
markup
označování, značkování, vyznačování
typ metadat: text, který je přidán k datům dokumentu, aby o nich poskytl informaci
tag
příznak: popisné vyznačení, značka
existují dva druhy příznaků - počáteční a koncový
parser
syntaktický analyzátor
program (procesor), který rozpoznává značky v dokumentech (např. SGML nebo HTML tagy)
- typ dokumentu (document type)
- třída dokumentů, které mají podobné charakteristiky, např. časopis, článek, technická příručka nebo dopis
- typ prvku (element type)
- třída prvků, které mají podobné vlastnosti, např. odstavec, kapitola, anotace, poznámka pod čarou nebo bibliografie
- prvek - element
- komponenta hierarchické struktury definovaná v definici typu dokumentu; v instanci dokumentu je identifikována popisným vyznačením, obvykle počátečním a koncovým tagem
- validace
- ověření shody vyznačeného dokumentu s příslušným modelem struktury (schématem)
Definice typu dokumentu - DTD
- Jedna ze dvou základních částí dokumentů strukturovaných podle standardu SGML, která popisuje strukturu obsahu dokumentu. Definuje všechny elementy dokumentu a jejich vzájemné vztahy. Obsah dokumentu je tak tvořen textovými informacemi oddělenými označením struktury, definovaným v DTD. DTD vznikne použitím SGML pro určitý typ dokumentu (= popis značek a jejich vzájemných možných vztahů).
- DTD zahrnuje formální specifikaci (vyjádřenou v deklaraci typu dokumentu) typů prvků, vztahů mezi prvky a atributů a rovněž odkazů, které mohou být vyjádřeny vyznačením. Tím definuje slovník vyznačení, pro nějž SGML definuje syntaxi.
DTD definuje:
|
Ukázka: Definice typu dokumentu pro HTML 4.01 Transitional http://www.w3.org/TR/REC-html40/loose.dtd |
5.1. SGML
SGML - Standard Generalized Markup Language (Standardní univerzální vyznačovací jazyk)
ISO 8879:1986
Příloha A - Úvod do univerzálního vyznačování
- Obecný jazyk pro popis všech prvků elektronicky publikovaného dokumentu (textu, titulní strany, názvů kapitol, tabulek, obrázků apod.), který formalizuje vyznačování a činí je nezávislým na systému a souvislostech zpracování; dokument tvoří soubor označeného textu se vsunutými označeními údajů (tagy), jež definují začátek a konec každé logické jednotky
- Metajazyk určený pro popis (kódování) hierarchicky strukturovaných textů
- Metajazyk určený pro formální popis konkrétních jazyků typu "markup" (definuje jejich syntaxi)
- Objektově orientovaná metoda popisu dokumentů
užití: oblast publikování (vydavatelská činnost) v nejširším slova smyslu, zejména textově orientovaných informací
Základní notace SGML
<počáteční tag>
</koncový tag>
<!-- komentář, který se nezobrazuje -->
Notace pro definici typu dokumentu a příklady hodnot
název prvku (elementu) | pravidla minimalizace vyznačení | model obsahu | |||
povinnost uvádění počátečního tagu |
povinnost uvádění koncového tagu |
obsažené elementy | možnost opakování, povinnost výskytu |
data | |
antologie | - 0 | - 0 | (báseň) |
+ ? * |
(#PCDATA) |
spojovací symboly (konektory)
, |
oddělovač v rámci závazného pořadí |
| |
výběr jedné z uvedených možností |
& |
nutné elementy bez závazného pořadí |
přípony (indikátory) výskytu
? |
volitelný neopakovatelný element (0 nebo 1) |
+ |
povinný opakovatelný element (1 nebo více) |
* |
volitelný opakovatelný element (0, 1 nebo více) |
obsah ("datové typy")
#PCDATA |
parsed character data - syntakticky analyzovaná znaková data |
CDATA |
znaková data - jakákoli data zobrazená znaky (texty) |
EMPTY |
obsah je prázdný |
ID |
jedinečný identifikátor (atribut elementu, který přesně stanoví jeho obsah) |
ID=něco znamená, že obsahem atributu je hodnota ID (např. soubor s obrázkem) |
příklady prvků DTD
|
Vyjádření v notaci UML (zahrnuje jen některé z variant uvedených v levém sloupci) |
||
báseň (autor , sloka*) |
báseň tvoří jméno autora a sloky (přesně v tomto pořadí) | ||
|
báseň má (atribut) název | ||
báseň (název & autor & sloka*) |
báseň tvoří název, jméno autora a sloky (v libovolném pořadí) | ||
|
každá sloka obsahuje alespoň 1 verš, může jich mít více | ||
autor (foto | kresba | video) |
u autora se uvádí buď fotografie, nebo kresba nebo video | ||
autor? |
báseň může mít jen 1 autora, nemusí mít žádného | ||
název (#PCDATA) |
obsah atributu název je tvořen textem |
Příklad:
DTD pro antologii poezie
Logická struktura:
Antologii neboli výbor tvoří básně zpravidla různých autorů, u nichž je uveden název, údaje o autorovi a fotografie nebo kresba autora, případně videozáznam. U překladů se uvádí jméno překladatele. Básně se člení na sloky, sloky na verše. Každá báseň má alespoň jednu sloku, v každé sloce je alespoň jeden verš.
Definice typu dokumentu:
<! DOCTYPE antologie [ |
||
<! ELEMENT antologie |
- - |
(báseň+)> |
<! ELEMENT báseň |
- - |
(název?, autor, sloka+, překladatel?)> |
<! ELEMENT název |
- - |
(#PCDATA)> |
<! ELEMENT autor |
- - |
(jméno, datum narození, datum úmrtí?, foto? | kresba?, video?)> |
<! ELEMENT jméno |
- - |
(#PCDATA)> |
<! ELEMENT datum narození |
- 0 |
(#PCDATA)> |
<! ELEMENT datum úmrtí |
- 0 |
(#PCDATA)> |
<! ELEMENT foto |
- 0 |
EMPTY> |
<! ELEMENT kresba |
- 0 |
EMPTY> |
<! ELEMENT video |
- 0 |
(videozáznam, komentář)> |
<! ELEMENT videozáznam |
- 0 |
EMPTY> |
<! ELEMENT komentář |
- 0 |
(#PCDATA)> |
<! ELEMENT sloka |
- - |
(verš+)> |
<! ELEMENT verš |
- 0 |
(#PCDATA)> |
<! ELEMENT překladatel |
- - |
(#PCDATA)> |
]> |
Instance dokumentu:
<antologie> Toto je část básně z připravované antologie americké poezie --> Samoobsluha v Kalifornii </název> Allen Ginsberg </jméno> 1926 <datum úmrtí> 1997 <foto ID= ginsberg.jpg> GinsbergCorso.mov> Allen Ginsberg a Gregory Corso v San Franciscu v roce 1997 </autor> Jak jsem na tebe myslel dnes večer, Walte Whitmane, když jsem kráčel postranními uličkami pod stromy, bolela mě hlava a plaše jsem hleděl na měsíc v úplňku. <verš> Utahaný a hladový, chtěl jsem nakoupit obrazy, a tak jsem vešel do neónové samoobsluhy s ovocem a snil o tvých enumeracích! <verš> Jaké broskve a jaké odstíny! Celé rodiny nakupující v noci! Uličky plné manželů! Ženy u avocados, děti v rajčatech! - A ty, Garcío Lorco, co tys tam hledal mezi melouny? </sloka> Jan Zábrana</překladatel> |
Ukázky struktury a stručný návod k tvorbě DTD dokumentů podle standardu SGML:
SGML1 - Antologie poezie
SGML2 - Bibliografický záznam
5.2. HTML
Hypertext Markup Language (hypertextový vyznačovací jazyk, HTML)
jazyk (DTD) pro strukturování a formátování dokumentů na webu
typ dokumentu HTML:
webová stránka/dokument (web page/document), tj. jednotka informace přístupná v síti WWW
charakteristické rysy:
- hypertextové vazby na jiné dokumenty v síti WWW <a href=" "> </a>
- složené dokumenty (začínají "existovat" až v počítači příjemce) <img src=" ">
Struktura HTML dokumentu
!DOCTYPE = deklarace typu dokumentu (zpravidla ve formě odkazu na externí DTD) HTML = instance dokumentu HEAD = záhlaví (informace pro browser) META = informace o dokumentu, která není určená pro zobrazení browserem BODY = tělo (informace pro uživatele) |
Každý HTML dokument je složen z úseků - elementů. K rozlišení, o jaký element se jedná, slouží tagy. Nejčastější tagy jsou párové značky uzavírající příslušný úsek (element) dokumentu. Každý tag je složen ze jména (např. TITLE) uzavřeného mezi znaky < > nebo </ >.
vzhled počátečního tagu <JMENO>
vzhled koncového tagu </JMENO>
typy tagů:
a) container (obsah elementu je uvnitř počátečního a koncového tagu)
b) empty (ukončovací tag se nepoužívá)
Elementem může být:
a) obsahová část dokumentu (např. název)<TITLE> </TITLE>
b) formální (vzhledová) část dokumentu (např. úsek zvýrazněný tučným písmem)<B> </B>
c) obrázek<IMG SRC=" ">
d) hypertextový uzel (hypertextová vazba, angl. hypertext link)<A HREF=" "> </A>
Technologie HTML
browser
- program pro prohlížení (prezentaci) HTML dokumentů
- interpretuje tagy v HTML souboru a prezentuje soubor jako formátovanou, čitelnou webovskou stránku
HICKSON, Ian et al. HTML Standard. In: WHATWG: Living Standard [online]. Last updated 2024-04-29 [cit. 2024-05-01]. Dostupné z: https://html.spec.whatwg.org.
KOSEK, Jiří. HTML5: Tvorba dokonalých webových stránek. Dostupné z: http://htmlguru.cz/.
5.3. XML
XML - eXtensible Markup Language
TEI. A gentle introduction to XML. In: TEI: Guidelines for Electronic Text Encoding and Interchange.
rozšiřitelný vyznačovací metajazyk využitelný v prostředí Internetu
Podmnožina SGML - zjednodušení některých příliš složitých (a vývojem překonaných) pravidel
Rozšíření možností vyznačení textů oproti omezené nabídce HTML
- umožňuje definovat vlastní tagy (resp. DTD/XSD)
- další typy odkazů (obousměrné odkazy, odkazy na více míst, odkaz na celý úsek dokumentu)
- oddělení informace o obsahu a stylu
typy XML dokumentů:
- s DTD/XSD - valid (platné): splňují veškeré deklarace uvedené v DTD/XSD
- bez DTD/XSD - well-formed (dobře vytvořené, správně strukturované): splňují obecná pravidla zápisu značek v XML
XML Schema definition language (XSD)
Jazyk pro definici struktury XML dokumentu. Rozšiřuje možnosti jazyka DTD.
https://www.w3.org/TR/xmlschema-0/
Aplikace XML Schema pro kódování bibliografických metadat vytvořených ve formátu MARC21:
METS - Metadata encoding and transmission standard
https://www.loc.gov/standards/mets/
MODS - Metadata object description schema
https://www.loc.gov/standards/mods/
MADS - Metadata authority description schema
https://www.loc.gov/standards/mads/
MARCXML - MARC21 XML schema
https://www.loc.gov/standards/marcxml/
6. Síťová struktura otevřených dokumentů: standard RDF
Používaná terminologie
IRI (Internationalized resource identifier) |
Internacionalizovaný identifikátor zdroje. | |
literál | Hodnota vztahující se k entitě (přesněji řečeno hodnota jejího atributu), vyjádřená řetězcem znaků; je-li například entitou tvůrce, může literál obsahovat jeho jméno. | |
objekt | ||
predikát (angl. property/predicate) |
||
prefix | Zkrácená verze označení jmenného prostoru identifikátoru | |
subjekt | ||
výrok / tvrzení (angl. statement) | Trojice tvořená subjektem, predikátem a objektem. | |
zdroj (angl. resource) |
Jakákoli entita v daném univerzu diskurzu. Subjekt nebo objekt. |
syntaxe RDF | sémantika RDF | funkčnost RDF | |
Výrazy v jazyce RDF tvoří 3 typy elementů:
výrok = zdroj + vlastnost + zdroj/hodnota |
|
6.1. Propojená data
LOD - Linked open data (propojená otevřená data)
- data jsou dostupná na webu pod otevřenou licencí
- data jsou poskytována ve strojově čitelném strukturovaném formátu
- formát dat je otevřený
- jako identifikátory objektů jsou použity URI
- data jsou pomocí odkazů propojena na jiná související data
Databáze Národní knihovny ČR jako otevřená data:
Zpřístupnění databází NK ČR pod licencí CC0. https://www.nkp.cz/o-knihovne/odborne-cinnosti/otevrena-data
6.2. RDF
"RDF je jazyk, navržený lidmi pro vyjadřování lidských myšlenek ve formě přístupné strojovému zpracování."[1]
Thomas Baker, 2012
Resource description framework (zkr. RDF) - rámec pro popis zdrojů je:
- aplikace XML – jazyk pro psaní metadat pro zdroje na webu
- rámec pro reprezentaci (tj. vyjádření) informací na webu
- „obálka“, „kontejner“ na jakákoli metadata
- jazyk pro tvorbu binárních a orientovaných výroků
- síťová (grafová) struktura: orientovaný ohodnocený graf
Syntaxe RDF
Struktura trojic RDF (angl. RDF triple): zdroj + vlastnost + zdroj / hodnota subjekt (IRI entity A) – predikát (IRI vztahu) – objekt (IRI entity B, příp. literál) Subjekty a objekty tvoří uzly grafu, predikáty představují jeho orientované hrany. |
|
Sémantika RDF
IRI označuje (reprezentuje, identifikuje) zdroj i predikát pro stroje. | rdfs:label označuje (reprezentuje, identifikuje) zdroj i predikát pro lidi. |
Pro zápis IRI ze stejného jmenného prostoru (angl. namespace) lze použít zkrácenou verzi, v níž je opakující se část IRI nahrazena tzv. prefixem.
Příklad: Identifikátory a popisky prvků "textový zdroj" a "obsahuje část" metadatového schématu Dublin Core
zdroj (referent) | rdfs:label | IRI | jmenný prostor | prefix | zkrácený identifikátor | |
subjekt/objekt | textový zdroj | Text | http://purl.org/dc/dcmitype/Text | http://purl.org/dc/dcmitype/ | dcterms | dcterms:Text |
predikát | obsahuje část | hasPart | http://purl.org/dc/terms/hasPart | http://purl.org/dc/terms/ | dcterms | dcterms:hasPart |
Analogií k textovým odstavcům, jež tvoří množina vět, jsou RDF grafy, tvořené množinou trojic RDF. Vztahy entit jsou implementovány jako linky RDF, jež mají rovněž formát trojic RDF. Na rozdíl od HTML linku (značka <a> s atributem „href“), který neobsahuje žádnou sémantiku, je RDF link „typovaný“, jeho význam je určen sémantikou použitého predikátu.
Příklad využití RDF pro strukturování bibliografických metadat
Bibliografické informace o knize Bohumila Hrabala Příliš hlučná samota, vydání z roku 1989. Metadata převzata z: https://aleph.nkp.cz/F/?func=direct&doc_number=000051861&local_base=NKC. Výroky jsou formulovány s využitím pojmového aparátu modelu IFLA LRM.
Výroky:
<Bohumil Hrabal> <je autorem> <díla Příliš hlučná samota>.
<Dílo Příliš hlučná samota> <má předmětové heslo> <"Hrabal, Bohumil (1914-1997 spisovatel čes.) - dílo - studie">.
<Provedení Příliš hlučná samota: text> <je ztělesněním> <díla Příliš hlučná samota>.
<Odeon> <vydal> <provedení Příliš hlučná samota: text>.
Rozčlenění výroků na strukturní prvky trojic RDF
subjekt | predikát | objekt |
Bohumil Hrabal | je autorem/má autora |
Příliš hlučná samota (dílo) |
Příliš hlučná samota (dílo) | je/má předmětové heslo |
"Hrabal, Bohumil (1914-1997 spisovatel čes.) - dílo - studie" |
Příliš hlučná samota: text (provedení) | je ztělesněním/má ztělesnění |
Příliš hlučná samota (dílo) |
Odeon | vydal/má vydavatele |
Příliš hlučná samota: text (provedení) |
Pro grafické znázornění výroků v jazyce RDF se používají následující konvence:
- entity (objekty a subjekty) se znázorňují jako ovály
- literály se zobrazují jako obdélníky
- predikáty se znázorňují jako orientované hrany (šipky), směřující od subjektu k objektu
Obr. 1 Trojice RDF znázorněné prostřednictvím grafu
Identifikátory subjektů a objektů
Každý subjekt ve výroku RDF musí mít IRI. Objekt má buď IRI nebo může být vyjádřen hodnotou neboli literálem. Objekt, který nemá IRI, už nemůže být propojen s žádnou další entitou, tvoří "list" grafu.[2] To je případ objektu na řádku 5.
subjekt/objekt | identifikátor | jmenný prostor |
prefix | zkrácený identifikátor | |
1 | Bohumil Hrabal | http://viaf.org/viaf/34458072 | http://viaf.org/viaf/ | viaf | viaf:34458072 |
2 | Příliš hlučná samota (dílo) | http://viaf.org/viaf/178450109 | http://viaf.org/viaf/ | viaf | viaf:178450109 |
3 | Příliš hlučná samota: text (provedení) | ISBN 80-207-0156-7 | isbn | isbn:8020701567 | |
4 | Odeon | http://viaf.org/viaf/148380530 | http://viaf.org/viaf/ | viaf | viaf:148380530 |
5 | "Hrabal, Bohumil (1914-1997 spisovatel čes.) - dílo - studie" |
Obr. 2 Jednoznačné identifikátory objektů a subjektů
Identifikátory predikátů
Každý predikát ve výroku RDF musí mít IRI.
predikát | identifikátor | jmenný prostor | prefix | zkrácený identifikátor |
je autorem | http://rdaregistry.info/Elements/a/P50541 | http://rdaregistry.info/Elements/a/ | rdaa | rdaa:P50541 |
má předmět | http://rdaregistry.info/Elements/w/P10256 | http://rdaregistry.info/Elements/w/ | rdaw | rdaw:P10256 |
je ztělesněním | http://rdaregistry.info/Elements/m/P30135 | http://rdaregistry.info/Elements/m/ | rdam | rdam:P30135 |
vydal | http://rdaregistry.info/Elements/m/P30083 | http://rdaregistry.info/Elements/m/ | rdam | rdam:P30083 |
Obr. 3 Jednoznačné identifikátory predikátů
Klasifikace v jazyce RDF
Vyjádření obsahu entit se děje rovněž pomocí výroků v jazyce RDF. Subjekty, objekty i predikáty se přiřazují k termínům slovníků (k tvorbě slovníků slouží jazyk RDF Schema). Termíny slovníků jsou třídy a subjekty, objekty a predikáty jsou jejich instance. V našem příkladu jsou uvedeny tyto výroky:
Příliš hlučná samota (dílo) <je instancí třídy> Dílo.
Příliš hlučná samota: text (provedení) <je instancí třídy> Provedení.
Bohumil Hrabal <je instancí třídy> Osoba.
Odeon je <instancí třídy> Kolektivní agent.
Třída Osoba <je zahrnuta ve třídě / je podtřídou třídy> Agent.
Třída Kolektivní agent <je zahrnuta ve třídě / je podtřídou třídy> Agent.
Predikáty používané pro klasifikaci entit
predikát | identifikátor | prefix | zkrácený identifikátor |
patří do třídy (je typ) vztah instance - třída |
http://www.w3.org/1999/02/22-rdf-syntax-ns#type | rdf | rdf:type |
je podtřídou vztah třída - třída |
https://www.w3.org/TR/2014/REC-rdf-schema-20140225/#ch_subclassof | rdfs | rdfs:subClassOf |
Obr. 4 Definování významu entit jejich klasifikací
Označování entit pro lidské uživatele
IRI subjektů, objektů a predikátů slouží pro jejich jednoznačnou identifikaci a zpracování počítačovými programy. Pro lidské uživatele slouží slovní označení (angl. label) entit, která se definují rovněž prostřednictvím trojic RDF. Pro specifikaci označení entity se používá predikát rdfs:label, hodnotou označení je literál.
Příklad:
Entita rdac:C10007 se jmenuje "Provedení" | rdac:C10007 <rdfs:label> "Provedení" | |
Entita rdaw:P10256 se jmenuje "má předmět" | rdaw:P10256 <rdfs:label> "má předmět" |
Obr. 5 Kompletní RDF graf
(Poznámka: V tomto obrázku jsou pro zjednodušení slovní označení přiřazena pouze subjektům a objektům)
[1] BAKER, Thomas. Libraries, languages of description, and linked data: a Dublin Core perspective. In: Library Hi Tech. 2012, 30(1), 117. ISSN 0737-8831.
[2] Poznámka: Specifikace RDF ještě umožňuje definovat tzv. prázdné uzly (angl. blank nodes), které v tomto zjednodušeném příkladu nejsou použity.
7. Indexový soubor
Technologie přístupu k informačním zdrojům
Podmínky efektivního přístupu
- zdroje musí být sémanticky popsané (musí být znám jejich význam, tj. musí k nim existovat metadata)
- zdroje musí být organizované (uspořádané, tj. musí být určeny vztahy mezi nimi)
Techniky organizace - umístění a označení
umístění | označení | |
Otázka | Kde je to? | Co je to? |
Typ techniky | konkrétní | abstraktní |
Typ vlastnosti | vnitřní, statická | vnější, dynamická |
Teoretický základ | fyzika | sémiotika |
Typ objektů | materiální objekty nemovité objekty |
neomezené |
Omezení | místo - objekt: 1:1 jednoznačné |
označení - objekt: N : M nejednoznačné |
Typy technologií přístupu k informacím
jednotka uložení | jednotka zpracování | struktura | přístup | jazyk | ||
vyhledávání | strukturované | záznam | atribut (element, pole, sloupec) | relační | množinový | SQL |
plnotextové | text | slovo (lexém) | lineární (text), stromová (index) | množinový (prostřednictvím indexu) | ||
prohlížení / navigace | zdroj (dokument/datový objekt) | uzel, odkaz (hrana, reference, spoj, link) | síťová | navigace | SPARQL |
Vyhledávání
- stanovení, zda konkrétní údaj je prvkem určité množiny, a určení jeho umístění (tj. identifikace)
- princip: porovnávání hodnoty vyhledávacího klíče s hodnotami prvků dané množiny (souboru)
kritérium efektivnosti:
počet prvků prohledávaného souboru (slov, záznamů, dokumentů...), které musíme tímto způsobem otestovat (tj. doba potřebná k vyhledávání)
Vyhledávací algoritmy
rychlost vyhledávání / stupeň zpracování |
||||
bez indexu | s indexem | |||
sekvenční | úplné | |||
zkrácené | ||||
množinové |
1. Úplné vyhledávání
Sekvenční vyhledávání v nesetříděném souboru (lineární vyhledávání řetězců v textu) - vždy je nutné zpracovat všechna data
Příklad: hledáme heslo "alma mater" v nesetříděném souboru
2. Zkrácené vyhledávání v setříděném souboru
Poté, co najdeme hledanou hodnotu, lze zpracování ukončit
Typy třídění / řazení:
a) podle označení: abecedně, chronologicky, číselně
b) podle obsahových nebo funkčních charakteristik, např. podle pravděpodobnosti požadavku
2.1 Sekvenční vyhledávání v setříděném souboru
Příklad: hledáme heslo "alma mater" sekvenčním vyhledáváním v abecedně setříděném souboru.
2.2 Intervalové vyhledávání v setříděném souboru
Součástí prohledávaného souboru je tzv. blokový (řídký) index (např. v encyklopedii - první a poslední heslo na straně).
- nejprve (sekvenčně) prohledáváme setříděný seznam intervalů
- po nalezení potřebného intervalu sekvenčně prohledáme setříděné záznamy, jež jsou v něm obsaženy
Příklady:
Hledáme časopis Knihovna v Portálu e-časopisů UK: 1. zvolíme písmeno K, 2. zvolíme interval Kli-Kni, 3. najdeme časopis Knihovna.
Hledáme heslo "alma mater" s použitím blokového indexu v encyklopedii.
2.3 Binární vyhledávání (binary search) v setříděném souboru
Půlení intervalu (rozdělení souboru vždy na polovinu) v setříděném souboru.
Vyhledávanou hodnotu porovnáme s prostředním záznamem intervalu; jestliže >, postupujeme zpět, jestliže <, postupujeme vpřed.
Příklad: hledáme číslo 63 - hledanou hodnotu porovnáme s číslem 50, poté s číslem 75, poté s číslem 62 (zaokrouhlená hodnota 62,5), poté s číslem 69, poté s číslem 66, poté s číslem 64, skončíme na čísle 63.
3. Vyhledávání s použitím indexu
Dvoufázové vyhledávání: nejprve prohledáme index, pak primární soubor.
Index
Pomocný soubor strukturovaný a tříděný podle jiného hlediska než základní (primární) soubor. Obsahuje záznamy o struktuře "klíč, adresa", kde klíč je hodnota (slovo, fráze, atribut) a adresa je ukazatel na místo uložení této hodnoty v základním souboru. Prostřednictvím odkazu propojuje index označení zdroje s jeho umístěním. Účelem indexového souboru je urychlit přístup ke zdrojům a tím zkrátit dobu vyhledávání.
Poznámka: Slovo index se používá v mnoha různých významech - viz rozcestník na Wikipedii.
klad:
- urychluje přístup k datům (zkracuje dobu vyhledávání)
- umožňuje vyhledávat podle více hledisek
zápor:
- zabírá místo
- údržba indexu zpomaluje práci při aktualizaci primárního souboru
indexovaný soubor:
primární soubor není setříděn (sekvenční vyhledávání)
index-sekvenční vyhledávání (ISAM - index-sequential access method):
primární soubor je sekvenčně setříděn (zkrácené vyhledávání)
Typy indexů
Termínové indexy
a) strukturovaný - fulltextový
1. Plnotextový (fulltextový) index
index s rozdělením víceslovných výrazů na jednotlivá slova
vyhledávaná jednotka: text (dokument), příp. jeho část
složení:
1. slovo
2. pořadové číslo dokumentu v kolekci
3. pořadí slova v rámci dokumentu (příp. v rámci elementu)
Příklad: Plnotextový index vytvořený pro záznamy knih
Číslo záznamu/dokumentu |
Text |
116 | Čapek, Karel. Loupežník. 31. 1958 |
117 | Apollinaire, Guillaume. Pražský chodec. 60. 1984 |
118 | Hartwigová, Julia. Apollinaire. 48. 1967 |
119 | Čapek, Karel. R.U.R. 32. 1962 |
120 | Čapek, Karel. Krakatit. 48. 1958 |
121 | Dostojevskij, Fjodor Michajlovič. Idiot. 120. 1984 |
122 | Čapek, Karel. Věc Makropulos. 48. 1967 |
123 | Hrabal, Bohumil. Pábitelé. 1967 |
124 | Čapek, Karel. Život a dílo skladatele Foltýna. 32. 1978 |
125 | Hrabal, Bohumil. Ostře sledované vlaky. 32. 1978 |
126 | Hrabal, Bohumil. Inzerát na dům, ve kterém už nechci bydlet. 1967 |
127 | Apollinaire, Guillaume. Kaligramy. 32. 1962 |
128 | Orwell, George. 1984. 32. 1991 |
129 | Olbracht, Ivan. Nikola Šuhaj loupežník. 25. 1962 |
Slovo | Číslo záznamu/dokumentu | Pořadí v dokumentu |
---|---|---|
120 | 121 | 5 |
1958 | 116 | 5 |
120 | 5 | |
1962 | 119 | 5 |
127 | 5 | |
129 | 7 | |
1967 | 118 | 5 |
123 | 4 | |
126 | 11 | |
1978 | 124 | 1 |
1984 | 117 | 1 |
121 | 1 | |
128 | 1 | |
1991 | 128 | 1 |
25 | 129 | 1 |
31 | 116 | 1 |
32 | 119 | 1 |
124 | 1 | |
125 | 1 | |
127 | 1 | |
128 | 1 | |
48 | 118 | 1 |
120 | 1 | |
122 | 1 | |
60 | 117 | 1 |
a | 124 | 2 |
Apollinaire | 117 | 1 |
118 | 1 | |
127 | 1 | |
Bohumil | 123 | 2 |
125 | 2 | |
126 | 2 | |
bydlet | 126 | 8 |
Čapek | 116 | 1 |
119 | 1 | |
120 | 1 | |
122 | 1 | |
124 | 1 | |
dílo | 124 | 3 |
Dostojevskij | 121 | 1 |
dům | 126 | 3 |
Fjodor | 121 | 2 |
Foltýna | 124 | 5 |
George | 128 | 2 |
Guillaume | 117 | 2 |
127 | 2 | |
Hartwigová | 118 | 1 |
Hrabal | 123 | 1 |
125 | 1 | |
126 | 1 | |
chodec | 117 | 2 |
Idiot | 121 | 1 |
Inzerát | 126 | 1 |
Ivan | 129 | 2 |
Julia | 118 | 2 |
Kaligramy | 127 | 1 |
Karel | 116 | 2 |
119 | 2 | |
120 | 2 | |
122 | 2 | |
124 | 2 | |
Krakatit | 120 | 1 |
kterém | 126 | 5 |
loupežník | 129 | 3 |
Loupežník | 116 | 1 |
Makropulos | 122 | 2 |
Michajlovič | 121 | 3 |
na | 126 | 2 |
nechci | 126 | 7 |
Nikola | 129 | 1 |
Olbracht | 129 | 1 |
Orwell | 128 | 1 |
Ostře | 125 | 1 |
Pábitelé | 123 | 1 |
Pražský | 117 | 1 |
R.U.R. | 119 | 1 |
skladatele | 124 | 4 |
sledované | 125 | 2 |
Šuhaj | 129 | 2 |
už | 126 | 6 |
ve | 126 | 4 |
Věc | 122 | 1 |
vlaky | 125 | 3 |
Život | 124 | 1 |
2. Strukturovaný index
klasický index relační databáze (s celými hodnotami atributů/položek)
vyhledávaná jednotka: záznam
složení:
1. hodnota atributu/pole
2. pořadové číslo záznamu v souboru
3. pořadové číslo pole nebo název pole v záznamu
Příklad: Strukturovaný index vytvořený pro záznamy knih
Základní soubor | Index | |||||||
---|---|---|---|---|---|---|---|---|
Číslo záznamu | Autor | Název | Cena | Rok vydání | Hodnota pole | Číslo záznamu | Název pole | |
116 | Čapek, Karel | Loupežník | 31 | 1958 | 120 | 121 | Cena | |
117 | Apollinaire, Guillaume | Pražský chodec | 60 | 1984 | 1958 | 116 | Rok vydání | |
118 | Hartwigová, Julia | Apollinaire | 48 | 1967 | 120 | Rok vydání | ||
119 | Čapek, Karel | R.U.R | 32 | 1962 | 1962 | 119 | Rok vydání | |
120 | Čapek, Karel | Krakatit | 48 | 1958 | 127 | Rok vydání | ||
121 | Dostojevskij, Fjodor Michajlovič | Idiot | 120 | 1984 | 129 | Rok vydání | ||
122 | Čapek, Karel | Věc Makropulos | 48 | 1967 | 118 | Rok vydání | ||
123 | Hrabal, Bohumil | Pábitelé | 1967 | 123 | Rok vydání | |||
124 | Čapek, Karel | Život a dílo skladatele Foltýna | 32 | 1978 | 126 | Rok vydání | ||
125 | Hrabal, Bohumil | Ostře sledované vlaky | 32 | 1978 | 124 | Rok vydání | ||
126 | Hrabal, Bohumil | Inzerát na dům, ve kterém už nechci bydlet | 1967 | 1984 | 117 | Rok vydání | ||
127 | Apollinaire, Guillaume | Kaligramy | 32 | 1962 | 121 | Rok vydání | ||
128 | Orwell, George | 1984 | 32 | 1991 | 128 | Název | ||
129 | Olbracht, Ivan | Nikola Šuhaj loupežník | 25 | 1962 | 1991 | 128 | Rok vydání | |
25 | 129 | Cena | ||||||
31 | 116 | Cena | ||||||
32 | 119 | Cena | ||||||
124 | Cena | |||||||
125 | Cena | |||||||
127 | Cena | |||||||
128 | Cena | |||||||
48 | 118 | Cena | ||||||
120 | Cena | |||||||
122 | Cena | |||||||
60 | 117 | Cena | ||||||
Apollinaire | 118 | Název | ||||||
Apollinaire, Guillaume | 117 | Autor | ||||||
127 | Autor | |||||||
Čapek, Karel | 116 | Autor | ||||||
119 | Autor | |||||||
120 | Autor | |||||||
122 | Autor | |||||||
124 | Autor | |||||||
Dostojevskij, Fjodor Michajlovič | 121 | Autor | ||||||
Hartwigová, Julia | 118 | Autor | ||||||
Hrabal, Bohumil | 123 | Autor | ||||||
125 | Autor | |||||||
126 | Autor | |||||||
Idiot | 121 | Název | ||||||
Inzerát na dům, ve kterém už nechci bydlet | 126 | Název | ||||||
Kaligramy | 127 | Název | ||||||
Krakatit | 120 | Název | ||||||
Loupežník | 116 | Název | ||||||
Nikola Šuhaj loupežník | 129 | Název | ||||||
Olbracht, Ivan | 129 | Autor | ||||||
Orwell, George | 128 | Autor | ||||||
Ostře sledované vlaky | 125 | Název | ||||||
Pábitelé | 123 | Název | ||||||
Pražský chodec | 117 | Název | ||||||
R.U.R | 119 | Název | ||||||
Věc Makropulos | 122 | Název | ||||||
Život a dílo skladatele Foltýna | 124 | Název |
b) index z 1 pole (elementu) - index z více polí (elementů)
1. Index vytvořený z hodnot 1 pole (elementu)
Příklad: Index vytvořený z hodnot pole NÁZEV
2. Index vytvořený z hodnot více polí (elementů)
- složený index (původní položky zůstanou zachovány, třídí se kaskádovitě)
- hodnoty různých polí (elementů) jsou umístěny do stejného pole indexového souboru
Příklad: Složený index vytvořený z hodnot polí AUTOR a NÁZEV
Využití indexového souboru pro kontextové operátory
a) operátor proximity
podmínka vzdálenosti se vyhodnocuje přes absolutní hodnocení rozdílu pořadí slov
b) operátor pořadí
podmínka pořadí je vyhodnocována na základě větší velikosti čísla udávajícího pořadí slov
8. Literatura
ČSN EN 28879. Zpracování informací. Textové a kancelářské systémy. Standardní univerzální vyznačovací jazyk (SGML). Praha: Český normalizační institut, 1995. 204 s. Třídicí znak 36 9825. [český překlad evropské verze ISO 8879:1986]
Extensible Markup Language (XML) 1.1. W3C Recommendation 04 February 2004, edited in place 15 April 2004. Dostupné z: http://www.w3.org/TR/xml11/.
GLUSHKO, Robert J., McGRATH, Tim. Document engineering: analyzing and designing documents for business informatics and web services. Cambridge: MIT Press, 2005. 703 s. ISBN 0-262-07261-0.
Index. In: Ottův slovník naučný. https://ndk.cz/view/uuid:90942c10-e6e0-11e4-9c07-001018b5eb5c?page=uuid:f275a270-04b7-11e5-95ff-5ef3fc9bb22f.
KNOLL, Adolf. Problematika elektronických publikací. In: Národní knihovna: knihovnická revue. 1999, 10(4), 173-177. ISSN 0832-7487 (print). ISSN 1214-0678 (online). Dostupné z: http://full.nkp.cz/nkkr/NKKR9904.html.
KUČEROVÁ, Helena. Metavyhledávání a jeho typy – příspěvek k terminologické diskusi. In: Knihovna plus [online]. 2011, 7(2) [cit. 2024-05-03]. ISSN 1801-5948. Dostupné z: http://knihovna.nkp.cz/knihovnaplus112/kucer.htm.
MLÝNKOVÁ, Irena et al. XML technologie: principy a aplikace v praxi. 1. vyd. Praha: Grada, 2008. 267 s. ISBN 978-80-247-2725-7.
NIČ, Miloslav. RDF tutorial. In: Zvon.org [online]. [cit. 2024-05-03] Dostupné z: http://zvon.org/comp/r/tut-RDF.
Resource description framework (RDF) [online]. W3C RDF Working Group, last modified 2020-02-18 [cit. 2024-04-29]. Dostupné z: http://www.w3.org/RDF/.
RDF 1.2 concepts and abstract syntax [online]. W3C Working Draft. Olaf Hartig, Pierre-Antoine Champin, Gregg Kellogg,
Andy Seaborne, ed. W3C, 2024-05-02 [cit. 2024-05-03]. Dostupné z: https://www.w3.org/TR/rdf12-concepts/.
RDF 1.1 primer [online]. W3C Working Group Note. Guus Schreiber, Yves Raimond, ed. W3C, 2014-06-24 [cit. 2024-05-03]. Dostupné z: https://www.w3.org/TR/rdf11-primer/.
RDF 1.2 Schema [online]. W3C Working Draft. Dominik Tomaszuk, Timothée Haudebourg, ed W3C, 2024-04-18 [cit. 2024-05-03]. Dostupné z: https://www.w3.org/TR/rdf12-schema/.