Vyhledat   Tisk    Daidalos 4/1, prosinec 2000: sekce příspěvků    @ vuppraha@mbox.vol.cz

Zdeněk Jonák

TEXTPACK


Charakteristika systému pro obsahovou analýzu textu s praktickými ukázkami využití

Jednou z cest, jak se může knihovnictví přiblížit rostoucím potřebám uživatelů, je možnost nabízet stále diferencovanější nabídku práce s obsahy knihovních jednotek uložených ve fondech. Tímto způsobem může - samozřejmě v dlouhodobé perspektivě - konkurovat nejen nabídce komerčního software, ale i efektivněji využít kapacity hardware, pracujícího zpravidla na malá procenta svého výkonu.

Zejména ve školství, v souladu s tím, jak budou žáci zvládat standardní software, poroste jejich potřeba využívat počítačovou techniku pro výzkum skutečností utajených v textových souborech, jejichž tajemství leží zatím nedostupné pouze v pracovištích zabývajících se lingvistickou, sémiotickou strukturou textů. Budou-li se místo memorování básně nebo malování mrkve chtít dozvědět něco o struktuře textu či obrázku, přijde jim zavděk pracovník školního informačního centra, který je pro podobné nadstandardní možnosti odkáže na příslušný software.

Chtěl bych poukázat na některé možnosti práce s texty upozornit v souvislosti se systémem, jehož ukázku ve formě demoverze lze získat na Internetu.

Systém Textpack vyvinutý společností ZUMA, Mannheim, Německo nabízí následující funkce:

Frekvenční analýza textu.

Výsledkem je abecedně uspořádaný seznam slov textu, s údajem o počtu jejich výskytů v textu.

Seznam slov s jejich odkazem na místa výskytu

Vytvoří seznam slov s údajem o místě slova v textu. Tento údaj záleží samozřejmě na způsobu rozčlenění textu na jednotky (viz. dále: členění na ID1, ID2, ID3).

Konkordance

Zobrazí slovo v kontextu. Izolované slovo může být vícevýznamové. Zobrazení slova v kontextu umožňuje identifikovat jeho význam.

Porovnání slovníků textů

Umožňuje odlišit dva texty na základě porovnání jejich slovníků. Samozřejmě musí jít o texty přibližně stejného rozsahu, aby bylo možné uvažovat při rozhodování počty výskytů. V jiném případě by se musely údaje o výskytu zaokrouhlovat vzhledem k délce textu.

Analýza textu pomocí externě vytvořeného slovníku

Má-li uživatel jasnější představu o cíli analýzy, může si definovat vlastní obsahové kategorie a může tímto způsobem ošetřit i synonyma, které předpokládá v textu. Může např. pod jedním identifikačním číslem označit synomyma nebo slovotvary:

0020 rodina
0020 dítě
0020 děti
0020 dcera
0020 synové a dcery
0020 dcery
0020 dceřino
0020 otec
0020 syn
atd. 

nebo vytvořit obsahovou kategorii, kterou hodlá v textu analyzovat např. pro zjištění obsahu textů o "Knihovním fondu zadá:

0001 knihovna
0001 fond
0001 akvizice
0001 literatura
0001 výtisk
atd. 

V obou případech se údaj o počtu výskytů neroztříští mezi slovy obsahově shodnými, ale vyskytujícími se na různých místech textu, poskytne ucelenější informaci o všech synonymních výrazech nebo o kategoriích obsahující vyčerpávající obsahově uzavřený soubor slov.

Nastavení systému Textpack

Systém je po instalaci samozřejmě prázdný. Pro jeho uspěšné fungování je možné vytvořit:
- STOP slovník obsahující slova, zpravidla nevýznamová (spojky, předložky apod.), která jsou v textu velmi frekventovaná a pro analýzu obsahu málo významná.
- úprava vícevýznamových slov. některá slova mají v různém kontextu různý význam. V externím slovníku je možné je možné různé významy odlišit a každému významu přiřadit jiný kód (např. slovo "klíč": klíč#1, klíč#2, klíč#3 s odkazem na odlišný význam)

Příprava analyzovaného vzorku textů

Stanovení jednotky analýzy
Velice důležitým kritériem z hlediska výsledné analýzy je stanovení jednotky měření. Jednotkou může být celá kniha, kapitola či pouhá věta textu. Před vlastní analýzou je nutné tuto informaci systému sdělit a rozdělený text označit pomocí identifikátorů: ID1 - např. Kniha jako celek, ID2 - kapitola, paragraf , ID3 - věta).

Ukázka:

Jednotkou je celý dokument:

0001
	0025 (Text č.1)
(frekvence výskytů)

avšak 	20
atlas	 	  5
.
.
zátěž		  5

nebo
Jednotkou je věta:

0001
	0025 (Text č. 1)
			0001	věta 1
					(frekvence výskytů)
						avšak	10
						atlas     2
						.
						.
						zátěž	     2
			
			0002	věta 2

						avšak	9
						atlas     	2
						.
						.
						zátěž	1

			0003	věta 3
						avšak	1
						atom     0
						.
						zátěž	1

Z ukázky je zřejmé, že stanovení jednotky skýtá z hlediska analýzy textu velmi rozdílné výsledky. V druhém případě skýtá analýza frekvence přesnější údaje o rozložení na jednotlivých místech textu. Z podrobnějšího rozložení údajů o frekvenci výskytů je možné si udělat obrázek o vyvoji určitého tématu na začátku, ve středu a v závěru textu. To je při analýze jak odborného, tak uměleckého textu, důležitá informace.

Možnosti praktického využití systému Textpack

V této části textu bych rád poukázal na možnost využití údajů získaných výše uvedenými subsystémy k praktickému použití pro účely výuky či uspokojení nadstandardního požadavku uživatelů. Již v minulosti jsem na stránkách elektronických časopisů poukázal na systémy, které nabízí podobné možnosti jako popisovaný systém (např. Atlas.ti, Tact). V tomto článku bych se chtěl spíše nez na popis vlastního systému zaměřit na ukázku konkrétních aplikací a inspirovat podnikavé zájemce k tomu, jak by se daly výstupy ze systému využít k podnícení zájmu žáků, studentů či uživatelů o další funkce, jakmile zvládnou editování a vyhledávání dokumentu. Údaje poskytované těmito systémy mohou nalézt bohaté využití ve styčných knihovnických oblastech: teorii čtenáře při rozhodování o adekvátnosti textu knihy vzhledem k věku čtenáře, při tvorbě selekčního jazyka, v nakladatelské činnosti apod. Některé údaje lze použít přímo, k jiným lze dojít dosazením do jednoduchých vzorců. Ve škole lze doporučit k jejich výpočtu např. Excel.
Stanovení délky textu
Údaj o délce textu představuje důležitý údaj o textu, zejména, analyzujeme-li soubory textů s texty o různém rozsahu. Je samozřejmé, že v textech různých délek, bude použitý selekční jazyk (ať jde o fultextové vyhledávání nebo vyhledávání pomocí tezauru) vykazovat různou vyhledávací sílu. V textu krátkém nebude schopen systém založený na statistických metodách poskytnout přesné informace o obsahu textu. (Údaj o délce textu vyjádřený v počtu slov poskytuje i editor Word - panel Nástroje: počet slov)
Ukazatel diferencovanosti slov textu
Diferencovanost textu se měří pomocí indexu opakování (Io). Využití indexu opakování se opírá o hypotézu, že mezi počtem lexikálních jednotek a informativností textu je statistická závislost. Z hodnoty tohoto ukazatele lze usuzovat na různorodost a složitost modelu světa popisovaného v textu. Výpočet ukazatele vychází z předpokladu, že čím je v textu méně různých slov, tím častěji se musí opakovat a jejich index opakování je vyšší. Čím je jich v textu více, tím složitější model text přenáší a tím index opakování je nižší. (Io = N/A, kde A je počet všech slov, A je počet různých slov)
Ukazatel přírůstku různých slov
Každé nové plnovýznamové slovo lze považovat za důležité ve výstavbě obsahu nebo ho lze považovat za kandidáta na funkci klíčového slova v selekčním jazyku. Proto je důležité znát pravděpodobnost, s jakou lze s růstem objemu textů očekávat přírůstek nových různých slov. Míra jejich přírůstku vypovídá např. o šíři tématického záběru souboru textů, může napovědět o inovativnosti souboru nebo naopak o opaku o myšlenkové redundanci. Tím se usnadňuje rozhodnutí, zda má význam text studovat.
Ukazatel rozložení slovních druhů
Tento ukazatel se opírá o empirickou zkušenost, potvrzující, že obsahově nejvýznamnější prvky jsou zpravidla reprezentovány určitým slovním druhem. Tradičně se přijímá, že obsahově nejvýznamnější jsou jmenné výrazy. Ty se rovněž přednostně vybírají jako jednotky selekčních jazyků. Druhým nejvýznamějším slovním druhem jsou slovesa. To ovšem neznamená, že v určitém typu textů to mohou být jiné typy výrazů, např. zkratky, číslovky apod.
Ukazatel poměru jednoslovných a víceslovných výrazů
V terminologické struktuře nalezneme pojmenování důležitých prvků procesů, vztahů a vlastností. Z hlediska analýzy jde o důležitý údaj o poměru jedno a víceslovných výrazů. Vysoký podíl víceslovných výrazů vyžaduje věnovat zvýšenou pozornost programovému zabezpečení slovníku víceslovných výrazů, který pomůže tyto výrazy identifikovat (viz oddíl pojednávající o kategoriích a externím slovníku). Stoupne-li procento neošetřených víceslovných výrazů nad určitou mez, prudce se snižuje schopnost popisu obsahu textu i vyhledávací schopnost jakéhokoliv selekčního jazyku.
Identifikátor metatextových výrazů
V textu existují výrazy obsahově významnější než ostatní výrazy. Mluvíme o metatextových výrazech. Jejich výskyt je nejčastější v názvech publikací, kapitol či v úvodních a závěrečných větách textu. Rovněž jsou za tímto účelem některá slova, věty či odstavce odlišeny od ostatního textu graficky (tučně, kurzíva, barva, podtržení).

Z tohoto hlediska můžeme odlišit texty na texty:

- s různým podílem jmenných/slovesných výrazů. Jsou to indikátory rozlišení uměleckých a odborných textů. Odlišení textů charakteristických popisností (převaha jmenných výrazů) či s akcentem na vyprávění (převaha slovesných výrazů)

- s vysokou/nízkou dynamikou přírůstků různých slov. Umožňují odlišit texty obsahově něčím nové od redundantních.

- s vysokým/nízkým podílem víceslovných termínů. Víceslovné výrazy jsou charakteristické pro texty přinášející termíny nové, dosud nezaužívané (Podle Zipfova zákona víme, že jazykové výrazy dlouhodobě užívané mají tentenci zkracovat).

- s odlišným podílem různých/opakujících se výrazů. Tento indikátor má podobný význam jako předchozí. Umožňuje diferencovat texty, přinášející alespoň v terminologické rovině určité inovace.

Závěr

Cílem tohoto článku nebylo čtenáře, ať již veřejného či školního knihovníka nebo pedagoga odradit, ale naopak povzbudit. S rostoucí úlohou inteligentně vytvářeného informačního zázemí školy, ať již je to škola základní, střední či vysoká, poroste význam nápaditosti a flexibility kvalifikovaného pracovníka informačního centra. Záleží velmi na něm, zda si z úkolu, před nímž stojí školství, tj.odbourání potřeby vyučovat nadbytečnému množství faktů a dát přednost schopnosti dobrat se s pomocí menšího množstvím vhodněji zvolených faktů pochopení celku.

K tomuto účelu je připravena řada inteligentních pomůcek a pokud nejsou dosud komerčně dostupné nebo nejsou naprogramovány, potom je to jenom proto, že nabídka je dosud nevyvolala v život.


Daidalos - hlavní stránka | daidalos@ff.cuni.cz