Omezení a možnosti zvýšení selekčních schopností internetových robotů
V souvislosti se seminářem "Pořádání znalostí 2000" konaném dne 18. 12. 2000 v Parlamentní knihovně Poslanecké sněmovny Parlamentu, Sněmovní 4, Praha 1, se naskytla možnost porovnat přístupy, jaké při indexování dokumentů používají knihovníci-indexátoři a indexovací roboty internetových vyhledávacích strojů.
V množství vyhledaných informací, které získá uživatel prakticky na jakýkoliv dotaz, jakoby zmizelo rozhraní mezi hlediskem úplnosti a přesnosti vyhledávání. Uživatel má při vyhledávání na Internetu často dojem, že vždy najde užitečný zdroj. Užitečný však neznamená relevantní.
Tím, že uživatel o struktuře selekčního jazyka (dále SJ) používaného internetovými indexovacími roboty nemá jasnou představu, snadno ztrácí ze zřetele fakt, že relevance vyhledávání vždy souvisí s úrovní zpracování selekčního jazyka, s jeho schopností reprodukovat obraz dokumentu.
V tomto článku se pokusím podrobit vztah mezi úrovní SJ a kvalitou vyhledávání simulované zkoušce.
Vycházím z hypotézy, že kvalita SJ a tedy kvalita indexování je do značné míry závislá na tom, do jaké míry odráží SJ strukturu textu. Aby bylo možné splnit tyto podmínky, musel by selekční jazyk informačního systému obsahovat alespoň některé ze signifikantních prvků obsahu textu. V následujícím článku se pokusím definovat alespoň ty prvky textu, které jsou měřitelné.
Člověk indexující text vytvoří selekční obraz dokumentu tak, že obsahu textu nejdříve porozumí a na základě tohoto poznání vytvoří smysluplný redukovaný text. Počítačový systém zatím není vybaven schopností porozumět textu . Algoritmy, které by měly umožnit počítači textu porozumět, jsou natolik složité, že jsou prakticky nepoužitelné.
Myšlence nejjednoduššího algoritmu pro rozklad textu nesporně pomohl neopozitivismus s jeho koncepcí logického atomismu. Podle něho je lidské poznání jakousi projekcí věcí do lidské mysli, v níž slova jsou jakýmisi nálepkami, připevňovanými na věci. Základními stavebními kameny světa jsou jednotliviny a vztahy mezi nimi.
Tomu ve struktuře textu odpovídá vazba: podstatné jméno-sloveso (podmět - přísudek).
H. P. Luhn v padesátých letech aplikoval jednoduchou myšlenku atomismu na texty. Představa, že nejfrekventovanější slova textu jsou současně slova obsahově nejdůležitější, přečkala dobu děrných štítků a je součástí programového vybavení i dnešních počítačů.
Hodnota získaná tímto koeficientem ukazuje, zda vybraná klíčová slova SJ, jsou reprezentativní a schopná popisovat s dostatečnou přesností varietu obsahů souborů textů.
Při měření kompaktnosti vycházíme z předpokladu, že příčinou snížení
vyhledávací schopnosti jsou následující jevy:
- velké množství klíčových slov popisující nízké procento textů,
- malé množství klíčových slov popisujících vysoké procento textů.
Metoda se opírá o empirické zjištění, že čím větší množství textů je popisováno klíčovými slovy s průměrným počtem výskytů, tím je selekční jazyk kompaktnější.
Střed intervalu, v němž by se měla pohybovat většina klíčových slov, se vypočítá jako podíl celkového počtu výskytů klíčových slov (N) a souboru všech rozdílných klíčových slov (H).
Koeficient kompaktnosti pro klíčová slova v tomto intervalu se počítá jako podíl souhrnu výskytů klíčových slov v intervalu (A) a množství výskytů klíčových slov (N). Je pravděpodobné, že u textů s velkou tématickou šíří bude koeficient nižší a u oborových databází nižší.
Podle výše uvedených kritérií můžeme diferencovat texty do skupin na
texty:
- s různým podílem jmenných/slovesných výrazů. Ty mohou sloužit jako
indikátory rozlišení
uměleckých a odborných textů. Odlišení textů charakteristických popisností
(převaha jmenných výrazů) či s akcentem na vyprávění (převaha slovesných
výrazů)
- s vysokou/nízkou dynamikou přírůstků různých slov. Tyto indikátory
umožňují odlišit texty
obsahově něčím nové od redundantních.
- s vysokým/nízkým podílem víceslovných termínů. Víceslovné výrazy jsou
charakteristické pro texty přinášející termíny nové, dosud nezažité.
- s odlišným podílem různých/opakujících se výrazů. Tyto indikátory
mají podobný
význam jako předchozí. Umožňují diferencovat texty přinášející alespoň
v terminologické rovině určité inovace.
Roboty vyhledávacích strojů slouží k automatické indexaci internetových
stránek,
neprovádí ji však denně, ale ve stanovených intervalech.
(viz tabulku Indexing Times)
Dlouhý interval může mít rovněž vliv na kvalitu vyhledávání.
Podívejme se nejdříve, jakou metodu výběru selekčních jednotek používají jednotlivé vyhledávací stroje.
Roboty prohlížečů se liší dle toho, zda jde o:
- fultextové prohlížeče (ALTAVISTA, GOOGLE)
- katalogové prohlížeče (YAHOO)
- systémy kombinující výhody obou (METAFIND)
Fultextové prohlížeče indexují a ukládají v pravidelném časovém intervalu do databází milióny stránek. Každý prohlížeč vytváří vlastní databázi, kterou používá při vyhledávání.
Při formulaci dotazu používá k dosažení určité syntaxe mezi klíčovými slovy buď pomocí Booleovských operátorů (AND, OR, NOT) nebo pomocí frází uzavřených v uvozovkách. Umožňují pravostranné rozšíření apod.). Některé systémy respektují rozdíly mezi malými a velkými písmeny, umožňují najít k jednotnému číslu číslo množné apod.
Přesto nepřesahuje úspěšnost vyhledávání, měřeno nejen relevancí, ale pertinencí shody dotazu a obsahu vyhledaného dokumentu často ani 20%. Všechny fultextové prohlížeče nevyhledávají v textech shodným způsobem. Některé se orientují jen na nadpisy, jiné vyhledávají v prvních 20 slovech www stránky, některé se zaměřují pouze na hypertextové odkazy. Vyhledávací systémy se liší rovněž počtem oindexovaných www stránek.
Altavista např. zpracuje za krátké období 200 mil. stránek. Její robot Scooter zpracuje denně 10 mil. stránek. Robot vyhledávače Northern Light zpracovává kromě www stránek tisíce elektronických časopisů. Websearch Excite indexuje celý dokument. Jeho robot Spider indexuje kromě desítek tisíc stránek i desetitisíce serverů a tisíce recenzí novin.
Katalogové prohlížeče mají blíže knihovnickému pojetí zpracování obsahu dokumentu. Zpracovávají dokument s pomocí předmětových hesel do člověku srozumitelných obsahových kategorií. Nezpracují sice tolik www stránek jako fultextové vyhledávače, ale jsou použitelné v případech, nemáme-li představu, jak přesně formulovat dotaz.
Vyhledané dokumenty jsou ohodnoceny podle počtu shody mezi slovy, zadanými v dotazu a slovy nalezenými v textu.Vyšší ohodnocení získá text, v němž se vyskytl větší počet slov dotazu. Mezi texty, které dosáhly stejného výsledku v testu shody počtu slov, rozhoduje test na počet výskytů jednotlivých slov. Texty s větším počtem výskytů jednotlivých slov jsou hodnoceny výše.
Texty jsou hodnoceny podle počtu odkazů, které směřovaly na jejich stránku. Text s větším počtem odkazů je hodnocen výše.
Větší porozumění obsahu textu pravděpodobně poskytuje jazyk XML (eXtensive Markup Language), který definuje, co určitá, označená část textu znamená. Jazyk XML obsahuje řadu značek, kterými můžeme výstižně označit jednotlivé části textu: název knihy, jméno autora, vydavatele, žánr apod. Díky tomu bude možné položit dotaz: Které knihy napsal M. Kundera apod. a očekávat relevantní odpověď. V jazyku XML lze dokonce nové značky přidávat, pokud je předtím definujeme v DTD (Document Type Definition).
Metainformace však nejsou dostatečným, ani jediným prostředkem zvýšení efektivnosti selekčního jazyka. Zaručenější cestou je dosažení schopnosti identifikovat v textu co nejvíce prvků a tyto prvky začlenit do selekčního jazyka systému. Na některé ukazatele jsem upozornil. Tím může efektivnost dosáhnout až 75%.
Dosažení ideálního optima při vyhledávání, tj. maximální úplnosti a maximální přesnosti, však nelze dosáhnout žádnou analýzou založenou na analýze statistické struktury textu. Tu lze dosáhnout zasazením jednotlivých výroků do rámce predefinovaných porozumění obsahu textu.
Zatím byly vyzkoušeny rámce ve formě asociačních sítí a scénářů, kde jednotlivé slovo, výrok byly zasazeny do obsahových kategorií, kde vypovídaly o obsahu textu nikoliv pouze na základě ukazatelů frekvence výskytu, ale s porozuměním, které s vysokou pravděpodobností eliminuje zcela nerelevantní dokumenty a poskytuje uživateli dokumenty obsahově relevantní.
Vytvoření algoritmů pro tato náročná řešení bude jistě
spojeno s vyššími finančními náklady na řešení automatické indexace
dokumentů. Bude také vyžadovat spoluúčast týmů lingvistů. Překonat však
bariéru 50% úspěšnosti vyhledávání relevantních dokumentů za tyto finanční a
intelektuální investice za to stojí.