Vyhledat   Tisk    Daidalos 1/2, leden 2001: sekce příspěvků    @ vuppraha@mbox.vol.cz

Zdeněk Jonák

Omezení a možnosti zvýšení selekčních schopností internetových robotů


Zamyšlení nad referáty semináře Pořádání znalostí 2000

V souvislosti se seminářem "Pořádání znalostí 2000" konaném dne 18. 12. 2000 v Parlamentní knihovně Poslanecké sněmovny Parlamentu, Sněmovní 4, Praha 1, se naskytla možnost porovnat přístupy, jaké při indexování dokumentů používají knihovníci-indexátoři a indexovací roboty internetových vyhledávacích strojů.

V množství vyhledaných informací, které získá uživatel prakticky na jakýkoliv dotaz, jakoby zmizelo rozhraní mezi hlediskem úplnosti a přesnosti vyhledávání. Uživatel má při vyhledávání na Internetu často dojem, že vždy najde užitečný zdroj. Užitečný však neznamená relevantní.

Tím, že uživatel o struktuře selekčního jazyka (dále SJ) používaného internetovými indexovacími roboty nemá jasnou představu, snadno ztrácí ze zřetele fakt, že relevance vyhledávání vždy souvisí s úrovní zpracování selekčního jazyka, s jeho schopností reprodukovat obraz dokumentu.

V tomto článku se pokusím podrobit vztah mezi úrovní SJ a kvalitou vyhledávání simulované zkoušce.

Vycházím z hypotézy, že kvalita SJ a tedy kvalita indexování je do značné míry závislá na tom, do jaké míry odráží SJ strukturu textu. Aby bylo možné splnit tyto podmínky, musel by selekční jazyk informačního systému obsahovat alespoň některé ze signifikantních prvků obsahu textu. V následujícím článku se pokusím definovat alespoň ty prvky textu, které jsou měřitelné.

Člověk indexující text vytvoří selekční obraz dokumentu tak, že obsahu textu nejdříve porozumí a na základě tohoto poznání vytvoří smysluplný redukovaný text. Počítačový systém zatím není vybaven schopností porozumět textu . Algoritmy, které by měly umožnit počítači textu porozumět, jsou natolik složité, že jsou prakticky nepoužitelné.

Myšlence nejjednoduššího algoritmu pro rozklad textu nesporně pomohl neopozitivismus s jeho koncepcí logického atomismu. Podle něho je lidské poznání jakousi projekcí věcí do lidské mysli, v níž slova jsou jakýmisi nálepkami, připevňovanými na věci. Základními stavebními kameny světa jsou jednotliviny a vztahy mezi nimi.

Tomu ve struktuře textu odpovídá vazba: podstatné jméno-sloveso (podmět - přísudek).

H. P. Luhn v padesátých letech aplikoval jednoduchou myšlenku atomismu na texty. Představa, že nejfrekventovanější slova textu jsou současně slova obsahově nejdůležitější, přečkala dobu děrných štítků a je součástí programového vybavení i dnešních počítačů.

Vztah struktury textu a struktury selekčního jazyka

Na počátku jsem stanovil hypotézu, že kvalita selekčního systému závisí na tom, do jaké míry selekční jazyk reprezentuje strukturu textu. Systémy, používající selekční jazyk, by měly mít možnost kontrolovat reprezentativnost selekčního jazyka z hlediska pokrytí nejdůležitějších obsahových položek textu. K průběžné kontrole selektivity SJ by měl jeho administrátor udržovat přehled o stavu struktury textu pomocí jednoduchých měřitelných ukazatelů. Na některé z metod v následujícím textu upozorním.

Analýza reprezentativnosti SJ

- metoda měření kompaktnosti SJ

Analýza obsahové struktury souborů textů

Ukazatel diferencovanosti slov textu
Ukazatel přírůstku různých slov
Ukazatel rozložení slovních druhů
Ukazatel poměru jednoslovných a víceslovných výrazů
Identifikátor metatextových výrazů

Metoda kontroly kompaktnosti selekčního jazyka.

Způsob měření: Koeficient kompaktnosti

Hodnota získaná tímto koeficientem ukazuje, zda vybraná klíčová slova SJ, jsou reprezentativní a schopná popisovat s dostatečnou přesností varietu obsahů souborů textů.

Při měření kompaktnosti vycházíme z předpokladu, že příčinou snížení vyhledávací schopnosti jsou následující jevy:
- velké množství klíčových slov popisující nízké procento textů,
- malé množství klíčových slov popisujících vysoké procento textů.

Metoda se opírá o empirické zjištění, že čím větší množství textů je popisováno klíčovými slovy s průměrným počtem výskytů, tím je selekční jazyk kompaktnější.

Střed intervalu, v němž by se měla pohybovat většina klíčových slov, se vypočítá jako podíl celkového počtu výskytů klíčových slov (N) a souboru všech rozdílných klíčových slov (H).

Koeficient kompaktnosti pro klíčová slova v tomto intervalu se počítá jako podíl souhrnu výskytů klíčových slov v intervalu (A) a množství výskytů klíčových slov (N). Je pravděpodobné, že u textů s velkou tématickou šíří bude koeficient nižší a u oborových databází nižší.

Ukazatel diferencovanosti lexikálních jednotek textu

Diferencovanost lexikálních jednotek textu se měří pomocí indexu opakování (Io). Využití indexu opakování se opírá o hypotézu, že mezi počtem lexikálních jednotek a informativností textu je statistická závislost. Z hodnoty tohoto ukazatele lze usuzovat na různorodost a složitost modelu světa popisovaného v textu. Výpočet ukazatele vychází z předpokladu, že čím je v textu méně různých slov, tím častěji se musí opakovat a jejich index opakování je vyšší. Čím je různých slov v textu více, tím složitější model text přenáší a tím index opakování je nižší.

Ukazatel přírůstku různých slov

Každé plnovýznamové slovo lze považovat za významové ve výstavbě obsahu nebo za kandidáta na funkci klíčového slova v selekčním jazyku. Proto je důležité znát pravděpodobnost, s jakou lze s růstem objemu textů očekávat přírůstek nových slov. Míra přírůstku vypovídá např. o šíři tématického záběru souboru textů, může napovědět o inovativnosti souboru nebo naopak o opaku - o myšlenkové redundanci. SJ by měl na tento i předchozí ukazatel reagovat a při každém signálu nárůstu různých slov včas SJ modifikovat.

Ukazatel rozložení slovních druhů

Tento ukazatel se opírá o empirickou zkušenost, potvrzující, že obsahově nejvýznamnější prvky jsou zpravidla reprezentovány určitým slovním druhem. Tradičně se přijímá, že obsahově nejvýznamnější jsou jmenné výrazy. Ty se rovněž přednostně vybírají jako jednotky selekčních jazyků. Druhým nejvýznamnějším slovním druhem jsou slovesa. To ovšem neznamená, že v určitém typu textů mohou nabýt významnosti jiné typy výrazů, např. zkratky, číslovky apod. Selekční jazyky typu tezaurus užívají jako deskriptory zpravidla nominativní tvary. U jiných typů SJ je užitečné za účelem zvýšení selektivity SJ nejfrekventovanějším slovním druhům přizpůsobit.

Ukazatel poměru jednoslovných a víceslovných výrazů

V terminologické struktuře nalezneme pojmenování důležitých prvků procesů, vztahů a vlastností. Jde zpravidla o výrazy nové, dosud nezažité. Proto jsou většinou vyjádřeny víceslovnými výrazy. Vysoký podíl víceslovných výrazů vyžaduje věnovat zvýšenou pozornost programovému zabezpečení, které pomůže tyto výrazy identifikovat. Stoupne-li procento neošetřených víceslovných výrazů nad určitou mez, prudce se snižuje schopnost popisu obsahu textu i vyhledávací schopnost jakéhokoliv selekčního jazyku.

Identifikátor metatextových výrazů

V textu existují výrazy obsahově významnější než ostatní výrazy. Mluvíme o metatextových výrazech. Jejich výskyt je nejčastější v názvech textů, kapitol či v úvodních a závěrečných větách. Rovněž jsou za tímto účelem některá slova, věty či odstavce odlišeny od ostatního textu graficky (tučně, kurzíva, barva, podtržení). Avšak již jen v řídkých případech existují databázové systémy, které identifikaci těchto prvků textu programově zabezpečují. Na www stránkách jsou metatextové výrazy uloženy formou metatagů, které dokáží indexovací roboty identifikovat a uložit do svých databází.

Podle výše uvedených kritérií můžeme diferencovat texty do skupin na texty:
- s různým podílem jmenných/slovesných výrazů. Ty mohou sloužit jako indikátory rozlišení uměleckých a odborných textů. Odlišení textů charakteristických popisností (převaha jmenných výrazů) či s akcentem na vyprávění (převaha slovesných výrazů)
- s vysokou/nízkou dynamikou přírůstků různých slov. Tyto indikátory umožňují odlišit texty obsahově něčím nové od redundantních.
- s vysokým/nízkým podílem víceslovných termínů. Víceslovné výrazy jsou charakteristické pro texty přinášející termíny nové, dosud nezažité.
- s odlišným podílem různých/opakujících se výrazů. Tyto indikátory mají podobný význam jako předchozí. Umožňují diferencovat texty přinášející alespoň v terminologické rovině určité inovace.

Jak je zajištěna kontrola SJ na Internetu?

Viděli jsme, že v textu lze identifikovat mnoho prvků, které vypovídají o obsahu textu. Automatické indexování textů jednotlivých www stránek zajišťují tzv. internetové roboty (robots, scooter, crawler). Roboty jdou bohužel při indexování jen po jedné linii: nejčastěji se zabývají frekvenční strukturou textu. Následně vylepšují tento nedostatek strategiemi vyhledávání, které řeší často velmi efektivními způsoby shodu dotazu s indexy textů uložených v jejich databázi, takže do jité míry simulují syntaxi, synonymii apod.

Roboty vyhledávacích strojů slouží k automatické indexaci internetových stránek, neprovádí ji však denně, ale ve stanovených intervalech. (viz tabulku Indexing Times)
Dlouhý interval může mít rovněž vliv na kvalitu vyhledávání.

Podívejme se nejdříve, jakou metodu výběru selekčních jednotek používají jednotlivé vyhledávací stroje.

Roboty prohlížečů se liší dle toho, zda jde o:
- fultextové prohlížeče (ALTAVISTA, GOOGLE)
- katalogové prohlížeče (YAHOO)
- systémy kombinující výhody obou (METAFIND)

Fultextové prohlížeče indexují a ukládají v pravidelném časovém intervalu do databází milióny stránek. Každý prohlížeč vytváří vlastní databázi, kterou používá při vyhledávání.

Při formulaci dotazu používá k dosažení určité syntaxe mezi klíčovými slovy buď pomocí Booleovských operátorů (AND, OR, NOT) nebo pomocí frází uzavřených v uvozovkách. Umožňují pravostranné rozšíření apod.). Některé systémy respektují rozdíly mezi malými a velkými písmeny, umožňují najít k jednotnému číslu číslo množné apod.

Přesto nepřesahuje úspěšnost vyhledávání, měřeno nejen relevancí, ale pertinencí shody dotazu a obsahu vyhledaného dokumentu často ani 20%. Všechny fultextové prohlížeče nevyhledávají v textech shodným způsobem. Některé se orientují jen na nadpisy, jiné vyhledávají v prvních 20 slovech www stránky, některé se zaměřují pouze na hypertextové odkazy. Vyhledávací systémy se liší rovněž počtem oindexovaných www stránek.

Altavista např. zpracuje za krátké období 200 mil. stránek. Její robot Scooter zpracuje denně 10 mil. stránek. Robot vyhledávače Northern Light zpracovává kromě www stránek tisíce elektronických časopisů. Websearch Excite indexuje celý dokument. Jeho robot Spider indexuje kromě desítek tisíc stránek i desetitisíce serverů a tisíce recenzí novin.

Katalogové prohlížeče mají blíže knihovnickému pojetí zpracování obsahu dokumentu. Zpracovávají dokument s pomocí předmětových hesel do člověku srozumitelných obsahových kategorií. Nezpracují sice tolik www stránek jako fultextové vyhledávače, ale jsou použitelné v případech, nemáme-li představu, jak přesně formulovat dotaz.

Hodnotící algoritmy (ranging)

Každý z vyhledávacích strojů používá vlastní algoritmus hodnocení relevance dokumentů. Svůj postup nezřídka patří mezi jejich firemní tajemství. Nejčastěji jde o:
  1. Algoritmy založené na výskytu slov

    Vyhledané dokumenty jsou ohodnoceny podle počtu shody mezi slovy, zadanými v dotazu a slovy nalezenými v textu.Vyšší ohodnocení získá text, v němž se vyskytl větší počet slov dotazu. Mezi texty, které dosáhly stejného výsledku v testu shody počtu slov, rozhoduje test na počet výskytů jednotlivých slov. Texty s větším počtem výskytů jednotlivých slov jsou hodnoceny výše.

  2. Algoritmy založené na hodnocení hyperlinků

    Texty jsou hodnoceny podle počtu odkazů, které směřovaly na jejich stránku. Text s větším počtem odkazů je hodnocen výše.

  3. Algoritmy založené na kombinaci výše parametrů: počtu shodných slov, frekvenci výskytů a počtu hyperlinků.

Závěr

Metody kontroly a údržby SJ vzhledem ke struktuře souboru textů popisované v tomto článku, nejsou při v internetových prohlížečích zohledněny a proto nelze čekat v dohledné době radikální zlepšení. Jednou z dostupných cest je uložit na www stránku větší počet metainformací. Jazyk HTML má tuto možnost omezenou. Je orientován na definování toho, jak se má daný text zobrazit, nikoliv na pomoc při porozumění jeho obsahu.

Větší porozumění obsahu textu pravděpodobně poskytuje jazyk XML (eXtensive Markup Language), který definuje, co určitá, označená část textu znamená. Jazyk XML obsahuje řadu značek, kterými můžeme výstižně označit jednotlivé části textu: název knihy, jméno autora, vydavatele, žánr apod. Díky tomu bude možné položit dotaz: Které knihy napsal M. Kundera apod. a očekávat relevantní odpověď. V jazyku XML lze dokonce nové značky přidávat, pokud je předtím definujeme v DTD (Document Type Definition).

Metainformace však nejsou dostatečným, ani jediným prostředkem zvýšení efektivnosti selekčního jazyka. Zaručenější cestou je dosažení schopnosti identifikovat v textu co nejvíce prvků a tyto prvky začlenit do selekčního jazyka systému. Na některé ukazatele jsem upozornil. Tím může efektivnost dosáhnout až 75%.

Dosažení ideálního optima při vyhledávání, tj. maximální úplnosti a maximální přesnosti, však nelze dosáhnout žádnou analýzou založenou na analýze statistické struktury textu. Tu lze dosáhnout zasazením jednotlivých výroků do rámce predefinovaných porozumění obsahu textu.

Zatím byly vyzkoušeny rámce ve formě asociačních sítí a scénářů, kde jednotlivé slovo, výrok byly zasazeny do obsahových kategorií, kde vypovídaly o obsahu textu nikoliv pouze na základě ukazatelů frekvence výskytu, ale s porozuměním, které s vysokou pravděpodobností eliminuje zcela nerelevantní dokumenty a poskytuje uživateli dokumenty obsahově relevantní.

Vytvoření algoritmů pro tato náročná řešení bude jistě spojeno s vyššími finančními náklady na řešení automatické indexace dokumentů. Bude také vyžadovat spoluúčast týmů lingvistů. Překonat však bariéru 50% úspěšnosti vyhledávání relevantních dokumentů za tyto finanční a intelektuální investice za to stojí.


Daidalos - hlavní stránka | daidalos@ff.cuni.cz