Daidalos: Knihovník a počítač | Co je World Wide Web a jak na něj: Lekce VII.

Daidalos: Archiv | Knihovník a počítač | Co je World Wide Web a jak na něj

Lekce VII. - Jak pracují internetové vyhledávače

připravuje: Aleš Houdek, Zlata Houšková, Kaarolina Jonáková

Každý, kdo používá Internet, se určitě setkal s možností, jak v něm vyhledávat. Existuje velké množství vyhledávacích služeb. Z jistou nadsázkou lze napsat, že Internet je plný vyhledávacích služeb. Při tomto tvrzení nebudeme daleko od pravdy. Každá internetová prezentace, každý portál, nabízí možnost vyhledávání. Uživatelé mnohdy nevědí, kde přesně vyhledávají, jak výsledky hledání interpretovat. Jak relevantní jsou výsledky. Často tak dochází ke špatné interpretaci výsledků nebo k přeceňování nalezených informací oproti klasickým zdrojům knihám a časopisům. Podíváme se tedy na to, jak vyhledávací stroje pracují a co od nich můžeme očekávat a co ne. Pro zjednodušení se budeme zabývat pouze všeobecnými vyhledávacími stroji. Ty se snaží zpracovávat celý obsah Internetu bez omezení.
Každý vyhledávač musí plnit následující tří oblasti úkolů. Za prvé musí shromáždit webovské stránky a uložit je ve své paměti. Potom je musí zpracovat do formy vhodné pro prohledávání a nakonec musí odpovídat na uživatelské dotazy.
Získávání stránek
Získávání stránek probíhá automaticky bez zásahu lidské ruky. Vyhledávacímu stroji je na začátku jeho činnosti určena výchozí stránka. Tu získá a uloží její obsah a URL (adresu). Z ní extrahuje všechny odkazy a tak získá adresy dalších webovských stránek. Takhle pokračuje teoreticky do nekonečna. V praxi mu v tom brání několik "drobností". Počet webovských stránek roste rychleji než rychlost, jakou jsou vyhledávací stroje schopny stránky zpracovávat. Stránky jsou aktualizovány, a proto se vyhledávač musí v pravidelných intervalech vracet k jednotlivým stránkám, aby zajistil aktuálnost informací.Vyhledávač má omezený čas na získávání stránek. To je velmi důležitý faktor. Vyhledávač musí pracovat dostatečně rychle tak, aby získal maximum stránek za danou dobu.
Nikdo by vyhledávač nepoužíval, kdyby měl zastaralé informace a na dotazy odpovídal neaktuálními informacemi. Na tom, jak kvalitně pracuje vyhledávací stroj při získávání stránek, závisí počet zpracovávaných stránek a tím také šance najít v takovémto stroji "okrajová" témata. V současné době se odhaduje, že počet stránek na Internetu se blíží třem miliardám. V kontrastu s tím má největší vyhledávač pouze 1,2 miliardy stránek a ostatní méně úspěšné pouze stovky miliónů. Jenom z tohoto faktu plyne, že vyhledávače nemohou najít velké množství stránek jenom proto, že o nich neví. To je velký rozdíl proti elektronickým databázím nebo katalogům, které při vyhledávání najdou všechny dokumenty odpovídající dotazu. V databázích nebo katalozích víte (nebo máte možnost zjistit), jakou množinu informací prohledáváte. To je velký rozdíl proti Internetu. Na Internetu to nevíte a navíc nemáte ani šanci to zjistit. Proto je nutné, pokud nenajdete to, co hledáte, zkusit to jiným způsobem a nevzdávat se. Zkusit jinou vyhledávací službu nebo katalog knihovny či některou z databází.
Zpracování získaných stránek
Po získání stránek následuje jejich zpracování. Tomu se říká indexace. Indexace je proces, kdy se ze stránek odstraní nevýznamová slova (spojky, předložky, ...) a sestaví se seznam významových slov. Každé takové slovo se doplní seznamem stránek, které toto slovo obsahují. Tak vznikne index. V podstatě se tedy jedná o seznam slov, kde ke každému slovu přísluší seznam stránek, kde se toto slovo vyskytuje. Tento seznam je velmi vhodný pro vyhledávání v počítači. Proto je možné získat velmi rychle (obvykle do jedné vteřiny) odpověď na dotaz. To je ovšem pouze jedna část zpracování. Druhá spočívá v tom, že se každé webovské stránce a každému významovému slovu z ní musí přiřadit významová váha. Podle ní se pak řadí výsledky vyhledávání. Metod, jak přiřadit váhu jednotlivým slovům, je celá řada. Na zvolené metodě nejvíce záleží úspěšnost vyhledávacího stroje, protože nejvíce ovlivňuje kvalitu výsledků vyhledávání. Pro představu si uveďme některá kritéria, podle kterých se určuje váha daného slova ve stránce. Například podle umístění slova na stránce. Čím blíže je slovo začátku stránky, tím má větší váhu. Dalším kritériem je grafické zvýraznění. Pokud je slovo v dokumentu nějakým způsobem zvýrazněno, pak má větší váhu. Počet výskytů slova ve stránce také vypovídá o významu stránky pro dané slovo. Čím častěji se slovo vyskytuje, tím větší má váhu. Významným kritériem je počet odkazů vedoucích na danou stránku. To znamená, kolikrát je stránka odkazována z jiných stránek Tomuto kritériu se říká citovanost. Tento princip je znám z vědecké literatury. Jeho aplikace na webovské stránky stránky se prokázala jako velmi užitečná.
Odpovídání na dotazy
Poslední a pro uživatele nejviditelnější součástí práce vyhledávacího stroje je odpovídání na dotazy a s tím související uživatelské prostředí. Odpovídání na dotazy obvykle probíhá ve třech krocích. V první uživatel zadá dotaz a součást vyhledávací služby, odpovědná za styk s uživatelem, ho předá vyhledávacímu jádru systému. Pak následuje vyhledání stránek, které odpovídají dotazu. Po vyhledání stránek následuje jejich seřazení podle relevance. Nakonec je výsledek zobrazen uživateli.
Co očekávat od vyhledávače
Jak jsme uvedli, vyhledávací stroje mají velké mezery v pokrytí obsahu Internetu. Bylo by velkým omylem myslet si, že v nich najdete vše, co je na Internetu. Ve skutečnosti je u největšího vyhledávacího stroje pokryta pouze třetina celého Internetu. Různé vyhledávací služby se překrývají, takže při použití více služeb se lze dostat až k padesátiprocentnímu pokrytí obsahu Internetu.
Relevance výsledků je druhým a dovolím si říct největším problémem vyhledávacích služeb. Až na světlé výjimky typu Google se lze dostat k relevantním výsledkům vyhledávání až po určitém úsilí. Zde je jediná rada: nevzdávejte se po prvních neúspěších a zkoušejte formulovat dotaz různými způsoby a zkuste i jiné vyhledávací služby než je vaše oblíbená. Zahlcení výsledky je další věc, která se Vám může stát. Souvisí to s relevancí výsledků a s řazením výsledků ve výstupu vyhledávání. Relevantních výsledků může systém ohlásit milióny, ale ve výpisu mohou být až na velmi vzdáleném místě od začátku, takže se k nim uživatel obvykle nedostane. Zde platí stejné jako u relevance, zkuste to jinak. Nebo v jiném vyhledávači. Na Internetu jsou zveřejňovány velmi nesourodé informace, proto nemůže existovat jeden systém, který by umožňoval vyhledávání ve všem a přitom měl uspokojivé výsledky. Proto je potřeba používat více systémů. O tom bude další díl toho miniseriálu.
nejasnosti@ff.cuni.cz
SLOVNÍČEK:

search engine
vyhledávací stroj = vyhledávač

Příští lekce: Vyhledávací služby</CENTER>

Daidalos - hlavní stránka | daidalos@ff.cuni.cz