Vyhledat   Tisk    Daidalos 1/1, září 2000: sekce příspěvků    @ vuppraha@mbox.vol.cz

Zdeněk Jonák

Znalostní procesor CoBrain pro oblast patentové literatury


V současnosti byla školám a knihovnám rámci realizace Koncepce státní informační politiky ve vzdělávání přisouzena úloha stát se hlavním aktérem při dosahování "informační gramotnosti všech občanů jako nezbytného předpokladu pro rozvoj a uplatnění osobnosti v 21. století".

Koncepce státní informační politiky ve vzdělávání (dále Koncepce) "si klade za cíl specifikovat další postup České republiky při zajišťování informační gramotnosti všech občanů tak, aby se mohli stát konkurenceschopnými v nové společnosti 21. století. Koncepce se přednostně věnuje dvěma základním okruhům:

Informační společnost, nazývaná též často společností znalostní, však vyžaduje nový přístup ke vzdělávání, a to zejména ke vzdělávání v aktivním a efektivním využívání informačních a komunikačních technologií (dále jen ICT) jako zprostředkovatele a nástroje zpracování informací." (konec citace)

Prakticky to znamená vybavit školy a veřejné knihovny výpočetní technikou, internetovým spojením a požadovaným softwarem. Dále naučit knihovníky a pedagogické pracovníky zacházet s dostupnou výpočetní technikou a s informačními a komunikačními technologiemi.

Za nezbytné znalosti a dovednosti se považuje umění využívat především dostupný komerční software, s ním se setká člověk kdekoliv v tuzemsku či v Evropské unii. Jde zejména o kancelářský software (textový editor, tabulkové, databázové a prezentační systémy, dále o software využívaný ve zmíněných institucích tzn. ovládání výukových programů, knihovních systémů apod.).

Vývoj informačních a komunikačních technologií však sahá i za rámec uvedených programových produktů. Díky Internetu se stává nabídka programového vybavení, jehož cílem je automatizovat stále větší oblasti dosud rutinně vykonávaných intelektuálních či manuálních činností, dostupná všem.

Chtěl bych v této rubrice postupně přinášet informace o jednotlivých programových systémech ze široké nabídky, která se snaží pokrýt jednotlivé oblasti knihovnicko bibliografického procesu:
- obsahovou a lingvistickou analýzu textu
- komprimaci obsahu textu
- znalostí a expertní systémy
- překladové a další systémy

Systémy není možné samozřejmě zpravidla získat zdarma stažením z Internetu. Jde zpravidla o placené produkty, ale poskytovatelé těchto služeb přikládají vedle free demoverze i podrobný popis funkce nabízeného produktu. V této přechodové fázi půjde proto spíše o to získat povědomí o situaci na informačním trhu, aby až situace nazraje, bylo možné zodpovědně vybrat na základě kvalitního rozhodnutí systém vyhovující požadované funkci.

Znalostní procesor CoBrain pro oblast patentové literatury

Patenty nalezneme na konci řetězce, který začíná tvůrčím nápadem a pokračuje ověřováním na diskusních fórech, zveřejňováním v interních firemních dokumentech, časopisech a sbornících. Patentová literatura jako nejšedivější z šedivé literatury obsahuje však informace v maximálně redukované podobě, zpravidle spolehlivě ověřené a opatřené copyrightem.

Pro vědeckého pracovníka, který dospěl do určité fáze své činnosti a domnívá se, že by měl své úsilí včas chránit před snahami konkurence, se stane prohledávání patentových databází či jiných internetových zdrojů, do jisté míry nezbytností. Existuje řada možností (viz např. softwarový produkt InternetAssistent). Vyhledávání v rozsáhlých databázích je však činnost časové a intelektuálně velmi náročná.

Společnost specializovaná na vyhledávání znalostí z elektronických zdrojů: Invention Machine Corporation nabízí pomoc ve formě vývojově vyššího inteligentního procesoru znalostí CoBrain. CoBrain představuje webovský portál používající při řešení problému formulovaném v dotazu patenty, interní a další informační zdroje uložené ve vlastní databázi či na Webu.

CoBrain kategorizuje znalosti do funkční databáze ve formátu: PROBLÉM - ŘEŠENÍ.

Postupuje v následujích krocích:

  1. Vyhledá v patentových databázích a jiných internetových zdrojích relevantní dokumenty.

  2. Podrobí je sémantické analalýze. Ve srovnání se systémy, které pracují na bázi analýzy klíčových slov, uchovává CoBrain textovou souvislost slov ve větách a vět v textu. K jednotlivým výrazům dohledá sémanticky podobné výrazy a obsahově podobné textové struktury.

  3. Ze strukturovaně uspořádaných znalostí vytvoří strom řešení problému.

  4. Na základě sémantické analýzy vytvoří krátký abstrakt s odkazem na plný text.

Formulace by měla být ve tvaru SAO (subject - action - object).

Příklad:

Zadán dotaz: STABILIZE EMULSION

subject     action     object
   How to     stabilize emulsion

Srovnání výstupů z CoBrain, Altavisty a Google

Obr 1. CoBrain

CoBrain na zadaný dotaz vyhledal 53 řešení. Nalevo vidíme ukázku seznamu řešení - nikoliv dokumentů. Ke každému problémovému okruhu vytvořil krátkou anotaci a přiřadil plný text dokumentu.

obr 2. Google

Google byl druhý nejlepší ve vyhledávání. 1140 vyhledaných dokumentů představuje druhý nejrelevantnější výsledek v uskutečněném testu. Při hodnocení je ovšem nutné přihlédnout k tomu, že běžně používané webovské prohledávače nemají prioritně k dispozici patentové databáze, které obsahují k hledanému problému nejpřesněji a nejefektivněji formulované informace.

Obr 3. Altavista

Altavista vyhledala 561 807 dokumentů. Jde o ukázku extrému ve vyhledávání. Dospět ke konečnému řešení předpokládá dny, týdny strávené pro vyhledání relevantních znalostí.

Závěrečná poznámka

Tou měrou, s jakou se bude zvyšovat kontrola nad duševním vlastnictvím, poroste význam systémů, které budou umožňovat přístup k patentovým informacím nejen v tuzemsku, ale i v zahraničí.

Obdobně jako dnes usnadňují a urychlují právníkům jejich činnost dokonale zpracované databáze právních informací, stane se systém, který dokáže provázat zdroje patentových informací s interními technickými zprávami a ostatními dokumenty na Webu, nezastupitelnou pomůckou nejen v pracovně aktivního vědce, ale i v každé knihovně.


Daidalos - hlavní stránka | daidalos@ff.cuni.cz