Strona główna

Instytut podstaw informatyki polskiej akademii nauk


Pobieranie 15.34 Kb.
Data19.06.2016
Rozmiar15.34 Kb.
_____________________________________________________________________________________________________________________________________________________________________________________________________________________________


INSTYTUT PODSTAW INFORMATYKI

POLSKIEJ AKADEMII NAUK

ul. Jana Kazimierza 5, 01-248 Warszawa


tel.: ++(48-22) 38-00-500

faks: ++(48-22) 38-00-510
mejl: ipi@ipipan.waw.pl

www.ipipan.waw.pl


_______________________________________________________________________________________________________________________________________________________________________________________________________________________________
Warszawa, czerwiec 2014
Semantyczna polskojęzyczna wyszukiwarka NEKST (Narzędzia EKsploracji Semantycznej Tekstów); w ramach projektu POIG.01.01.02-14-013/09: Adaptacyjny system wspomagający rozwiązywanie problemów w oparciu o analizę treści dostępnych źródeł elektronicznych.1
Dlaczego wyszukiwarka semantyczna
Na oprogramowanie wyszukiwarki składa się: system pająków internetowych; system indeksowania; system odpowiedzi na zapytania. Każdy z tych podsystemów to wiele modułów, które we współdziałaniu bądź osobno są w stanie dostarczyć funkcji użytkowych, przydatnych dla różnorakich zastosowań. W dalszym ciągu dokumentu podajemy garść przykładowych korzyści, jakie może przynieść wykorzystanie modułów wyszukiwarki Nekst.

Pierwszym oczywistym zastosowaniem jest zgromadzenie zasobów znaczącej części polskiego Internetu. Kilka lat temu wybuchła epidemia pryszczycy i we Francji przystąpiono do ich likwidacji, a następnie zakopywania zabitych zwierząt. W Polsce spodziewano się także zagrożenia i przygotowywano podobny wariant. Na szczęście ktoś wyszperał w Internecie informację, że w Polsce od lat produkuje się skuteczne środki przeciw pryszczycy (jodofory). Zawiadomiono odpowiednie urzędy weterynaryjne i byliśmy przygotowani na łagodną i skuteczną obronę przed epidemią, a zarazem uniknęliśmy niepokojów społecznych, jakie miały miejsce we Francji. Ale był to tylko czysty traf, bo w owym czasie strona ta nie była indeksowana przez wyszukiwarki, a o jodoforach nie pisała Wikipedia. Zgromadziwszy dostatecznie duży procent zasobów polskiego Internetu, będziemy w stanie szybko znaleźć potrzebną informację, co jest szczególnie istotne w sytuacjach kryzysowych, gdzie szybka reakcja jest niezwykle ważna.

Podany szczególny przypadek walki z sytuacją kryzysową nie jest incydentalnym kazusem przydatności wyszukiwarek. Wyszukiwarki mogą służyć do stałego monitoringu np. zdrowia ludności. Nagła fala zapytań o leki przeciwgrypowe może służyć jako wskazówka potencjalnie nadciągającej epidemii grypy. Jeśli będziemy mieć wyszukiwarkę narodową, informację uzyska ministerstwo zdrowia i inne agendy odpowiedzialne za ochronę zdrowia w Polsce.

Korzyści może odnieść każdy inny urząd centralny. Przykładowo resort finansów może sprawdzić, czy we wszystkich urzędach skarbowych na stronach internetowych na czas udostępniono formularze do rozliczeń podatkowych czy też wywieszono ważne ogłoszenia. Moduł analizy wydźwięku emocjonalnego (tzw. analizy sentymentu) może zostać użyty do oceny nastrojów komentatorów na blogach odnośnie organizacji imprez sportowych, decyzji administracyjnych itp. Analiza profilu i liczby organizacji społecznych (stowarzyszenia, towarzystwa, bractwa, związki kluby itp.) może być przydatna dla rozumienia potrzeb ludności i kreacji odpowiedniej polityki państwa.

Z aktywności wyszukiwawczej ludności może odnieść korzyść także przemysł. Na przykład, w okresach przedurlopowych mogą z takich informacji wyciągnąć wnioski biznesowe zarówno przemysł turystyczny jak i transport.

Zarówno dla prowadzenia działalności gospodarczej przez firmy jak i dla kontroli nadzorczej organów administracyjnych konieczna jest znajomość na bieżąco funkcjonujących przedsiębiorstw, ich ofert jak i profilu działalności gospodarczej. Nie uda się tych informacji w prosty sposób zebrać z Internetu (choć są dziś tam dostępne) z uwagi choćby na czasochłonność i rozproszenie serwisów. Natomiast moduły wyszukiwarki, przy wsparciu przez odpowiednie zasoby semantyczne (tzw. ontologie, wzorce i stosowne oprogramowanie) mogą na bieżąco stosowne katalogi firm utrzymywać. Podobnie możliwe jest tworzenie i utrzymywanie zasobów nt. usług edukacyjnych, leczniczych, rzemieślniczych itd.

Nie można zapomnieć o znaczeniu wyszukiwarki dla polskiej nauki. Po pierwsze wymienić należy jej znaczenie dla wszelkiego rodzaju badań językoznawczych, lingwistycznych, analiz aktualnych procesów językotwórczych, analiz częstotliwościowych i temu podobnych. Ponadto, ogrom zgromadzonych zasobów będzie miał wielkie znaczenie dla rozwoju narzędzi i algorytmów analizy języka oraz analizy grafów dokumentów hipertekstowych. Powstaną możliwości prowadzenia badań nad propagacją informacji w Internecie, jej powielaniem itd.

Znakomita większość wymienionych powyżej potencjalnych zastosowań nie należy do standardowej funkcjonalności wyszukiwarek internetowych. Potrzebny jest dostęp zarówno do zasobów, jak i do poszczególnych modułów funkcjonującej wyszukiwarki. Z jednej strony potrzebny jest całościowy rejestr stron WWW, z drugiej bez sensu byłoby tworzyć i utrzymywać setki takich zasobów. Dlatego optymalnym rozwiązaniem jest stworzenie i utrzymywanie jednej, otwartej na działalność badawczą i gospodarczą wyszukiwarki z bogatym zestawem narzędzi semantycznych. Bez szeroko rozwiniętych narzędzi semantycznych niemożliwe byłoby uzyskanie tych funkcjonalności, które szkicujemy w tym dokumencie.

Wyszukiwarka Nekst to w tym kontekście ważny punkt milowy z jednej strony, a z drugiej dopiero punkt startowy, który może i powinien rozpocząć pochód ku kreowaniu niezwykle ciekawych, ważnych i pożytecznych aplikacji, opartych o już wypracowane jądro wyszukiwarki, jakie tworzą stworzone moduły. Dysponujemy modułami, algorytmami i zasobami odpowiadającymi potrzebom z już wspomnianych obszarów, pracujemy nad kolejnymi i jesteśmy otwarci na zapotrzebowanie ze strony świata nauki, gospodarki, administracji i społeczności.

Tworzone przez nas moduły, choć opracowane z myślą o wyszukiwarce i zasilane informacją powstającą przy przetwarzaniu dokumentów z wyszukiwarki, mogą znaleźć zastosowania całkowicie niezależne od ich użycia w wyszukiwarce, jak choćby moduły dynamicznego generowania streszczeń, konstrukcji ontologii (czyli zbioru pojęć z danej dziedziny wraz z opisem związków między tymi pojęciami) z tekstów należących do danej dziedziny, etykietowania geograficznego i tematycznego, czy analizy wydźwięku emocjonalnego dokumentów tekstowych dotyczących danej organizacji czy działalności.Inwestycja w system wyszukiwawczy przedstawionego typu ma wielkie znaczenie dla podniesienia poziomu bezpieczeństwa państwa, bezpieczeństwa gospodarczego i społecznego poprzez ochronę przed zewnętrzną blokadą lub dywersją informacyjną.

1 Celem całego projektu jest konstrukcja systemu wspomagającego rozwiązywanie szerokiej klasy problemów w oparciu o analizę struktury i treści dostępnych dokumentów elektronicznych. Analiza ma dotyczyć zawartej w dokumentach wiedzy i informacji reprezentowanej w postaci tekstu oraz wybranych elementów multimedialnych. System będzie łączył mechanizmy: automatycznej odpowiedzi na zadane w języku polskim pytania, automatycznej analizy opinii oraz wielkoskalowej, przekrojowej analizy semantycznej źródeł elektronicznych, połączonej z wyszukiwaniem i wizualizacją wyników. Głównym obiektem analizy będą polskojęzyczne dokumenty tekstowe. Kierownikiem projektu jest IPI PAN, partnerem Instytut Informatyki Politechniki Wrocławskiej. Czas trwania projektu: 2009/04/01 - 2014/06/25, wartość projektu: 14.991.014 PLN.


©snauka.pl 2016
wyślij wiadomość