Strona główna

Referat omawia zagadnienia związane z możliwościami odkrywania wiedzy w systemach sieciowych. Na bazie wyników eksperymentów dokonanych dla potrzeb projektu


Pobieranie 30.79 Kb.
Data19.06.2016
Rozmiar30.79 Kb.

Elementy odkrywania wiedzy w systemach sieciowych

Referat omawia zagadnienia związane z możliwościami odkrywania wiedzy w systemach sieciowych. Na bazie wyników eksperymentów dokonanych dla potrzeb projektu badawczego w telekomunikacji przedstawione są możliwości współczesnych metod ekstrakcji wiedzy oraz cztery grupy zastosowań ich w systemach sieciowych. Podsumowaniem referatu jest przegląd najnowszych kierunków badań w tej dziedzinie.

Wstęp


Typowym obszarem zainteresowań dziedziny określanej jako KDD (knowledge discovery in databases) jest odkrywanie wiedzy w bazach danych, zazwyczaj o rozmiarach tak dużych, że nie poddają się innym typom analizy. Szeroko pojęte sieciowe systemy informacyjne są także w stanie dostarczyć dużej liczby danych, która zamieniona może zostać na użyteczną i zrozumiałą wiedzę poprzez dokonywanie odkryć w sposób zautomatyzowany.

KDD jest dziś dziedziną posiadającą ugruntowane podstawy teoretyczne oraz sprawdzone metodologie. Na rynku dostępne są komercyjne pakiety oprogramowania, pozwalające na stosowanie metodologii odkrywania wiedzy dla różnych platform systemowych i różnych baz danych [2]. Określenie data mining, oznaczające środkową fazę przetwarzania danych w wiedzę według tzw. cyklu KDD [3], stało się modnym hasłem marketingowym pod którym wielu producentów oprogramowania usiłuje sprzedawać swoje oprogramowanie. KDD jest dziedziną interdyscyplinarną wywodzącą się z teorii baz danych, sztucznej inteligencji, statystyki i uczenia maszyn, która znajduje dziś zastosowania wszędzie tam gdzie mamy do czynienia z dużymi ilościami danych. Odpowiada ona na zapotrzebowanie na nową, nietrywialną wiedzę w dziedzinach tak różnorodnych jak marketing, medycyna, demografia czy bankowość. Głównym hasłem motywującym do nowych badań w KDD jest bowiem zdanie: „Toniemy wśród danych, gdy brakuje nam wiedzy.”

Jednym z głównych ograniczeń stosowalności metod KDD jest fakt, że współczesne algorytmy odkrywania wiedzy (typu data mining) potrafią operować na danych wejściowych najczęściej jedynie w postaci pojedynczych tabel relacyjnych. Badania nad metodami operującymi od razu na bazach składających się z wielu tabel lub innych strukturach danych są o wiele mniej zaawansowane. Między innymi konieczność konwersji danych do pojedynczej tabeli relacyjnej powoduje, że przetwarzanie wstępne w cyklu KDD zabiera ponad 80% czasu i zasobów obliczeniowych. To ograniczenie wynikające z trudności preprocessingu może mieć jeszcze większe znaczenie w przypadku gdy źródłem danych jest ze swej natury rozproszony system sieciowy.

Prowadzony ostatnio w Zakładzie Systemów Informacyjnych Politechniki Warszawskiej projekt badawczy przyniósł, oprócz innych efektów, zbiór uwag dotyczących specyfiki odkrywania wiedzy w systemach sieciowych. Projekt ten stworzył równocześnie wiele nowych pytań i problemów badawczych w tej dziedzinie. Celem projektu było szeroko pojęte prowadzenie eksperymentów ekstrakcji wiedzy z danych udostępnianych przez działy techniczne firmy będącej jednym z dostawców usług telefonii komórkowej w Polsce. Wiedza uzyskana podczas tych eksperymentów posłużyć miała do usprawnienia działalności owej firmy telekomunikacyjnej. Długofalowym dążeniem zespołu zajmującego się projektem było włączenie elementów odkrywania wiedzy i automatycznej analizy danych w łańcuch wartości firmy, powodując powstanie wartości dodanej, zwiększającej jej konkurencyjność. W tym celu dokonywana była analiza stosowalności metod i narzędzi z dziedziny KDD. Przebieg projektu i płynące z niego doświadczenia opisane zostały m.in. w pracach [1] i [4].

Działania w ramach projektu były ograniczone do eksperymentów w technicznych działach firmy. Oznacza to, że projekt miał charakter wybitnie badawczy, ponieważ stosowanie KDD w telekomunikacji ograniczało się do tej pory głównie do operowania na danych bilingowych i segmentacji klientów [6]. Nasze eksperymenty zaś w działach technicznych były zaś często niewątpliwie pionierskie.

Dane z działów technicznych opisują w zdecydowanej większości różne aspekty działania sieci komputerowych i telekomunikacyjnych należących do przedsiębiorstwa. Podczas analizy procesów biznesowych, będącej pierwszym etapem projektu, zespół zidentyfikował kilka źródeł danych mogących stanowić podstawę eksperymentów. Wiele z nich można z pewnością zaliczyć do kategorii systemów sieciowych z powodu rozproszenia danych lub też rozproszenia miejsc, z których dane te są pobierane.

1. Rodzaje zastosowań KDD w systemach sieciowych

Z doświadczeń projektu telekomunikacyjnego i innych badań naszego zespołu wynika istnienie kilku zasadniczych grup zastosowań KDD w systemach sieciowych. Są one uzależnione od typu systemu sieciowego i rodzaju danych poddawanych analizie.

1.1. Odkrywania wiedzy w systemach informacyjnych będących rozproszonymi bazami danych

Pierwsza grupa to stosowanie metod data mining do odkrywania wiedzy w systemach informacyjnych będących rozproszonymi bazami danych. Przeniesienie metodologii KDD w takie środowisko wymaga przede wszystkim położenia nacisku na integrację danych z różnych źródeł. Dobrze, jeśli takie mechanizmy w danym systemie istnieją np. w postaci wstępnego oczyszczania i łączenia danych celem zbudowania hurtowni danych (data warehouse). Jeśli nie istnieją gotowe mechanizmy pozwalające na scalanie danych w jedną tabelę relacyjną zawierającą interesujące nas dane – przetwarzanie wstępne jest o wiele trudniejsze i bardziej kosztowne.

Jednakże systemy hurtowni danych nie zawsze są dobrą podstawą dla data miningu. Wynika to z faktu, że są one specjalnie projektowane z nastawieniem na określony rodzaj raportowania i analiz. Już sam model danych (wielowymiarowy OLAP, „płatek śniegu”, etc.) może utrudniać zbudowanie interesującej nas relacji, zaś gotowe metadane mogą być tworzone w sposób gubiący istotną wiedzę.

1.2. Analiza ruchu w systemie sieciowym

Druga grupa zastosowań to ogólnie pojęta analiza ruchu w systemie sieciowym. Efekty naszych eksperymentów pokazują, że można wydzielić tu dwie podgrupy ze względu na czynniki wpływające na przedmiot analizy.

Jeśli celem badań jest odkrywanie wpływu zachowań użytkowników i ich preferencji na ruch sieciowy to mamy do czynienia z problemem zbliżonym do klasycznych zastosowań data miningu takich jak segmentacja klientów czy badanie „koszyka zakupów”. Do takich analiz wykorzystujemy dane opisujące cechy użytkowników wraz z danymi o działaniu sieci. Można w ten sposób szukać reguł, korelacji i prawidłowości dotyczących na przykład godzin pracy, pracy w określonych podsieciach czy ilości przesyłanych pakietów przez określone grupy użytkowników. Jako efekt dostajemy np. reguły asocjacyjne („kierownicy wyższego szczebla logują się do sieci jedynie z własnego terminala (supp:5%, conf:95%)”), podobne grupy użytkowników otrzymane przez klasteryzację lub jako liście drzewa decyzyjnego, zbiory najważniejszych atrybutów użytkownika jako redukt w metodologii zbiorów przybliżonych. Wiedza taka może posłużyć z pewnością administratorom sieci do efektywniejszego zarządzania użytkownikami i zbiorami ich uprawnień.

Jeżeli zaś przedmiotem analizy jest działanie infrastruktury technicznej sieci, to mamy do czynienia z problemem mniej klasycznym i trudniejszym. Tutaj na podstawie logów i statystyk sieciowych staramy się odkryć prawidłowości w działaniu elementów danej sieci. Można w ten sposób szukać wszelkich anomalii działania systemu, takich jak „wąskie gardła” powodujące zwolnienie lub zablokowanie transmisji oraz próbować przewidywać awarie elementów sieci, które charakteryzowane są przez poprzedzające je objawy. Przy takich zastosowaniach występują jednak istotne ograniczenia. Przede wszystkim, aby przewidzieć anomalię działania sieci lub jej awarię, musimy posiadać wystarczająco dużo danych. Awarie nie zdarzają się często, więc aby dostać dane o ilości awarii wystarczające do zbudowania modelu predykcyjnego potrzeba często odfiltrować setki megabajtów czy gigabajty zwykłych logów operacji sieciowych. Kolejnym problemem jest tu stosowanie kryterium nowości wiedzy odkrytej metodami KDD. W ostatnim etapie cyklu KDD uzyskana wiedza jest oceniana przez ekspertów danej dziedziny, a wnioski przekazywane na zasadzie sprzężenia zwrotnego na pierwszy etap kolejnego cyklu. Wiedza odkryta w danych automatycznie wygenerowanych przez elementy sieci, jest w większości oceniana przez ekspertów jako trywialna lub uprzednio znana. Często znajdują oni jednak interesujące wyniki lub wnioski na potwierdzenie swoich intuicji nabytych przez doświadczenie. Eksperci uznają, według badań naszego zespołu, reguły dotyczące działania sieci za interesujące kilka razy rzadziej niż np. w wiedzy dotyczącej użytkowników. Ma to z pewnością źródło w charakterze danych, które dla opisu elementów sieciowych podlegają znacznie bardziej ścisłym regułom i ograniczeniom. Wśród danych generowanych przez grupy ludzi – użytkowników, KDD odkrywa często nowe prawidłowości natury psychologicznej i socjologicznej. Prawa rządzące aparaturą sieciową są zazwyczaj dokładnie opisane w dokumentacji technicznej i znane ekspertom. Dlatego właśnie odkrywanie wiedzy w danych automatycznie wygenerowanych wymaga większej ilości danych wejściowych i większej selektywności metod. Mimo ściśle określonych zasad działania istnieją wciąż reguły nie uwzględnione w specyfikacjach – mogące wynikać np. z efektów współdziałania różnych elementów sieci. Takie nowe reguły i zależności często pozwalają na lepszą diagnostykę i optymalizację działania sieci, lub w celu lepszego zaprojektowania jej nowych elementów.

1.3. Odkrywanie wiedzy w Internecie

Ostatni obecnie znany rodzaj zastosowań KDD w systemach sieciowych to odkrywanie wiedzy w Internecie, a zwłaszcza na podstawie stron WWW. Jest to już osobny dział wiedzy, zwany web miningiem, który wypracował własne metody automatycznego znajdowania wiedzy. Powszechna jest tu metafora całej „pajęczyny” WWW jako jednej wielkiej rozproszonej bazy danych. Oczywiście, w tak pojmowanej bazie istnieją znaczne problemy z dostępnością, kompletnością i aktualnością danych, co powoduje w większości przypadków założenie o statyczności WWW dla celów badań web miningu. Drugim czynnikiem warunkującym efektywność metod jest efektywność analizy zarówno syntaktycznej jak i semantycznej informacji tekstowej zapisanej w HTML, połączonej z analizą struktur grafowych tworzonych przez łączniki pomiędzy stronami. Jeśli zgodzić się z opinią, że WWW zawiera informacje o wszystkim co interesować może człowieka, to właśnie inteligentne narzędzia do ekstrakcji wiedzy z sieci globalnej powinny być tym co w najbliższym czasie będzie napędzało jej rozwój wraz z technologiami tworzenia sieciowych zbiorów danych typu „web farming” oraz zarządzaniem danymi częściowo ustrukturalizowanymi zapisanymi w XML. Dokładniejszy opis obecnego stanu wiedzy na temat web miningu zawiera praca [5].

2. Opis eksperymentów

Eksperymenty odkrywania wiedzy przeprowadzone przez nasz zespół głównie w projekcie dla dostawcy usług telefonii komórkowej, dotyczyły w dużej części drugiej grupy zastosowań KDD w systemach sieciowych, czyli odkrywania wiedzy o użytkownikach systemów sieciowych i o działaniu jej infrastruktury technicznej. Każda nowoczesna firma telekomunikacyjna posiada wiele zasobów sieciowych zarówno w postaci sieci telekomunikacyjnej jak i komputerowej. Korzystają z nich miliony abonentów i tysiące pracowników firmy. Poprawne działanie tych sieci jest warunkiem niezbędnym jej dla funkcjonowania i zyskowności. Dlatego przedsiębiorstwo telekomunikacyjne wydaje się być idealnym dla nas poligonem do badań.

2.1. Pierwszy eksperyment

Pierwszy eksperyment, dotyczący wyszukiwania anomalii działania sieci na podstawie logów routerów w sieci korporacyjnej, był czystym przypadkiem analizy danych generowanych automatycznie. Parametry dostępne w logach routerów Cisco były analizowane głównie za pomocą reguł asocjacyjnych. Awarie, które były celem badania, zdarzają się jednak tak rzadko, że stanowiły one w otrzymanych danych mało znaczący odsetek. Dlatego prawie wszystkie otrzymane reguły zostały przez ekspertów zaklasyfikowane jako „znane” lub „trywialne”. Był to pierwszy w serii eksperymentów wykonywanych przez zespół a oprócz merytorycznego niepowodzenia przyniósł pierwsze efekty dotyczące porównań narzędzi KDD.

2.2. Drugi eksperymant

Znacznie lepsze efekty przyniósł eksperyment mający na celu przewidywanie wielkości ruchu w sieci komórkowej. Można go zakwalifikować do kategorii wyszukiwania wiedzy z danych generowanych przez użytkowników systemów sieciowych. Zbudowano model predykcyjny, który następnie był udoskonalany poprzez dodawanie nowych atrybutów oraz stosowanie clusteringu jako ostatniego etapu obróbki wstępnej danych. Pierwotnie, model oparty jedynie o regresję wieloraką bazującą na danych o rodzajach terenu z bazy typu GIS był obarczony dużym, nie akceptowalnym dla ekspertów błędem. Poprzez kilkukrotne zbudowanie modelu zgodnie z zasadami cyklu KDD po uwzględnieniu za każdym razem opinii ekspertów, udało się zmniejszyć błąd trzykrotnie, co pozwoliło zastosować model w planowaniu sieci komórkowej.

2.3. Kolejne eksperymenty

Kolejne dwa eksperymenty to przewidywanie anomalii w działaniu sieci komórkowej oraz analiza sąsiedztw elementów w sieci komórkowej. Oba one wykonywane były na podobnych próbach danych zawierających informacje o działaniu elementów sieci komórkowej. Jest to więc przypadek wyszukiwania wiedzy w danych wygenerowanych automatycznie. Przy zastosowaniu podobnych metod, takich jak reguły asocjacyjne, drzewa decyzyjne, metody wizualizacyjne uzyskiwane reguły w większości potwierdzały co najwyżej wiedzę i doświadczenie ekspertów. Jednakże sporo lepsze wyniki odnotowane zostały w przypadku eksperymentu uwzględniającego sąsiedztwa elementów sieciowych. Dane te nie są generowane automatycznie, są zaś wynikiem położenia geograficznego stacji bazowych oraz topologii sieci. Poprawa wyników w tym przypadku potwierdziła naszą tezę o mniejszej przydatności danych automatycznie wygenerowanych dla odkrywania wiedzy metodami KDD.

Eksperymenty powyższe zainspirowały rozpoczęcie dwu kolejnych, będących obecnie w toku. Pierwszy z nich ma na celu przewidywanie różnych poziomów alarmów w sieci komórkowej. Wymaga to rozbudowania metodyk odkrywania wiedzy w sekwencjach czasowych oraz stworzenia odpowiedniego do tego celu oprogramowania. Zapotrzebowanie na taką wiedzę w firmach telekomunikacyjnych jest bardzo duże, gdyż szybka obsługa alarmów jest dla nich krytycznym warunkiem sukcesu rynkowego.


Drugi eksperyment, na wyniki którego oczekujemy, to badanie danych znajdujących się w logach serwerów pocztowych w CERN. Jest to instytucja tak duża, że posiadany przez nią zestaw serwerów przeznaczonych jedynie do wymiany poczty elektronicznej generuje megabajty logów dziennie. Spodziewane wnioski z ich analizy za pomocą metod KDD przyczynią się do ułatwienia administrowania tymi usługami.

Oba powyższe prowadzone właśnie eksperymenty łączą oba główne zagadnienia odkrywania wiedzy w sieciach: data mining w danych automatycznie wygenerowanych oraz ekstrakcję wiedzy o użytkownikach poprzez efekty ich działania w sieci.

Większość eksperymentów prowadzona była przy użyciu kilku różnych narzędzi do automatycznego odkrywania wiedzy. Wykorzystano m.in. SAS Enterprise Miner, IBM Inteligent Miner, Silicon Graphics Mine Set, Oracle Darwin.

3. Kierunki badań na przyszłość

W najbliższym czasie można spodziewać się znacznego rozwoju metod i narzędzi do automatycznego analizowania zasobów sieciowych różnego typu. Trudno jednak na razie przewidzieć czy rozwój tych technologii pójdzie w kierunku wykorzystania obecnych metod KDD dla odpowiednio spreparowanych danych z sieci, czy też powstaną nowe metody przystosowane jedynie do analizy sieci.

W przypadku zastosowań telekomunikacyjnych badania z pewnością dotyczyły będą odkrywania wiedzy z danych generowanych w ramach protokołu SS7, oraz dalszego rozwoju metod analizy sekwencji czasowych.

Rozwój „e-gospodarki” wymusza dziś zwłaszcza dynamiczny rozwój badań nad web miningiem. Coraz inteligentniejsze wyszukiwarki, SQL-podobne języki do zadawania zapytań w WWW, agenty webowe czy wirtualne hurtownie danych to tylko niektóre z obiecujących rozwiązań.

Należy spodziewać się także pojawienia się zapowiadanych narzędzi KDD nowej generacji określanych jako DMMS (data mining management systems), zwłaszcza takich, które posiadają możliwość automatycznej integracji danych z wielu źródeł sieciowych.

Wszystko to spowodowane jest rosnącą świadomością faktu, że w dobie powszechnego dostępu do systemów sieciowych, przewagę osiągnie ten, kto potrafił będzie z niej pobierać nie tylko dane ale i to co najcenniejsze – wiedzę.

Literatura

[1] Daszczuk W., Gawrysiak P., Gerszberg T., Kryszkiewicz M., Mieścicki J, Muraszkiewicz M., Okoniewski M., Rybiński H., Traczyk T., Walczak Z., Data Mining for Technical Operation of Telecommunications Companies: a Case Study, 4th World Multiconference on Systemics, Cybernetics and Informatics (SCI'2000), 2000

[2] Data Mining Tools Survey, Journal of Intelligent Information Systems, Vol. 14, Issue 1, March 1999

[3] Fayyad U. M., Piatetsky-Shapiro G., Smyth P., Uthurusamy R., Advances in Knowledge Discovery and Data Mining. AAAI/MIT Press 1996

Gawrysiak P., Okoniewski M., Applying Data Mining Methods for Cellular Radio Network Planning, Inteligentne Systemy Informacyjne 2000



[5] Gawrysiak P., Okoniewski M. Knowledge Discovery in the Internet, artykuł przekazany do publikacji w Archiwum Informatyki Polskiej

[6] Mattison R., Data Warehousing and Data Mining for Telecommunication, Artech House, Boston – London 1997


©snauka.pl 2016
wyślij wiadomość