Laboratorium 1 Przygotowanie danych do eksploracji



Pobieranie 29.45 Kb.
Data18.06.2016
Rozmiar29.45 Kb.

Laboratorium 1

Przygotowanie danych do eksploracji.


  1. Uruchom narzędzie Oracle Data Miner i połącz się z serwerem bazy danych.

  2. Z menu głównego wybierz Data→Transform→Discretize.

  3. Po wyświetleniu ekranu powitalnego wybierz przycisk Dalej>



  4. Wybierz schemat STUDENT i tabelę MINING_BUILD_TEXT, upewnij się, że zaznaczona jest opcja Single record per case. Kliknij przycisk Dalej>.



  5. Podaj nazwę perspektywy wynikowej (MINING_BUILD_TEXT_DISCRETIZED) oraz opis słowny perspektywy. Kliknij przycisk Dalej>.



  6. Upewnij się, że atrybut CUST_ID został zaznaczony jako unikalny (nie będzie brany pod uwagę w procesie eksploracji). Zwróć uwagę, że niektóre atrybuty typu NUMBER zostały zidentyfikowane jako atrybuty kategoryczne – dotyczy to atrybutów o niewielkiej liczbie różnych wartości. Kliknij przycisk Dalej>.



  7. Zaznacz atrybut AGE. Zwróć uwagę na rozpiętość wartości: minimalnej, średniej i maksymalnej. Kliknij przycisk Equal Width. Wybierz opcję Specify maximum number of bins i wpisz wartość 5. Atrybut AGE zostanie podzielony na 5 przedziałów o równej szerokości. Kliknij przycisk OK.



  8. Następnie, zaznacz atrybut YRS_RESIDENCE i kliknij przycisk Quantile Binning. Wybierz opcję Specify maximum number of bins i wpisz wartość 5. Atrybut YRS_RESIDENCE zostanie podzielony na 5 równolicznych grup. Aby zakończyć, kliknij przycisk OK. Kliknij przycisk Dalej>.



  9. Obejrzyj listę atrybutów kategorycznych, zwróć uwagę na atrybuty o dużej liczbie wartości. Zaznacz atrybut COUNTRY_NAME. Kliknij przycisk Top N. W pole Specify maximum number of bins wpisz wartość 5. Kliknij przycisk OK. W perspektywie wynikowej pozostanie 5 najczęściej pojawiających się nazw krajów, a wszystkie pozostałe kraje zostaną umieszczone w zbiorczej kategorii Others.



  10. Zaznacz atrybut CUST_MARITAL_STATUS i kliknij przycisk Define. Kliknij przycisk Add. W pole Bin Category wpisz Single. W polu All Distinct Values zaznacz wartość Divorced i kliknij przycisk Następnie zaznacz wartość NeverM i ponownie kliknij przycisk. Na koniec zaznacz wartość Widowed i kliknij przycisk. Kliknij przycisk OK. W tym momencie ekran komputera powinien wyglądać następująco.



  11. W analogiczny sposób przygotuj kategorię Relationship i włącz do niej wartości Mabsetn, Married, Separ. Po zakończeniu ekran komputera powinien wyglądać następująco.



  12. Kliknij przycisk Dalej>. Kliknij przycisk Zakończ. Rozwiń drzewo obiektów po lewej stronie ekranu i przejdź do student@miner→Data Sources→STUDENT→Views. Zaznacz perspektywę MINING_BUILD_TEXT_DISCRETIZED. W głównym oknie przejdź do prawego panelu i kliknij na zakładkę Data. Zwróć uwagę na wartości w atrybutach AGE, COUNTRY_NAME, CUST_MARITAL_STATUS i YRS_RESIDENCE.



  13. Kliknij na zakładkę View Lineage. Przeanalizuj kod perspektywy wynikowej realizującej poszczególne kroki dyskretyzacji.



  14. Z menu głównego wybierz Data→Transform→Normalize. Na ekranie powitalnym kliknij przycisk Dalej>. Wybierz schemat STUDENT. Wybierz ponownie tabelę MINING_BUILD_TEXT. Kliknij przycisk Dalej>. Podaj nazwę perspektywy wynikowej (MINING_BUILD_TEXT_NORMALIZED) i krótki opis zawartości perspektywy (np. zawartość tabeli MINING_BUILD_TEXT po normalizacji). Kliknij przycisk Dalej>.

  15. Zaznacz atrybut AGE. Przeanalizuj statystyki związane z atrybutem. Kliknij przycisk Define. Z listy dostępnych transformacji wybierz transformację MinMax (pierwsza pozycja na liście). Jako nową wartość minimalną wpisz 0 a jako nową wartość maksymalną wpisz 10. Kliknij przycisk Refresh. Kliknij przycisk OK.



  16. Zaznacz atrybut YRS_RESIDENCE i kliknij przycisk Define. Z listy dostępnych transformacji wybierz normalizację przez odchylenia standardowe (druga pozycja na liście). Kliknij przycisk Refresh. Kliknij przycisk OK. Kliknij przycisk Dalej>.



  17. Kliknij przycisk Preview Transform. Zwróć uwagę na wartości atrybutów AGE i YRS_RESIDENCE. Kliknij na zakładce SQL i obejrzyj kod perspektywy dokonującej normalizacji atrybutów numerycznych. Kliknij przycisk OK. Kliknij przycisk Zakończ.



  18. Z menu głównego wybierz Data→Transform→Outlier Treatment. Na ekranie powitalnym kliknij przycisk Dalej>. Wybierz schemat STUDENT. Wybierz tabelę MINING_BUILD_TEXT_NORMALIZED. Kliknij przycisk Dalej>. Podaj nazwę perspektywy wynikowej (MINING_BUILD_TEXT_NOOUTLIERS) i opis zawartości perspektywy (zawartość perspektywy MINING_BUILD_TEXT_NORMALIZED po usunięciu osobliwości). Kliknij przycisk Dalej>.

  19. Upewnij się, że atrybut CUST_ID jest zaznaczony jako unikalny. Sprawdź, czy poszczególne atrybuty zostały poprawnie zaklasyfikowane jako kategoryczne lub numeryczne. Kliknij przycisk Dalej>.

  20. Zaznacz atrybut AGE. Kliknij przycisk Define. Wybierz wielokrotność odchylenia standardowego jako preferowaną metodę identyfikacji osobliwości, jako wartość graniczną wpisz 3 (dane odległe o więcej niż 3 wartości odchylenia standardowego od średniej zostaną uznane za osobliwości). Upewnij się, że u dołu okna zaznaczona jest wartość Replace with nulls. Kliknij przycisk OK.



  21. Zaznacz atrybut YRS_RESIDENCE. Kliknij przycisk Define. Wybierz procent wartości granicznych jako preferowaną metodę identyfikacji osobliwości, jako wartość dolnego i górnego odcięcia wpisz 5% (po 5% najniższych i najwyższych wartości zostanie uznanych za osobliwości). Upewnij się, że u dołu okna zaznaczona jest wartość Replace with edge values. Kliknij przycisk OK. Kliknij przycisk Dalej>.

  22. Kliknij przycisk Preview Transform i znajdź wiersze, w których znaleziono osobliwości w atrybucie AGE. Czy możesz zidentyfikować wiersze, w których osobliwości wystąpiły w atrybucie YRS_RESIDENCE? Kliknij na zakładce SQL i obejrzyj kod perspektywy dokonującej identyfikacji osobliwości. Czy potrafisz dostrzec poważną wadę wykorzystywanego narzędzia?

  23. Połącz się z bazą danych wykorzystując iSQLPlus. Wykonaj skrypt preparation.sql. Po każdym kroku przeanalizuj uzyskane wyniki (komentarz jest umieszczony wewnątrz skryptu).





©snauka.pl 2019
wyślij wiadomość

    Strona główna
Komunikat prasowy
przedmiotu zamówienia
najkorzystniejszej oferty
Informacja prasowa
wyborze najkorzystniejszej
warunków zamówienia
istotnych warunków
sprawie powołania
Regulamin konkursu
udzielenie zamówienia
przetargu nieograniczonego
zamówienia publicznego
Nazwa przedmiotu
Specyfikacja istotnych
modułu kształcenia
Rozporządzenie komisji
studia stacjonarne
wyborze oferty
Zapytanie ofertowe
Szkolny zestaw
Ochrony rodowiska
ramach projektu
prasowy posiedzenie
trybie przetargu
obwodowych komisji
zagospodarowania przestrzennego
komisji wyborczych
komisji wyborczej
Program konferencji
Wymagania edukacyjne
Lista kandydatów
szkoły podstawowej
która odbyła
Województwa ląskiego
Decyzja komisji
przedmiotu modułu
poszczególne oceny
Sylabus przedmiotu
szkół podstawowych
semestr letni
Postanowienia ogólne
przedsi biorców
produktu leczniczego
Karta przedmiotu
Scenariusz lekcji
Lista uczestników
Program nauczania
Projekt współfinansowany
Informacje ogólne
biblioteka wojewódzka
semestr zimowy