14. spotkanie Data Community Trójmiasto
- 17:45 – 18:00 Rozpoczęcie spotkania, sprawy organizacyjne
- 18:00 – 18:50 Natalia Reszka - Data Mining Best Practices
- 18:50 – 19:00 Networking,
- 19:00 - 19:50 Bartosz Szymula, Maciej Górski - RCD - czyli, co zrobić z rozpędzonym SCD.
- 20:00 Zakończenie
ABSTRAKTY
Data Mining Best Practices
W wystąpieniu przedstawiony zostanie zestaw dobrych praktyk zarządzania procesem modelowania w firmie, gdzie wymagana jest ścisła współpraca analityka danych z biznesem. Zestaw ten okazuje się być użytecznym narzędziem w pracy analityka, nie tylko zgodnym ze światowymi standardami, ale też możliwym do wprowadzenia w korporacyjnej rzeczywistości. Główne filary DMBP to : prototypowanie, CRISP-DM oraz monitoring powdrożeniowy modelu. Wykorzystując te zasady analityk dostarcza szybki sukces, unika typowych błędów i oszczędza czas na pytania typu „co dalej?”.
- Natalia Reszka
Absolwentka informatyki i ekonometrii oraz socjologii na Uniwersytecie Gdańskim. Od 3 lat analityk danych w firmie windykacyjnej BEST, gdzie zajmuje się optymalizacją strategii w oparciu o techniki data mining i uczenia maszynowego. Wcześniej związana z sopocką firmą badawczą PBS, gdzie tworzyła rozwiązania analityczne dla branży telekomunikacyjnej, energetycznej i finansowej.
RCD - czyli, co zrobić z rozpędzonym SCD.
O wymiarze RCD (Rapidly Changing Dimensions) możemy mówić jeżeli dla jednego lub więcej atrybutów zachodzi dużo, szybkich zmian w wielu wierszach. Przy takim scenariuszu, zapewnienie SCD typu 2 może być już niewystarczające.
Obsługa wymiarów RCD staję się bardzo często niemałym problemem przy tworzeniu hurtowni danych. Jest to głównie związane z zapewnieniem wydajnego mechanizmu po stronie procesu ETL oraz dobrze zaprojektowanych wymiarów, które będą przechowywały bardzo dużą ilość danych.
Na spotkaniu zaprezentujemy podstawowe typy mechanizmów odpowiedzialnych za wyłapanie zmian w danych po stronie systemu źródłowego oraz zaproponujemy strukturę wymiaru po stronie hurtowni/kostki, który pozwoli na wydajne wykorzystanie zarchwizowanych informacji.
- Bartosz Szymula i Maciej Górski
Od 7 lat developerzy i architekci systemów Business Inteligence opartych głównie na Microsoft SQL Server.
Prowadzili, bądź uczestniczyli w dedykowanych projektach przeznaczony głównie dla dużych i średnich firm.
Obecnie, w ramach pracy w High Wheel Software, nadzorują i konsultują działania związne z globalnym przepływem danych dla jednego z największych koncernów medycznych na świecie.
Zapraszamy na kolejne spotkanie Data Community - Trójmiasto.
UWAGA, zmieniło się miejsce spotkań.
KIEDY
9 października (wtorek) godz. 17:45