zamknij
Wywiad z Łukaszem Gralą – Microsoft Data Platform MVP

Wywiad z Łukaszem Gralą – Microsoft Data Platform MVP

Konrad KozłowskiKonrad Kozłowski

0Udostępnień
12219593_934151183304908_7905861889865773936_n

Rozmawiamy z Łukaszem Gralą – światowej klasy ekspertem od BI, Architect Data Platform & Business Intelligence & Advanced Analytics Solutions w firmie TIDK, od lat nagradzany prestiżowym tytułem Microsoft Data Platform MVP.

Materiał pierwotnie ukazał się w magazynie Lubelski Programista.

Konrad Kozłowski: Jakie nowości, o których warto wiedzieć, przygotował dla nas Microsoft w Azure w ostatnim czasie?
Łukasz Grala: Każdy tydzień przynosi nam mniejsze lub większe nowości dotyczące platformy Azure. Ze względu na to, że zajmuje się projektowaniem i wdrażaniem rozwiązań dotyczących platformy danych i zaawansowanej analityki, to też te obszary staram się badać i poznawać na bieżąco. Z racji bycia MVP bardzo często testuje je jeszcze przed publicznym dostępem. Te rzeczy, które pojawiły się w ostatnich miesiącach lub przestały być wersjami do testów to oczywiście Data Lake Storage & Analytics, Azure Search, Azure Catalog i Azure SQL Data Warehouse.

Konrad Kozłowski: Możesz w paru słowach nam je przybliżyć?

Łukasz Grala: Zacznijmy może od Azure Search. Jest to mechanizm umożliwiający automatyczne indeksowanie i przeszukiwanie naszych danych. Funkcjonalność wcześniej była dostępna już dla danych przechowywanych w bazie danych oferowanej w formie usług – Azure SQL Database, oraz bazie dokumentowej – Azure DocumentDB, ale teraz możemy też indeksować dokumenty przechowywane w postaci plików na Azure Blob Storage. Takie indeksowanie oczywiście ma na celu efektywniejsze – szybsze wyszukiwanie informacji w tych danych. Kolejną nowością jest Azure Data Catalog. W skrócie jest to rozwiązanie w chmurze pozwalające katalogować i odkrywać nasze zasoby danych. Wszelakiego rodzaju źródła danych (data sources), co ma spowodować łatwiejszą ich dalszą eksplorację, procesowanie, czy też analizę. Zbliżam się do dwóch moich ulubionych rozwiązań. Zacznę może od Azure SQL Data Warehouse. Pewnie wielu z czytelników magazynu słyszało kiedyś o rozwiązaniu sprzętowo-programowym – hurtowni danych, którą oferuje Microsoft. Dawniej nazywaną PDW (Parallel Data Warehouse), obecnie wersja PDW2 z Polybase nosi nazwę Analytics Platform System. Jest to hurtownia danych o olbrzymich możliwościach przetwarzania. Sercem takiego rozwiązania jest architektura typu MPP (Massively Parallel Processing). Rozwiązanie to jak można się domyśleć nie należy do najtańszych. Teraz tego typu rozwiązanie może mieć każda nawet mała organizacja, gdyż jest usługą w chmurze. Po załadowaniu naszych danych do hurtowni, możemy elastycznie i dynamicznie skalować to rozwiązanie wraz ze zwiększającymi się, czy też zmieniającymi się potrzebami. Nie brzmi to wspaniale?

MES2014 z2

Konrad Kozłowski: Zdecydowanie, to jeszcze parę słów o Azure Data Lake.

Łukasz Grala: To rozwiązanie, którym w ostatnim czasie interesuje się najbardziej. W nie tylko mojej ocenie, jest bardzo ciekawe, technologicznie jak i biznesowo. Azure Data Lake składa się w skrócie z dwóch serwisów – składowanie danych, oraz analityka. W rzeczywistości wykorzystuje wiele rzeczy znanych np.: Azure Blob Storage, czy Azure SQL Database. Istotniejsze jest to co potrafi to rozwiązanie. Możemy dzięki niemu przetwarzać duże zbiory danych np.: pliki logów z systemów, czy sieci Internet, tweety, posty, czyli takie klasyczne źródła danych przetwarzane w rozwiązaniach Big Data Analytics, przetwarzanie realizujemy przy użyciu tzw.: jobów, tworzonych przy użyciu znanych języków z Opensourcowych rozwiązań Big Data, ale także przy użyciu nowego języka U-SQL. Koncepcja tego języka jest bardzo ciekawa. Sama składnia jest podobna do języka T-SQL, a wyrażenia, którymi przekształcamy dane, wywodzą się z języka C#. Co daje nam bardzo niski koszt wejścia w to rozwiązanie, gdyż firmy zajmujące się technologiami Microsoft zazwyczaj mają w tym zakresie duże kompetencje. Samo przetwarzanie jest też bardzo efektywne, ale temat na tyle szeroki i ciekawy, że nie ma co go teraz bardziej poruszać. Myślę, że okazja jeszcze będzie.

Zdaniem szefa Microsoft Azure IoT rynek zbliża się do swojego “punktu zwrotnego” – co to oznacza dla nas wszystkich? Twórców oraz użytkowników?

Łukasz Grala: Wiele firm od jakiegoś czasu mówi o rozkwicie tego rynku, już teraz widzimy jak dużo urządzeń jest wpiętych do Internet. Nie dziwią już nas telefony, zegarki, aparaty fotograficzne, telewizory, pralki czy samochody. Urządzeń tych z każdym rokiem będzie coraz więcej. Odkrywcze to bardzo nie jest, ponieważ wiele firm związanych z technologiami Internetowymi i sprzętem sieciowym sygnalizuje to od lat. Według niektórych szacunków w 2020 roku będziemy mieli pracujących urządzeń w sieci około 50 miliardów.

Konrad Kozłowski: W związku z tym co jest z twojego punktu widzenia najistotniejsze?

Łukasz Grala: Oczywiście dane. Danych tych powstanie więcej niż posiadamy od czasów początku cywilizacji. Z tymi danymi coś należy robić po pierwsze składować, po drugie przetwarzać, by wydobyć z nich wiedzę. Z całą pewności odchodzimy w związku z tym od klasycznego modelu danych, pozostanie on w wielu zastosowaniach, ale w stosunku do ilości przetwarzanych globalnie danych nie będzie już tak znaczący. Dużą część analizy danych będziemy robili w czasie rzeczywistym i tutaj mam na myśli wiele rozwiązań przetwarzania strumieni danych i w czasie rzeczywistym ich analizowania. W technologii Microsoft możemy już takie rzeczy robić, w tym celu są takie usługi w chmurze jak chociażby EventHub, czy też Azure Stream Analytics, do tego Azure Machine Learning z wystawionymi serwisami webowymi, PowerBI z dynamicznymi źródłami danych. Układankę rozwiązań można poszerzać o inne usługi chociażby o Azure HDInsight, które posiada Apachowe Storm. Stawiamy też rozwiązanie Hortonworks ze Sparkiem i Stormem  na wirtualnych maszynach w Azure, on-premisowo u klienta, czy też w wariancie hybrydowym.

12189814_934151173304909_6403407240964870621_n
Konrad Kozłowski: Czym wyróżnia się oferta chmurowa Microsoftu na tle konkurencji?

Łukasz Grala: Moim zdaniem żadna z konkurencyjnych firm oferująca usługi w chmurze nie ma tak dużej ilości rozwiązań w zakresie składowania i analizowania danych i to jest bez wątpienia przewaga platformy Microsoft.

Konrad Kozłowski: Czym jest ‘cloud storage‘ i gdzie tu innowacja?
Łukasz Grala: Rozmawiając potwierdziliśmy, czy też uświadomiliśmy sobie niewyobrażalną ilość danych, która jest i będzie generowana. Danych, których i tak nie ma w naszej organizacji, tylko powstaje wokół nas. Nie ma sensu ich magazynować u siebie, tylko lepiej efektywnie je składować gdzieś w chmurze, żeby też tam je analizować, przetwarzać, a po stronie organizacji je po prostu wykorzystywać. Często powtarzam to swoim klientom, że samo zbieranie i składowanie danych nie daje nam innowacyjności, ale już korzystając z dobrodziejstw zaawansowanej analityki, możemy budować przewagę rynkową organizacji.

Konrad Kozłowski: Jak na przestrzeni ostatnich 5 lat zmieniła się analiza danych?
Łukasz Grala: Pytanie ciekawe, ale niestety odpowiedź precyzyjna na nie jest dość zaskakująca – wcale się nie zmieniła. Zmieniają się źródła, potrzeby analityczne, ale modele matematyczne, statystyczne są cały czas te same. To co można zauważyć to zmienia się koncepcja analityki w firmie. Obecne duże systemy Business Intelligence, mimo, że nadal dużo robimy takich w roku, czy też wciąż rozwijamy istniejące, przestają być tak popularne, gdyż przegrywają z Self-BI, czyli analityką szybką, bezpośrednią. Widać to również po ostatnim raporcie Gartnera z lutego tego roku, dotyczącym rozwiązań Business Intelligence i platform analitycznych, że w gronie liderów poza Microsoft, były raczej firmy dające rozwiązania wpisane w ten kierunek. Microsoft znalazł się również w gronie tych trzech liderów i to jako ten co wyprzedza wszystkich wizją. Microsoft w tym zakresie proponuje miedzy innymi rozwiązanie PowerBI. Są to jednak zagadnienia bardzo popularne, ale dotyczą jednak podstawowej analizy danych, czy też wizualizacji i nie wkraczają one w obszar zaawansowanej analityki.

Konrad Kozłowski: Jesteś międzynarodowym ekspertem w dziedzinie biznesowej analityki danych – jakie są Twoje rokowania odnośnie przyszłości? W jakim kierunku powinien podążyć Microsoft w kategorii ‘bussines intelligence‘?

Łukasz Grala: Tak jak wspominałem, Business Intelligence, już nie jest tym BI co mieliśmy kiedyś. Pozostały rozwiązania klasyczne do analizy i wizualizacji danych, gdzie tworzone są rozwiązania w oparciu o hurtownie danych, modele biznesowe, systemy raportowania, ale to w tych czasach jedynie drobna część potrzeb analitycznych organizacji. Coraz większa grupa organizacji wdraża, bądź planuje wdrożyć analitykę typu Big Data Analytics, czy też myśli o przetwarzaniu strumieni danych. Sama potrzeba analizy danych rośnie również w organizacjach, jak wynika z szacunków zawodów potrzebnych w najbliższych latach, to właśnie zaawansowani analitycy, nazywani często Data Scientist będą mieli największą ilość ofert pracy. Spowodowane jest to tym, iż organizacje powoli dojrzewają do wyższego poziomu analizy danych, mam tu na myśli predictive i prescriptive analytics, czyli tak naprawdę szukanie wiedzy, symulację statystyczną, czy też optymalizacje procesów podejmowania decyzji w oparciu o przetwarzanie posiadanych i nowych danych. Choć od dawna były algorytmy eksploracji danych w SQL Server, to teraz właśnie Microsoft zauważył swoje braki w tej materii i dość agresywnie wchodzi w tą materie. Doceniane to jest również w corocznych raportach Gartnera. Mam tutaj na myśli zakup Revolution i integrację języka R z wieloma swoimi produktami. W tej chwili to już jest SQL Server 2016, w niewielkim stopniu język R można wykorzystać w PowerBI i Azure Machine Learning, oferuje swoje narzędzia do pracy z danymi, a niebawem będą jeszcze większe możliwości właśnie we wspomnianym Azure Machine Learning i Azure Data Lake Analytics. Oczywiście zaawansowana analiza danych to nie tylko jezyk R, to właśnie wspomniane rozwiązanie Azure Machine Learning, czy też możliwości języka Python. Na platformie Azure mamy do dyspozycji również grupę produktów OpenSource, gdzie można wykorzystać np. Apache Spark, z językiem Python, SparkR, MLLib, albo Mahout, a ostatnio rozwiązanie Microsoft R Open przeznaczone właśnie do takiej zaawansowanej analizy. Bardzo mnie to cieszy, bo nie ukrywam, iż właśnie ta działka najbliższa biznesowi i ich problemom jest najciekawsza z punktu widzenia projektów realizowanych przez nas, czyli firmę TIDK. Widać jak dużą innowacyjność, przekładającą się na przewagę rynkową dają takie rozwiązania. Ze względu na swoją pasję do danych, ich składowania, przetwarzania i drążenia działam naukowo na Wydziale Informatyki Politechniki Poznańskiej właśnie w tym obszarze.

Dziękuję za zaproszenie do rozmowy i życzę nowemu magazynowi powodzenia, rozwoju i ambitnych wysoko stawianych celów. Ze swojej strony, jak i TIDK mogę zagwarantować, że będziemy się starać wnieść wartościowy wkład merytoryczny, oczywiście w naszych kompetencjach dotyczących platformy i analizy danych do wysokiej jakości tego wydawnictwa.

Konrad Kozłowski: Bardzo dziękuję za rozmowę.

1271138_663963757076391_4994291976721923541_o

IMG_9967

Lublin nareszcie na globalnej mapie społeczności Google

GDG_Lublin banner

Czym jest Google Developer Group Lublin (GDG Lublin)?

Przeczytaj poprzedni wpis:
IMG_9967
Lublin nareszcie na globalnej mapie społeczności Google

18 listopada był bardzo istotnym dniem dla lubelskiej branży IT. To właśnie w środowy wieczór, w Pubie u Szewca odbyło...

Zamknij