Dlaczego nie mogę znaleźć odpowiednich danych?

Nowoczesny stos danych pomógł zdemokratyzować tworzenie, przetwarzanie i analizę danych w różnych organizacjach. Doprowadziło to jednak również do nowy zestaw wyzwań dzięki decentralizacji stosu danych. W tym poście omówimy jeden z kamieni węgielnych nowoczesnego stosu danych – katalogi danych – i dlaczego nie są one w stanie przezwyciężyć fragmentacji, aby zapewnić w pełni samoobsługowe środowisko odkrywania danych.

Jeśli są Państwo liderem zespołu ds. danych w firmie zatrudniającej ponad 200 pracowników, istnieje duże prawdopodobieństwo, że tak właśnie jest.

Zaczęli Państwo dostrzegać problemy związane z odkrywaniem danych w swojej firmie;
Wypróbowali Państwo jeden z komercyjnych lub open-source’owych katalogów danych lub
Stworzenie własnego katalogu danych.

Jeśli tak, to z pewnością ten post będzie dla Państwa bardzo przydatny.

Punkty bólu

Ten post jest oparty na naszym własnym doświadczeniu w budowaniu DataHub na LinkedIn oraz wnioski z ponad 100 wywiadów z liderami danych i praktykami w różnych firmach. Może istnieć wiele powodów, dla których firma przyjmuje katalog danych, ale oto punkty bólu, z którymi często się spotykamy:

Państwa zespół ds. danych spędza dużo czasu odpowiadając na pytania dotyczące tego, gdzie znaleźć dane i jakich zestawów danych użyć.
Państwa firma podejmuje złe decyzje, ponieważ dane są niespójne, niskiej jakości, opóźnione lub po prostu niedostępne.
Państwa zespół ds. danych nie może pewnie wprowadzać zmian, migrować ani wycofywać danych, ponieważ nie ma wglądu w to, w jaki sposób dane są wykorzystywane.

Najważniejsze jest to, że chcą Państwo umożliwić swoim interesariuszom samodzielną obsługę danych, a co ważniejsze, właściwych danych. Zespół ds. danych nie chce być ograniczany przez pytania pomocnicze tak samo jak konsumenci danych nie chcą polegać na zespole ds. danych, który odpowiada na ich pytania. Obaj mają wspólny cel – prawdziwie samoobsługowe odkrywanie danych (Data Discovery™).

Pierwsza reakcja

W naszych badaniach zauważyliśmy uderzające podobieństwa w firmach próbujących samodzielnie rozwiązać ten problem. Historia często wygląda następująco:

Proszę utworzyć bazę danych do przechowywania metadanych.
Zbieranie ważnych metadanych, takich jak schematy, opisy, właściciele, wykorzystanie i pochodzenie, z kluczowych systemów danych.
Umożliwić ich przeszukiwanie za pomocą aplikacji internetowej.

Voila! Mają Państwo teraz w pełni samoobsługowe rozwiązanie i z dumą ogłaszają zwycięstwo nad wszystkimi problemami związanymi z wyszukiwaniem danych.

Początkowa ekscytacja

Prześledźmy, co zwykle działo się po wprowadzeniu tego nowego, błyszczącego katalogu danych. Na pierwszy rzut oka wyglądał świetnie. Garstka zaawansowanych użytkowników była bardzo podekscytowana katalogiem i jego potencjałem. Byli podekscytowani nowo uzyskanym wglądem w cały ekosystem danych i nieskończonymi możliwościami odkrywania nowych danych. Byli optymistycznie nastawieni, że to rzeczywiście Rozwiązanie którego szukali.

Rzeczywistość wkracza

Kilka miesięcy po uruchomieniu zaczęli Państwo zauważać, że zaangażowanie użytkowników szybko spada. Pytania klientów na kanale Slack zespołu ds. danych również nie wydawały się znikać. Jeśli już, to stały się one dla zespołu jeszcze trudniejsze do rozwiązania.

Więc co się stało?

Ludzie wyszukiwali “revenue”, mając nadzieję na znalezienie oficjalnego zbioru danych o przychodach. Zamiast tego otrzymali setki wyników o podobnych nazwach, takich jak “revenue”, “revenue_new”, “revenue_latest”, “revenue_final”, “revenue_final_final”, i byli całkowicie zagubieni.
Nawet jeśli osoba znała dokładną nazwę tego, czego szukała, katalog danych dostarczał tylko informacje techniczne, np. definicja SQL, opisy kolumn, linage i profil danych, bez wyraźnych instrukcji dotyczących sposobu ich wykorzystania w konkretnym przypadku użycia.
Państwa zespół ds. danych skrupulatnie oznaczał zbiory danych jako “podstawowe”, “złote”, “ważne” itp., ale klienci nie wiedzieli, co oznaczają te tagi ani jakie jest ich znaczenie. Co gorsza, zaczęli losowo oznaczać rzeczy i zepsuć wysiłki związane z kuratorami.

Czy naprawdę tak trudno jest znaleźć właściwe dane, nawet przy tak zaawansowanych możliwościach wyszukiwania i wszystkich bogatych metadanych? Tak! Ponieważ odpowiedź na pytanie “jakie dane są właściwe” zależy od tego, kim jesteś i jakie przypadki użycia próbujesz rozwiązać. Większość katalogów danych przedstawia informacje tylko z punktu widzenia producenta, ale nie zaspokaja potrzeb konsumentów danych.

Brakujący element

Zapewnienie punktu widzenia producenta poprzez automatyzację i integrację wszystkich metadanych technicznych jest zdecydowanie kluczową częścią rozwiązania. Jednak punkt widzenia konsumenta – zaufane tabele używane przez moją organizację, typowe wzorce użytkowania dla różnych scenariuszy biznesowych, wpływ zmian poprzedzających na moje analizy – jest brakującym elementem, który uzupełnia układankę odkrywania i zrozumienia danych.

Większość katalogów danych nie pomaga użytkownikom znaleźć danych, których potrzebują; pomagają one użytkownikom znaleźć kogoś, do kogo mogą się zwrócić, co często określa się jako “klepnięcie w ramię”. To nie jest prawdziwa samoobsługa.

Rozwiązanie

Uważamy, że istnieją trzy rodzaje informacji/metadanych wymaganych do tego, aby wyszukiwanie danych było naprawdę samoobsługowe:

Metadane techniczne

Odnosi się to do wszystkich metadanych pochodzących z systemów danych, w tym schematów, pochodzenia, kodu SQL/kodu, opisu, profilu danych, jakości danych itp. Automatyzacja i integracja sprawią, że informacje te będą na wyciągnięcie ręki użytkownika.

Wyzwania

Nie ma standardu dla metadanych na różnych platformach danych. Co gorsza, wiele firm buduje własne niestandardowe systemy, które przechowują lub tworzą kluczowe metadane. Jak zintegrować te systemy na dużą skalę, aby pozyskiwać metadane dokładnie, niezawodnie i na czas, jest wyzwaniem inżynieryjnym.

Metadane biznesowe

Każda funkcja biznesowa działa w oparciu o zestaw wspólnych definicji biznesowych, często określanych jako “warunki biznesowe”. Przykłady obejmują aktywnych klientów, przychody, pracowników, churn itp. Ponieważ organizacja oparta na danych w dużym stopniu polega na tych definicjach przy podejmowaniu kluczowych decyzji biznesowych, niezwykle ważne jest, aby osoby zajmujące się danymi prawidłowo przekładały dane fizyczne na terminy biznesowe.

Wyzwania

Wielu firmom brakuje narzędzi, procesów i dyscyplin do zarządzania i komunikowania tych terminów biznesowych. W rezultacie, obsługując zapytanie biznesowe, specjaliści ds. danych często mają trudności ze znalezieniem odpowiednich danych dla konkretnego terminu biznesowego lub uzyskują wyniki, które są ze sobą sprzeczne.

Metadane behawioralne

Ujawnianie powiązań między ludźmi a danymi ma kluczowe znaczenie dla skutecznego wykrywania danych. Użytkownicy często ufają danym na podstawie tego, kto je stworzył lub wykorzystał. Wolą również uczyć się, jak przeprowadzać analizy od bardziej doświadczonych “zaawansowanych użytkowników”. W tym celu musimy zachęcać do dzielenia się wiedzą i spostrzeżeniami na temat danych w całej firmie. Poprawi to również znajomość danych w Państwa organizacji, zapewni lepsze zrozumienie biznesu i zmniejszy niespójności.

Wyzwania

Ludzie korzystają z danych na różne sposoby. Niektórzy wykonują zapytania za pomocą konsoli Snowflake, notatników, R i Presto, podczas gdy inni korzystają z narzędzi BI, pulpitów nawigacyjnych, a nawet arkuszy kalkulacyjnych. W rezultacie wnioski i spostrzeżenia często rozprzestrzeniają się w wielu miejscach i utrudniają powiązanie ludzi z danymi.

Powinno być już dość jasne, że odkrywanie właściwych danych i zrozumienie ich znaczenia nie jest zwykłym problemem technicznym. Wymaga to połączenia metadanych technicznych, biznesowych i behawioralnych. Dokonanie tego bez tworzenia uciążliwego procesu zarządzania znacznie zwiększy produktywność danych w Państwa organizacji i wprowadzi kulturę prawdziwie opartą na danych w Państwa firmie.