Zarządzanie danymi i DevOps

W erze informacji “dane to skarb”. Z bilionami zbiorów danych obejmujących świat, dane są kruche. Ochrona danych jest konieczne, oraz zarządzanie danymi zapewnia zarządzanie danymi, ich bezpieczeństwo i zgodność z przepisami.

Zarządzanie danymi

Zarządzanie danymi pomija dane. Wymienia procesy, które określają zasady, zapewniają dostępność, bezpieczeństwo, integralność i planują wskaźniki wydajności. Zarządzanie danymi ma kluczowe znaczenie, ponieważ stanowi podstawę, która nadzoruje i administruje danymi. Sercem zarządzania danymi jest “Polityka danych i zgodność”.

Polityka danych napędza dane w organizacji i jest dokumentem, który określa standardy dla danych. Dokumenty dotyczące polityki danych i zgodności mówią o następujących kwestiach:

  1. Zakres polityki
  2. Odpowiedzialne zespoły
  3. Kontrola jakości i integralności danych
  4. Bezpieczeństwo danych na miejscu
  5. Wykorzystanie i dostęp do danych

Dokument polityki danych określa podstawy danych dla organizacji. Opisuje on:

  • Jak daleko sięga zakres polityki i co obejmuje.
  • Zespoły zaangażowane w zarządzanie, pracę i przeglądanie danych. Zawęża grono osób, które będą miały do czynienia z danymi, tworząc dla nich zamknięte środowisko.
  • Dwa najważniejsze aspekty danych to poprawność i integralność. Poprawność danych zapewnia brak rozbieżności w danych, a integralność danych zapewnia, że używane dane nie zawierają żadnych danych osobowych ani wrażliwych. Oba aspekty są delikatne, a odchylenie w którymkolwiek z nich może mieć znaczący wpływ.
  • Równie ważne jest zabezpieczenie danych. Dokument polityki danych zawiera wytyczne niezbędne do wdrożenia środków bezpieczeństwa, planów łagodzenia skutków oraz szyfrowania danych w spoczynku i w tranzycie. Określa również wytyczne i harmonogramy dotyczące naruszeń danych, plany tworzenia kopii zapasowych i odzyskiwania danych.
  • Wykorzystanie i dostęp do danych można uznać za rozszerzoną część integralności i bezpieczeństwa danych. Są one jednak ważnym aspektem danych. Ważne jest, do czego dane będą wykorzystywane i w jaki sposób. Ustalenie zasad dostępu może wzmocnić bezpieczeństwo danych.

DevOps i zarządzanie danymi

Ponieważ zarządzanie danymi ma znaczącą wartość dla projektu dotyczącego danych, a DevOps może przynieść wzrost wydajności procesu zarządzania danymi. DevOps koncentruje się na usprawnianiu i automatyzacji, które łączą procesy i zmniejszają potrzebę ręcznej interwencji.

Zarządzanie danymi obejmuje dwa procesy techniczne, których automatyzacja może przynieść niezwykłe korzyści:

  1. Poprawność i integralność danych polega na sprawdzeniu dokładności danych i upewnieniu się, że nie ma w nich żadnych wrażliwych informacji. Może to być częścią ETL rurociąg.
    • ETL to skrót od Extraction, Transformation, and Loading i jest to zautomatyzowany sposób realizacji etapów wstępnego przetwarzania danych. Po wyodrębnieniu danych można wdrożyć czyszczenie danych, które naprawia niedokładne dane i puste kolumny. Do czyszczenia danych można wykorzystać bibliotekę Pandas.
    • Biblioteka Python, taka jak Faker, może być używana do zastępowania wrażliwych informacji losowymi danymi maskującymi dane osobowe.
    • Potok ETL wykorzystujący bibliotekę Narzędzie CI/CD takie jak Jenkins, może ograniczyć ręczną interwencję i płynnie działać zgodnie z harmonogramem, aby pobierać dane, sprawdzać poprawność, utrzymywać integralność i ładować przekształcone dane do rozwiązania do przechowywania danych w sposób zautomatyzowany.
  2. Bezpieczeństwo danych można podzielić na dwa podprocesy:
    1. Zarządzanie dostępem do platformy przechowywania danych: Automatyzacja zarządzania dostępem zależy od platformy, na której znajduje się magazyn danych. Na przykład rozwiązanie hurtowni danych, takie jak Amazon Redshift lub jezioro danych, takie jak Azure Data Lake Storage, ponieważ na platformach chmurowych można zautomatyzować za pomocą infrastruktury jako kodu (IaC), takie jak Terraform.
      W przypadku samodzielnych aplikacji SaaS interfejsy API mogą być używane przy użyciu języka programowania, takiego jak Python.
    2. Skalowalność danych: Skalowanie danych można ułatwić, wdrażając potok CI/CD z IaC, takim jak Terraform, Azure Bicep lub AWS CloudFormation. Potok można podzielić na dwa aspekty: jeden, który monitoruje, kiedy zostanie osiągnięty określony próg, a druga część potoku, która skaluje pamięć masową. Potok ten można również skonfigurować tak, aby uwzględniał skalowanie w dół w razie potrzeby.

Wnioski

W świecie opartym na danych, zarządzanie danymi ma kluczowe znaczenie, ponieważ obejmuje system, który nadzoruje i zarządza danymi. Naturalnie konieczne staje się więc zbudowanie sposobu myślenia DevOps, który mógłby połączyć procesy zarządzania i usprawnić je dzięki automatyzacji.