Czyste dane, jasne spostrzeżenia: Jak czyszczenie danych internetowych usprawnia podejmowanie decyzji

Wszystkie firmy oparte na danych, które tworzą produkty lub generują spostrzeżenia przy użyciu danych zewnętrznych, wiedzą, że praca z niekompletnymi lub niedokładnymi informacjami prowadzi do niewiarygodnych wyników. Kupowanie danych, które przeszły już pewne czyszczenie danych, oszczędza czas, ale wiąże się z wyzwaniami.

W tym artykule omówię, dlaczego czyszczenie danych internetowych różni się od czyszczenia innych rodzajów danych i podzielę się kilkoma wskazówkami dla firm w oparciu o moje doświadczenie w branży danych internetowych.

Definiowanie czystych danych internetowych

Publiczne dane internetowe to wszelkie dane, do których można uzyskać publiczny dostęp online. Podczas skrobania danych internetowych firmy pracują z nieustrukturyzowanymi, surowymi danymi, które muszą zostać przeanalizowane i przejść przez pewien poziom przetwarzania, aby uczynić je bardziej ustrukturyzowanymi i czytelnymi dla takich zadań, jak analiza lub uczenie maszynowe.

Jednak ten poziom przetwarzania nadal wymaga poprawy w przypadku większości zastosowań analitycznych, ponieważ w tym momencie dane nadal zawierają duplikaty, podróbki, niestandaryzowane wartości, puste wartości i wiele bezużytecznych danych.

Bezużyteczne dane to dane niskiej jakości, które są nieistotne w kontekście Państwa pracy. Fałszywe dane są również bezużyteczne. W tym artykule odnosimy się do fałszywych danych jako danych, które nie są tworzone przez ludzi lub są tworzone przez ludzi, ale zawarte w nich informacje nie są autentyczne i nie tworzą żadnej wartości.

Jako firma nie chcą Państwo podejmować decyzji w oparciu o częściowo niedokładne, niekompletne i nieznormalizowane dane. Właśnie dlatego zasada “garbage in, garbage out” jest tak ważna. Czyszczenie danych internetowych poprawia jakość danych i zmniejsza rozmiar zbioru danych, co pozwala zaoszczędzić znaczną ilość zasobów inżynieryjnych i skraca czas uzyskania wartości.

Podobnie jak surowy plik fotograficzny zawiera wszystkie informacje wizualne, które aparat pochłania podczas krótkiej chwili potrzebnej do zrobienia zdjęcia, surowe dane zawierają wszystkie informacje w źródle.

Czyste dane to ostateczne zdjęcie, które fotograf wysyła do klienta. Jest to to samo zdjęcie, ale kolory są zrównoważone, nieistotne obiekty są usuwane, a fotograf mógł zastosować filtr fotograficzny, który mu się podoba.

Aby spojrzeć na to z innej perspektywy, niedawno pracowałem nad czystym zbiorem danych, który składa się z informacji o firmach na całym świecie. Oryginalny zbiór danych zawiera ponad 68 milionów rekordów danych. Oczyszczona wersja zawiera prawie 35 milionów rekordów.

Oznacza to, że prawie połowa rekordów danych została usunięta. Jednak 35 milionów kompletnych i dokładnych rekordów danych o firmach to wciąż ogromny zbiór danych, który może zasilić produkty i dogłębną analizę.

Przykłady czyszczenia danych internetowych

Zespoły, które zamierzają rozpocząć pracę z nieprzetworzonymi publicznymi danymi internetowymi, powinny być gotowe na takie pytania:

Skąd będą Państwo pobierać dane?
Jak będzie wyglądał Państwa potok danych?
Co chcą Państwo zrobić z pustymi rekordami? Czy chcą je Państwo zachować?
Co zrobić, jeśli Państwa dane zawierają fałszywe rekordy? Jak sobie z nimi poradzić?
Jak rozpoznają Państwo, czy na przykład profil firmy nie jest fałszywy?

Świeżo zeskrobane dane mogą mieć różne problemy, a przekształcenie zeskrobanych danych w czyste dane wymaga kilku etapów przetwarzania danych – jednym z kluczowych jest analizowanie dat. Dla ułatwienia skupię się przede wszystkim na danych firmowych.

Weźmy jako przykład dane, które odzwierciedlają daty założenia firm. Istnieje ponad 20 formatów daty. Niektóre z nich są powszechne, a inne nie. Proszę sobie wyobrazić, że przeszukali Państwo Internet i uzyskali dane w wielu różnych formatach daty: “1 listopada 2023”, “2023-11-01”, “11/01/2023”.

Chcą Państwo przekonwertować je na jeden format poprzez standaryzację pola daty. Jest to skomplikowane, jeśli weźmie się pod uwagę ludzkie błędy ortograficzne i inne kwestie. Jednak samo to znacznie ułatwiłoby działania takie jak filtrowanie.

Oto kolejny przykład. Pobierają Państwo dane internetowe zawierające pola tekstowe. W tekście można znaleźć dodatkowe symbole, takie jak emotikony lub łącza internetowe. I różne artefakty formatowania tekstu, które scraper widzi jako znaczniki HTML. Wszystkie te rzeczy mogą sprawić, że dane będą dla Państwa mniej znaczące.

Na koniec weźmy adresy. Ponownie spotkają się Państwo z różnymi wersjami adresów, a jednak w większości przypadków będą Państwo potrzebować ujednoliconego formatu adresu.

Wyzwania związane z czyszczeniem danych internetowych

Być może zastanawiają się Państwo, w jaki sposób czyszczenie danych internetowych różni się od czyszczenia innych typów danych. Cóż, ważne jest, aby pamiętać, że “dane internetowe” szeroko opisują dane w różnych formatach, jednostkach i typach. Obejmuje to zarówno bezpłatne dane tekstowe generowane przez użytkowników, jak i zdjęcia, filmy i bardziej zaawansowane formy pól tekstowych i innych z korektą danych wejściowych.

Chociaż początkowy opis czyszczenia danych internetowych brzmi mniej lub bardziej prosto, proces ten wiąże się z wieloma wyzwaniami.

Po pierwsze i najważniejsze, dane internetowe B2B to zazwyczaj duże zbiory danych. Zbiory danych wahają się od gigabajtów do terabajtów i więcej. Zatem wszystkie wyzwania związane z przetwarzaniem dużych zbiorów danych, takie jak przechowywanie i dostęp do danych lub dostosowanie tempa działalności do możliwości technicznych, mają zastosowanie do czyszczenia danych internetowych.
Po drugie, najprawdopodobniej będą Państwo pracować z ustrukturyzowanymi danymi bez żadnych anomalii. Zarówno parsowanie, jak i uzyskiwanie konkretnych informacji z przeanalizowanych danych wymaga dużo pracy.
Wreszcie, dużą częścią czyszczenia danych internetowych jest weryfikacja. Zaczyna się od teoretycznego punktu widzenia, a nie od faktycznego czyszczenia. Na przykład, jak odróżnić dobre dane od fałszywych? Radzenie sobie z fałszywymi danymi jest wyzwaniem. Należy zdecydować się na podejście, wdrożyć je, przetestować swoją tezę i regularnie powracać do tego pytania, ponieważ dane internetowe są podatne na zmiany.

Surowe czy czyste dane: Które z nich kupić?

I tutaj zderzają się dwa światy. Pamiętają Państwo, jak wcześniej w artykule użyłem wyrażenia “garbage in, garbage out”, aby opisać części danych, które są usuwane jako niewartościowe podczas procesu czyszczenia? Znaki specjalne, niekompletne wartości, fałszywe dane itp.

Jak na ironię, istnieje inne powiedzenie o śmieciach, które jest bardzo istotne w tej sytuacji: śmieci jednego człowieka są skarbem innego człowieka. “Zanieczyszczenia” w danych internetowych są jedną z kluczowych rzeczy, które sprawiają, że niektóre firmy chcą z nich korzystać. Oto kilka przykładów:

Firma znajduje wartość w znacznikach HTML, wartościach kontrolnych, niestandardowych danych wejściowych, emotikonach i podobnych elementach danych, które często są usuwane;
Firma posiada możliwości techniczne i jest gotowa do przetwarzania nieprzetworzonych danych;
Firma chce wyłącznie przetwarzać dane we własnym zakresie: chce robić wszystko od podstaw przez cały cykl życia danych po ich zebraniu, bez żadnego wkładu ze strony innych podmiotów.

Chociaż praca z nieprzetworzonymi danymi internetowymi stanowi wyzwanie, takie dane mają ogromny potencjał. To pusta strona, której firmy często potrzebują. Decydując się na surowe dane, przetwarzają je w oparciu o swoje dokładne potrzeby. To oni nadają danym znaczenie, zarówno tym, które decydują się zachować, jak i tym, które usuwają lub zmieniają.

Czyste dane, w zależności od poziomu przetwarzania, które zostało wykonane, mają już pewne znaczenie. Na przykład określone typy danych wejściowych lub rekordów danych, takie jak specjalne symbole lub niekompletne rekordy, zostały uznane za nieistotne na podstawie kryteriów określonych przez dostawcę danych.

Jeśli Państwa podejście jest zgodne z podejściem dostawcy danych, zaoszczędzą Państwo znaczną ilość czasu i pieniędzy, wybierając już oczyszczone dane. Czyste dane są gotowe do procesów analitycznych i generowania spostrzeżeń, co ostatecznie prowadzi do skrócenia czasu realizacji wartości.

Jakie błędy popełniają firmy przy zakupie czystych danych?

Zakup gotowych do użycia zestawów danych pomaga firmom zaoszczędzić wiele czasu i pieniędzy, które zostałyby wydane na gromadzenie i przetwarzanie danych internetowych. Mimo to, przy zakupie czystych danych zalecam rozważenie kilku rzeczy.

Stosunkowo oczywistym, ale możliwym błędem, którego należy unikać przy zakupie czystych zbiorów danych, jest brak wiedzy na temat tego, jakie procesy czyszczenia danych zostały faktycznie przeprowadzone.

Przed zakupem proszę zadać dostawcy danych te same pytania, które zadałby Pan sobie, gdyby miał Pan zacząć gromadzić i czyścić dane internetowe: z jakich źródeł korzysta, w jaki sposób stwierdza, czy dane są fałszywe, czy nie, jakie dane są usuwane, jakie dane są zmieniane itp.
Jeśli generują Państwo spostrzeżenia, które wpłyną na Państwa decyzje biznesowe lub jeśli dążą Państwo do rozwiązania problemu biznesowego, najprawdopodobniej będą Państwo potrzebować więcej niż jednego zbioru danych. To samo dotyczy każdego zakupu danych.
Wreszcie, proszę nie wkładać wszystkich jajek do jednego koszyka. Państwa zespół ds. danych powinien korzystać z różnych źródeł i zestawów danych, które wzajemnie się uzupełniają, aby wspierać ustalenia. Jest to szczególnie ważne na rynku danych firmowych, ponieważ dodatkowe informacje o analizowanych firmach umożliwiają uzyskanie unikalnych i wiarygodnych spostrzeżeń.

Przemyślenia końcowe

Czyszczenie danych to złożony i zasobochłonny proces. Znalezienie dostawcy danych, który może oczyścić i przygotować zbiory danych do analizy zgodnie z tym, czego Państwo szukają, można uznać za dobry sposób na outsourcing części prac inżynieryjnych.

Chociaż ta opcja nie jest odpowiednia dla firm, które chcą całkowicie surowych zbiorów danych, z mojego doświadczenia wynika, że wiele innych skorzysta na zmniejszeniu rozmiarów zbiorów danych i możliwości szybszego wydobycia wartości z danych.