Tag: Apache

Sukces Ubera dzięki Apache Pinot: Oszczędność kosztów i wzrost wydajności

Dla firmy takiej jak Uber, dane w czasie rzeczywistym są siłą napędową zarówno usług skierowanych do klientów, jak i usług wewnętrznych. Klienci polegają na danych w czasie rzeczywistym, aby uzyskać przejazdy i zamówić jedzenie w dogodnym dla siebie czasie. Zespoły wewnętrzne również polegają na aktualnych danych, aby zasilać infrastrukturę stojącą za ich aplikacjami skierowanymi do […]

Automatyczne zwiększanie kolumn w Apache Doris

Kolumna auto-increment jest podstawową funkcją jednowęzłowych transakcyjnych baz danych. Przypisuje ona unikalny identyfikator dla każdego wiersza w sposób, który wymaga najmniejszego ręcznego wysiłku ze strony użytkowników. Dzięki kolumnie automatycznego zwiększania w tabeli, za każdym razem, gdy do tabeli zostanie wstawiony nowy wiersz, zostanie mu przypisana następna dostępna wartość z sekwencji automatycznego zwiększania. Jest to zautomatyzowany […]

Implementacja specyfikacji klucza idempotencji w Apache APISIX

W zeszłym tygodniu napisałem artykuł analizę analizy Specyfikacja IETF Idempotency-Key. Specyfikacja ma na celu uniknięcie zduplikowanych żądań. Krótko mówiąc, chodzi o to, aby klient wysyłał unikalny klucz wraz z żądaniem: Jeśli serwer nie zna klucza, postępuje jak zwykle, a następnie przechowuje odpowiedź Jeśli serwer zna klucz, skraca dalsze przetwarzanie i natychmiast zwraca zapisaną odpowiedź. Ten […]

Odkrywanie debugowania w Apache Airflow: Strategie i rozwiązania

Apache Airflow to platforma o otwartym kodzie źródłowym, która umożliwia programowe tworzenie, planowanie i monitorowanie przepływów pracy. Wykorzystuje Python jako język programowania i oferuje elastyczną architekturę dostosowaną zarówno do małej, jak i dużej skali. przetwarzania danych. Platforma wspiera koncepcję Skierowane grafy acykliczne do definiowania przepływów pracy, ułatwiając wizualizację złożonych potoków danych. Jednak, podobnie jak w […]

Przetwarzanie danych w GCP za pomocą Apache Airflow i BigQuery

W dzisiejszym świecie opartym na danych, wydajne przetwarzanie danych ma kluczowe znaczenie dla organizacji poszukujących wglądu i podejmowania świadomych decyzji. Google Cloud Platform (GCP) oferuje potężne narzędzia, takie jak Apache Airflow i BigQuery, usprawniające procesy przetwarzania danych. W tym przewodniku zbadamy, jak wykorzystać te narzędzia do tworzenia solidnych i skalowalnych potoków danych. Konfiguracja Apache Airflow […]

Przełamywanie silosów danych dzięki ujednoliconej hurtowni danych: CDP oparty na Apache Doris

Problem silosów danych jest jak artretyzm dla firm internetowych, ponieważ prawie wszyscy go doświadczają wraz z wiekiem. Firmy wchodzą w interakcje z klientami za pośrednictwem stron internetowych, aplikacji mobilnych, stron H5 i urządzeń końcowych. Z tego czy innego powodu trudno jest zintegrować dane ze wszystkich tych źródeł. Dane pozostają tam, gdzie są i nie mogą […]

Rozwiązanie do zwalczania nadużyć finansowych oparte na hurtowni danych Apache Doris

Zapobieganie oszustwom finansowym to wyścig z czasem. Pod względem implementacji w dużej mierze zależy od mocy przetwarzania danych, zwłaszcza w przypadku dużych zbiorów danych. Dzisiaj podzielę się z Państwem przypadkiem użycia banku detalicznego z ponad 650 milionami klientów indywidualnych. Porównali oni komponenty analityczne, w tym Apache Doris, ClickHouse, Greenplum, Cassandra i Kylin. Po pięciu rundach […]

Zarządzanie dryfem danych za pomocą Apache Kafka® Connect i rejestru schematów

Proszę rozważyć scenariusz, w którym fragment danych jest modyfikowany u źródła – jakie ma to konsekwencje dla innych systemów zależnych od niego? Jak przekazać niezbędne zmiany interesariuszom? I odwrotnie, jak zapobiegać zmianom, które mogłyby zakłócić działanie systemu? Posiadanie solidnego planu zarządzania dryfem danych jest niezbędne. Firmy potrzebują systemów danych, które działają płynnie i pozostają spójne, […]

Dlaczego Apache Kafka i Apache Flink dobrze ze sobą współpracują, aby usprawnić analizę danych w czasie rzeczywistym?

Gdy dane są analizowane i przetwarzane w czasie rzeczywistym, mogą przynieść wgląd i przydatne informacje natychmiast lub z bardzo niewielkim opóźnieniem od momentu ich zebrania. Zdolność do gromadzenia, obsługi i przechowywania danych generowanych przez użytkowników w czasie rzeczywistym ma kluczowe znaczenie dla wielu aplikacji w dzisiejszym środowisku opartym na danych. Istnieją różne sposoby na podkreślenie […]

Jak tworzyć – i konfigurować – konsumentów Apache Kafka

Apache Kafka’s przetwarzanie danych w czasie rzeczywistym opiera się na konsumentach Kafki (więcej informacji tutaj), które odczytują wiadomości w ramach swojej infrastruktury. Producenci publikują wiadomości do Tematy Kafka, a konsumenci – często należący do grupy konsumentów – subskrybują te tematy w celu odbierania wiadomości w czasie rzeczywistym. Konsument śledzi swoją pozycję w kolejce za pomocą […]