Month: May 2024

Przewodnik po implementacji Minhash LSH: Deduplikacja

Implementacja Minhash LSH MinHash Locality Sensitive Hashing (LSH) to technika wykorzystywana do przybliżonego wyszukiwania najbliższych sąsiadów w przestrzeniach wielowymiarowych. Jest ona powszechnie stosowana w zadaniach takich jak wykrywanie bliskich duplikatów, systemy rekomendacji i grupowanie ogromnych ilości danych, podczas gdy algorytmy dokładnego najbliższego sąsiada mogą zapewnić wyższą dokładność, ale obliczeniowo są dość ciężkie i czasochłonne. Jako […]

Modele i metryki niezawodności dla inżynierii testów

Zespoły techniczne dokładają wszelkich starań, aby opracować niesamowite oprogramowanie. Spędzają niezliczone godziny na kodowaniu, testowaniu i dopracowywaniu każdego najmniejszego szczegółu. Jednak nawet najbardziej starannie opracowane systemy mogą napotkać problemy na swojej drodze. W tym miejscu do gry wkraczają modele i wskaźniki niezawodności. Pomagają nam one identyfikować potencjalne słabe punkty, przewidywać awarie i tworzyć lepsze produkty. […]

Wprowadzenie do przetwarzania strumieniowego

Uwaga wstępna: Współautorami tego artykułu są Federico Trotta oraz Karin Wolok. Wprowadzenie Przetwarzanie strumieniowe to rozproszony paradygmat obliczeniowy, który wspiera gromadzenie, przetwarzanie i analizę dużych i ciągłych strumieni danych w celu uzyskania wglądu w czasie rzeczywistym. Ponieważ żyjemy w świecie, w którym coraz więcej danych “rodzi się” jako strumienie, umożliwiając analitykom wydobywanie spostrzeżeń w czasie […]

Pliki i wyjątki w Pythonie

Praca z plikami sprawi, że Państwa programy będą szybkie podczas analizowania dużej ilości danych. Wyjątki są specjalnymi obiektami, które Python służy do zarządzania błędami występującymi podczas działania programu. W tym samouczku dowiemy się, jak pracować z plikami i obsługiwać niektóre błędy wyjątków. Wymagania wstępne Proszę posiadać podstawową wiedzę na temat języka Python. Odczyt z pliku […]