Hiperskalowy NAS i ulepszenia globalnego środowiska danych upraszczają obliczenia rozproszone

Hammerspace, definiowany programowo, kontrola danych w wielu chmurach niedawno ogłosił znaczące ulepszenia w swoich ofertach Hyperscale NAS i Global Data Environment, mające na celu uproszczenie zarządzania danymi dla obliczeń rozproszonych. Nowe możliwości obejmują optymalizacje wydajności, interfejs S3 i wysokowydajne kodowanie wymazywania.

Dla programistów, inżynierów i architektów zmagających się z efektywnym zarządzaniem i przenoszeniem danych między silosami w celu zasilania szkoleń AI/ML i innych obciążeń obliczeniowych, Hammerspace stanowi atrakcyjne rozwiązanie. Jak wyjaśniła Molly Presley, SVP Marketing w Hammerspace podczas 54. IT Press TourIch celem jest “radykalna poprawa sposobu wykorzystywania danych” poprzez przejście od “danych w spoczynku odizolowanych w pamięci masowej” do “danych w ruchu w globalnym środowisku danych”.

Hyperscale NAS: wydajność i prostota

Jednym z kluczowych wyzwań stawianych przez Hammerspace jest zapewnienie wydajności potrzebnej do szkolenia modeli AI/ML i innych obciążeń intensywnie wykorzystujących GPU, przy jednoczesnym zachowaniu prostoty standardowych interfejsów NAS. Jak zauważył Presley, “modele wymagają standardowego interfejsu danych NFS”, ale “istniejąca pamięć NAS i obiektowa pamięć masowa nie zostały zaprojektowane z myślą o dużej wydajności obliczeniowej”.

Hyperscale NAS firmy Hammerspace rozwiązuje ten problem, łącząc wydajność równoległych systemów plików klasy HPC z prostotą i funkcjami korporacyjnymi skalowalnego NAS. “Architektury Hyperscale NAS zapewniają wydajność i efektywność, której nie powstydziłaby się ogromna organizacja internetowa lub hiperskalowa. [needs], ale nawet w małej skali wydajność jest taka sama” – powiedział Presley.

Umożliwia to liniową skalowalność w miarę rozwoju systemu. “W przypadku równoległych systemów plików, co jest prawdą w przypadku Lustre, prawdopodobnie OneFS, GPFS z pewnością, można skalować bardzo liniowo, dzięki czemu można uzyskać korzyści płynące z możliwości połączenia się z przedsiębiorstwem z prostotą NAS, ale ze wszystkimi zaletami systemu plików HPC”.

Wdrożenia w świecie rzeczywistym pokazały moc Hyperscale NAS. Jeden z klientów działających w skali sieciowej wykorzystuje go do zasilania 34 000 procesorów graficznych na potrzeby szkolenia w zakresie sztucznej inteligencji, a wkrótce skaluje go do 1 miliona procesorów graficznych. Zapewnia on łączną wydajność na poziomie 12,5 TB/s, wzrastającą do 100 TB/s – a wszystko to przy użyciu opartej na standardach infrastruktury typu plug-and-play.

Globalne środowisko danych ujednolica silosowe dane

Drugi główny obszar problemowy Hammerspace cele to silosy danych które utrudniają efektywne udostępnianie danych w różnych lokalizacjach i chmurach. Ich globalne środowisko danych tworzy ujednoliconą przestrzeń nazw we wszystkich pamięciach masowych, umożliwiając przejrzysty przepływ danych i dostęp do nich.

“Hammerspace wirtualizuje podstawową infrastrukturę pamięci masowej. Wszyscy autoryzowani użytkownicy i aplikacje mogą uzyskać dostęp do tych samych danych lokalnie z dowolnego miejsca” – wyjaśnia Presley. Eliminuje to potrzebę skomplikowanych migracji i kopiowania danych.

Na zapleczu Hammerspace obsługuje dowolny typ pamięci masowej, od NAS, przez obiektową pamięć masową, po chmurę. Interfejs zapewnia standardowe protokoły dostępu, takie jak NFS, SMB, a teraz także S3. Pozwala to aplikacjom na dostęp do danych bez modyfikacji przy jednoczesnym czerpaniu korzyści z globalnego środowiska danych.

“[Customers] stronniczości dla konkretnych potrzeb. Ale z czasem dodają więcej obciążeń i przenoszą wszystkie swoje dane do jednego globalnego środowiska danych” – powiedział Presley. “Teraz wszystkie te aplikacje S3 mogą wchodzić z nami w interakcje bez żadnych ograniczeń dotyczących wzorców danych, które będą miały”.

Wbudowane wysokowydajne kodowanie wymazywania danych w węzłach pamięci masowej dostarczonych przez Hammerspace zapewnia skuteczną ochronę danych bez poświęcania wydajności. “Szybkość naprawdę była [the] szczytem, który przykuł naszą uwagę, ale wiele zależy od odporności” – zauważył Presley. “Zdolność do przetrwania wielu awarii i samoleczenia oraz dalszego zapewniania wydajności i nie tracenia wydajności w trakcie tego procesu jest tym, co sprawiło, że jest to dla nas tak atrakcyjne”.

Uproszczenie zarządzania danymi w całym cyklu życia

Dla inżynierów i architektów wszystko to składa się na znacznie uproszczone zarządzanie cyklem życia danych. Dane generowane w dowolnym systemie pamięci masowej lub chmurze mogą być łatwo wprowadzane do globalnego środowiska danych i udostępniane wszędzie tam, gdzie są potrzebne, bez konieczności migracji lub kopiowania. Zautomatyzowana orkiestracja i zasady umieszczania zapewniają, że dane są zawsze we właściwym miejscu i czasie.

Usprawnia to typowe przepływy pracy, takie jak wykorzystanie sztucznej inteligencji do przetwarzania danych pochodzących z lokalizacji brzegowych lub urządzeń IoT i umożliwia zdalnym użytkownikom dostęp w czasie rzeczywistym do dużych zbiorów danych. Dane są automatycznie umieszczane w pobliżu zasobów GPU, gdy są potrzebne do szkolenia, a w stanie uśpienia są przenoszone do ekonomicznej pamięci masowej i chronione za pomocą kodowania wymazywania.

Wpływ tego modelu został dobrze podsumowany przez Presleya: “Kiedy wyobrażą sobie Państwo, że mają dużą pojemność w szczególności w HPC, historycznie nie wykonywali kopii zapasowych danych, ponieważ po prostu nie mogą sobie pozwolić na posiadanie dwóch kopii 200 petabajtów lub cokolwiek to jest. Będą więc mieć jedną kopię. My natomiast zamiast udostępniać plik na innym węźle, przenosimy go na ten węzeł. Nie przechowujemy kopii danych. W rzeczywistości dane są umieszczane w nowym miejscu, a następnie nadal mają Państwo tylko jeden złoty zestaw danych”.

Patrząc w przyszłość

Aktualizacje Hyperscale NAS i Global Data Environment firmy Hammerspace stanowią duży krok naprzód w upraszczaniu rozproszonych środowisk danych. Dzięki akceleracji GPU obliczeniowych a wdrożenia wielochmurowe stają się normą, zdolność do efektywnego zarządzania danymi w tych środowiskach ma kluczowe znaczenie.

Programiści mogą skupić się na swoich aplikacjach i modelach, pozostawiając zawiłości rozproszonego zarządzania danymi orkiestracji danych Hammerspace. Inżynierowie i architekci infrastruktury zyskują potężną i elastyczną platformę do ujednolicania silosów danych i umieszczania danych tam, gdzie są potrzebne dla każdego obciążenia – wszystko bez poświęcania wydajności lub niezawodności przedsiębiorstwa. Możliwości te staną się jeszcze bardziej istotne wraz ze wzrostem wielkości i dystrybucji zbiorów danych.