Vmaware ESXi

LOL mam już doświadczenie wieloletnie w pracy z wysilonymi serwerami gdzie 24/h korzysta kilka tyś użytkowników jednocześnie.I wszystko musi obsłużyć 1 duzy serwer bo nie ma możliwośći reduntancji.I jak pare lat sie popracuje na takim środowisku to póżniej sie w miare ogarnia temat.

Jak się pare lat popracuje, to zaczyna się widzieć problem, jak następuje fizyczne uszkodzenie danego serwera. Z ciekawości, czemu nie ma u Ciebie możliwości redundancji?

Bo reduntancja sie opiera na replikacji to oznacza że jeśłi 1 strona ma podatność na atak to każda następna też.Juz lepiej niech ta jedna strona padnie niż ma być podtrzymywana sztucznie to jest raj dla hakerów i koszmar dla admina bo nie wie czy jest dobrze czy jest już po ptokach.A tak jak dostaje alarmy że tu mi coś działało i przestało to przynajmniej wie o której godzinie.

A jak to się ma do tematu, tj. jak np. chcesz w serwerze dodać fizycznej pamięci (RAM), czy jest awaria sprzętowa? Albo chcesz zaktualizować firmware/UEFI (względy bezpieczeństwa) przy zachowaniu włączonej maszyny? Gdzie ją wtedy przenosisz?

Bierze sie dużo wiekszy serwer niż to wynika z potrzeb np. jak mi coś będzie wykorzystywało z 8 GB RAM wtedy biore serwer 64 GB RAM i to powoduje że taki serwer 99% czasu chodzi na lajcie a ataki są mu mało grożne.A jak padnie to będzie sie od razu miało powiadomienia bo każdy coś tam napisze że panie idz pan z tym w ch*j nie działa mi to.

No i jak padnie… uszkodzi się serwer/płyta jak postępujesz?

Wtedy pisze że spokojnie nastąpiła awaria serwerowni i wszystko będzie przywrócone w ileś tam godzin przeważnie 24 ale przeważnie to zajmuje z 3-4 h max

… ale to nie jest na temat - kolega poszukuje wysokodostępnych maszyn wirtualnych. To, że masz możliwość mieć wyłączone środowisko przez 24h. Przestaje Ci np. działać 50 maszyn wirtualnych na serwerze, nie można sobie pozwolić na tak długie zatrzymanie usługi - często nawet jedna maszyna wirtualna kładzie jakąś firmę. Przy SLA 99,999% masz po 5-6 minut (w skali roku) nieplanowanej niedostępności.
Inna to w sumie nie wiem co masz za kontrakt gwarancyjncy, że w 3-4h masz działający sprzęt, takie umowy serwisowe kosztują majątek…

No może troche tak ja jako admin sie rozpiłem ,zarabiająć po 40k /msc po pewnym czasie mimo bardzo dobrej roboty zauważyli że coraz więcej pije ale ratowałem dość dziwne sytuacje tak jak rozpadniete bazy danych itd więc to że sie napiłem nie znaczy że od razu żle coś zrobiłem.

Jeśli masz macierz to Hyper-V Failover Cluster (może jeden Dell R720 mógłbym robić za macierz?).
Jeśli nie, to Hyper-V Replica.

Widzę że moim tematem rozpętałem tu duża burze. Dziękuje za zainteresowanie.
Podsumowując ja uważam i widzę że większość również, że w przypadku gdy firma wymaga dostępności usługi 24/7 reduntancja na dwóch niezależnych fizycznych serwerach jest niezbędna i żaden backup tego nie zastąpi. To tak jakbyśmy mówili że RAID 1 jest bez sensu bo można robić backupy a potem przywracać, jasne że można… ale to nieraz są cenne minuty i godziny których nie warto tracić.
Wracając do tematu z waszej wypowiedzi widzę że najprostrzym sposobem będzie Hyper-V, czyli jak rozumiem postawić gospodarza WS 2016, na nim hyper-v i w nim te 2x Windows , i Linux ???
Rozumiem ze rozwiazanie VMware nie ma tutaj większego sensu, wgl macie jakieś doświadczenia z WS i VMware czy też na nim spokojnie można uruchomić kilka systemów WS z funkcjami domeny, dhcp, sql itd… i będzie to współgrać tak samo dobrze jak na hyper-v od microsofta ? . Kolejna sprawa jak w taki przypadku zrobić klastry na hyper-v między dwoma maszynami jakiś tutorial może macie żeby podrzucić?

1 polubienie

Jeśli administrator to nie wie, że mu jakikolwiek serwer padł, to nie jest to administrator, a administrant co najwyżej.

Czyli stoisz w miejscu, a to oznacza, że się cofasz. To powoduje, że boisz się rozwiązań, które wykraczają poza Twoją wiedzę i doswiadczenie. Ja bym się znudził w takiej robocie, gdybym przez wiele lat miał pracować na jednym środowisku nierozwijanym od lat.

Darmowy VMWare ma ograniczenia, a po co się ograniczać, skoro Microsoft za darmo udostępnia swój hyperwizor.

Tutoriali jest pełno na necie. Samo postawienie klastra nie powinno stanowić jakiegoś wyczunu. Więcej czasu trzeba poświęcić na przemyślenie tego i zaprojektowanie, tak abyś to zrobił raz i zapomniał. Potem tylko jakiś system monitoringu pilnuje, aby wszystko banglało, abyś mógł spokojnie pić sobie, kawę herbatę, co tam wolisz, a weekendy wolne od telefonów z pracy :wink:

No właśnie “nie”. Korpa, które obsługuję płacą za disaster recovery site, które obsłużą 100% obciążenia bo zwyczajnie obciążenie, które generują przynosi kasę. Utarg musi być policzony, ryzyka inwestycyjne też. Tak samo symulacje muszą być wykonane i raporty wygenerowane i wysłane czy to do oddziałów czy do knf. Nie ma bata żeby ktoś zaoszczędził “materac” zielonych i naraził się na samowykopanie z lukratywnego rynku gdzie koszt IT w porównaniu do obsługi aktywów i kosztów stałych jest wręcz pomijany.

Tak może robiło się 20 lat temu. Dziś, gdy firma zarbia w ciągu godziny 40k netto bez problemu wyda 40k na jeden serwer, byle było wydajnie, stabilnie i działało 24/7/365.

W takich firmach awaria nawet na 20 sekund nie ma prawa wystąpić, bo to może spowodować godzinę postoju firmy, czyli 40k w plecy za każdą godzinę.

Nie wspominam nawet o core switchach światłowodowych za 100k netto, ktore też trzeba mieć w redundacji.

Dla firmy, która zarabia kilkaset tysiecy w miesiacu, koszty IT to grosze, bo są większe wydatki, czesto wielomilionowe, np. maszyny produkcyjne, więc 100 czy 200k za serwer przy maszynie za 25 milionów nie robi na nikim wrażenia.

Na poziomie ogólnie znannej wirtualizacji (nie mówię tu o Solarisach itd.) typu Hyper-V, czy inny VMWare nie utrzymuje się SLA ~100% (mowa o awarii/niedostępności DC). Technologie typu FT (Fault Tolerance) są mimo wszystko kłopotliwe w utrzymaniu, dodatkowo mają zbyt spore wymagania. Najważniejsze to klastrować na poziomie aplikacji. Główne założenie DR danego DC jest takie, że możemy to oczywiście zrobić w skończonym krótkim czasie, ale w tym czasie produkcja utrzymywana jest na klastrze aplikacyjnym.

Raczej nikt nie jest w stanie zapewnić SLA na poziomie 100%,ale utrzymanie SLA na poziomie 99,999% wymaga poświęceń.

Gdy raz na rok produkcja stanie na godzinę, bo serwer kleknal na 5 - 10 minut. Firma jest w stanie to przeboleć. Produkcja poza IT staje z różnych powodów i godzina postoju boli, 8h bardzo, a 2 dni jeszcze bardziej. Niekiedy to są setki tysiecy jak nie miliony w plecy zysku. O opoznieniach w dostawach i karach umownych już nawet nie wspominam.

Pracowałem trochę przy produkcji, więc wiem jak to wygląda, gdy IT padnie chociazby na 2 minuty.

Serwer jak serwer, wstaje kilka minut, bo zanim przejdzie POST, trwa kila minut, zanim wstaną uskugi to kolejne minuty, ale gdy zrestartuje się switch to taki switch czy router Cisco potrafi wstawać 5 do 10 minut, sieć jeszcze musi uzyskać zbieżność. Przy braku redundacji switchy i routerów 10 minut to czasami tragedia. Jak pisałem switche core Cisco potrafią kosztować 100k PLN za sztukę.

Podsumowując nasz temat słowo “Reduntancja” według dużych firm z sektora IT oznacza , stworzenie kilku klastrów (klastry rozumiem to jako kilka złączonych ze sobą serwerów w szafie) jako klony czyli w przypadku uszkodzenia (fizycznego, systemowego) serwera przełącza się na drugi identyczny który ma dokładnie wszystko 1:1 to samo, czy reduntacja to kilka złączonych ze sobą serwerów które działają równocześnie i współpracując ze sobą tak że wymieniają się operacjami i minimalizują obciązenie tworząc wspólną moc obliczeniową i zasobową. :smiley:

Troszkę usystematyzujmy co napisałeś.
Nie tworzymy kilku klastrów, tylko klaster spina X serwerów fizycznych (hypervisorów - ESXów). Jak uszkadza się jeden z serwerów, to w przypadku włączonej funkcji HA (High Availability) uruchomi się na innnym z serwerów w klastrze wirtualna maszyna. Musi być jednak spełnione kilka podstawowych reguł (serwery np. nie muszą być identyczne, ale np. współdzielony storage w postaci dedykowanego datastore na macierzy, lub np.VSAN). Nie uruchamiają się jako klony, tylko uruchamia się dokładnie ta sama wirtualna maszyna z tymi samymi parametrami, tym samym adresem IP/MAC, VLANami. Są oczywiście jeszcze bardziej zaawansowane opcje w postacji FT (Fault Tolerance), ale to inna bajka.

Redundancja na poziomie sprzętowym to próba wyelimonowania niedostępności usługi przy awarii pojedynczego elementu. Przykład najbardziej znany to np. macierz RAID1, RAID5 i podobne, gdzie uszkodzony jeden dysk twardy nie powoduje, że tracisz dane.
No a w wymienionym środowisku vmware:

  • serwery fizyczne mają min. dwa zasilacze, gdzie uszkodzenie jednego, lub jednego ze źródeł zasilania (zasilacze są do innych źródeł podłączone) nie powoduje, że serwer się wyłączy. Jeden zasilacz ‘uciąga’ cały serwer i on-line (przy włączonym serwerze) można wyciągnąć uszkodzony zasilacz i wsadzić nowy
  • duplikacja wszystkich kart sieciowych (jak np. trzeba z serwera podłączyć 4 sieci, to będzie to szło 8 kabelkami do osobnych fizycznych switchy w szafie. Agreguje się te karty (np. LACP) a uszkodzenie jednego ze switchy (lub np. wyłączenie dla celów instalacji nowego firmware), czy uszkodzenie jedej fizycznej karty w serwerze nie spowoduje niedostępności usług
  • jak wspomniałeś kilka serwerów fizycznych w klastrze - np. jeden potrzebujesz zaktualizować, to dajesz go w tryb serwisowy (maintenance), VM migrują się na inny serwer, Ty wtedy możesz wykonać akcje serwisowe np. wymiany zasilaczy, upgrade pamięci itd.

Jeszcze raz: w przypadku klastra ESXów (podłączonego do vcenter) nie ma ‘głównego serwera’, wszystkie (jak nie ma reguł/powinowactw) pełnią taką samą rolę (nie mówię tu o sytuacji jak jest niedostępny vcenter podczas awarii tego komponentu, ale to zupełnia inna historia).

1 polubienie