Diagnostyka sieci w średniej firmie - proszę o pomoc

Witam,

jest sieć komputerowa w pewnej instytucji. Firma posiada dwie serwerownie (w tym samym budynku) połączone ze sobą światłowodem.

W skład sieci wchodzi kilkanaście switch’y 1 Gb/s (24 i 48 portowych), około 60 stacji roboczych w budynku firmy (głównie MS Win), jednocześnie podłączonych 30 klientów zdalnych (w tym samym mieście co siedziba firmy) z zestawionym tunelem openvpn oraz około 40 klientów zdalnych (na terenie województwa) z zestawionym połączeniem do serwera zdalnego pulpitu, który udostępnia aplikacje wymagane do pracy. Reasumując w ciągu dnia roboczego w firmie jest aktywnych od 100 do 130 stacji roboczych (lokalnych i zdalnych).

Firma posiada łącze światłowodowe o przepustowości: download 25 Mb/s, upload 50 Mb/s.

Podczas testu łącza (speedtest.pl, speedtest.net) przepustowość łącza waha się w zależności od serwera docelowego od 4/50 Mb/s do 10/50 Mb/s. Test był robiony podczas największego ruchu w sieci.

Obawiam się jednak, że konfiguracja swich’y zostawia wiele do życzenia. Z moich pobieżnych oględzin dochodzę do wniosku, że może być gdzieś zapętlenie. Nie było czasu na dokładne przyjrzenie się konfiguracji. To będę mógł zrobić dopiero za kilka dni. Robiłem tylko podstawową diagnostykę (ping, traceroute, netstat).

W związku z tym zwracam się do Was o pomoc.

Znacie jakieś dobre narzędzia aby ewentualnie wykryć “wąskie gardło” w tej sieci lub problematyczne węzły.

Jeśli chodzi o samo narzędzie to może być ono pod Linuksa lub Windows.

 

Z góry dziękuję

Pozdrawiam

Macie w firmie jakieś narzędzie do diagnostyki sieci? Mała podpowiedź Fluke. Jeśli podejrzewasz pętle na drugiej warstwie, spójrz w konfigurację STP. Czy ta sieć jest podzielona na warstwy?

Problem nie dotyczy mojego miejsca pracy. Zostałem poproszony przez znajomego o „rzucenie okiem” na sieć w ich firmie i ewentualne rozwiązanie ich problemu.

Takiego bałaganu w serwerowni chyba nigdy nie widziałem, a pracuję w tej branży już szmat czasu.

Dział IT nie posiada żadnej mapy sieci, żadnej rozpiski co i gdzie jest podłączone. Stacje robocze dostają adresy losowo z DHCP. Ogólnie trudno się połapać.

Szafy (6 sztuk) są obwieszone z tyłu i z przodu kłębami kabli. Zastanawiam się jak wygląda sprawa chłodzenia tych szaf, bo serwerów mają sporo, głównie NAS-y.

Najlepszą metodą byłoby zamknięcie firmy na tydzień, rozłączenie wszystkiego i ponowne podłączenie. Jednak taki wariant nie wchodzi w rachubę.

Nie mają żadnego narzędzie diagnostycznego.

Podejrzewam gdzieś pętlę, ponieważ mają problem z jednym ze switchy. Gniazdka skrosowane do jednego switcha „nie mają internetu”. Z zeznań pracowników działu IT wygląda to tak, że czasem pojawia się tam sygnał i nie wiedzą czemu. W sumie przy takim bałaganie nie dziwię się.

Testowo włączyłem STP na jednym switchu. Objaw był taki, że padła CAŁA sieć w firmie.

Po wyłączeniu wszystko wróciło do normy. Ewidentnie jest coś nie tak.

Na tzw. „dzień dobry” zaproponowałem im postawienie jakiegoś NMS-a typu Zabbix czy NetCrunch, aby choć trochę ogarnąć ten bałagan.

Przydałby się też np. Cacti, aby mieć wiedzę na temat konsumpcji łącza.

Skoro jest bałagan w sieci, to będzie na pewno ciężko. Przy wyłączonym STP, to prawdopodobieństwo pętli będzie spore. Jeśli firma nie pracuje w weekendy, to możesz spróbować ogarnąć to w weekend. Skoro nie mają urządzeń diagnostycznych, np. od Fluke choćby do diagnostyki okablowania, to pozostaje tylko rozwiązanie programowe jak właśnie Zabbix czy Nagios.

STP trzeba by było włączyć na każdym przełączniku, żeby się dogadały.

Tak swoją drogą, co robią tam ludzie od IT, skoro potrzebują człowieka z zewnątrz?

Nie wiem co robią, nie będę się wypowiadał. Aczkolwiek ta cała sytuacja woła o pomstę do nieba.

Około 1,5 godziny temu dzwoniłem do gościa, który mnie tam ściągnął.

Zaproponowałem mu własnie aby włączył STP na każdym switchu.

Po pół godzinie miałem telefon, że prawie połowa stacji roboczych nie działa plus kilka serwerów.

Siedzi dziś tam do północy więc jeszcze będzie okazja ewentualnie odkręcić sytuacje.

Jeśli nie ma tam redundacji sprzętowej i w okablowaniu, to bez STP można się obejść, ale ewidetnie nie działa to tak jak powinno. Pozostaje chyba tylko debugowanie na każdym urządzeniu i przegladanie logów i/lub monitorowanie z użyciem Zabbix lub Nagios.

Szczerze? Przy takim stanie sieci to ja bym nie wierzył w żadne dane prezentowane przez automatyczne narzędzia. Osobiście bym zaczął debugowanie od najniższej warstwy. Mam na myśli odłączanie segmentów sieci i obserwacji co się dzieje. Przede wszystkim o ile sieć działa i ludzie pracują, to nie ma co siać paniki.

 

Ja bym zaczął od sprawdzenia łącza. W nocy, przykładowo zaplanuj przerwę w dostępie i sprawdź czy na jednej stacji roboczej też są takie prędkości. Jeśli są, to masz odpowiedź -> provider. Jeśli nie, to szukaj dalej. Odłącz wszystko i podłączaj urządzenia po kolei, aż sieć zacznie wariować.

 

Posłuchaj też co się dzieje w różnych segmentach -> wireshark. Możesz także zerknąć w statystyki switchy - widać tam po resecie takie pętle jak na dłoni.

 

A jak już znajdziesz przyczynę, to warto zacząć porządkowanie -> qos, vlan, stp, proxy.

 

Powodzenia.