[java] Problem z kodowaniem polskich znaków

braciszek · 15 Sierpień 2012 21:08

Witam wszystkich,

mam następujący problem. Otóż pracuję na archaicznych plikach z rozszerzeniem dbf. Wczytywanie danych z pliku odbywa się pięknie. Problem w tym że za diabła nie mogę dojść jakie jest kodowanie ustawione. Próbowałem już kodowań dosowskich cp852 oraz cp850 a także cp1250 i wielu innych. Pytanie brzmi czy jest możliwość - po pobraniu tesktu z pliku - sprawdzić jakie jest jego kodowanie? Czy jest jakiś edytor, program który wskaże z jakiego kodowania przejść? Tutaj dodam że sytuacja może się komplikować z uwagi na fakt że mogło dojść do podwójnego przekonwertowania - tzn przykładowo z cp852 -> cp850 -> cp790 -

Będę wdzięczny za pomoc

Frankfurterium · 15 Sierpień 2012 21:47

Takie przekonwertowanie może zniszczyć informację o ogonkach, ale jeżeli to czysty tekst, możesz ręcznie go ręcznie otworzyć, i po analizie wywiedzieć się, co pozastępowało dane znaki. Potem z wiedzą, że np. dany zbitek reprezentuje “ć”, zastępować go przy wczytaniu pliku albo w locie.

W ten sposób sam prostym skrypcikiem naprawiałem skutki złej konwersji…