Utf-8 (rfc-3629) unicode


(Gogo 1991) #1

Witam!

Posiadam plik tekstowy w formacie UMX, który jest zakodowany, prawdopodobnie, w UTF-8 (RFC 3629). A skąd to podejrzenie o kodowanie?

Otóż, pliki UMX potrzebne są mi do pracy z oprogramowaniem służącym do generowania sprawozdań. Poprzedni plik (na rok ubiegły) też otrzymałem zakodowany, lecz serwis oprogramowania pomógł mi w przystosowaniu pliku do wgrania w program. Po rozkodowaniu przez serwis, plik w notatniku, ma ludzkie litery i można go normalnie czytać, a co najważniejsze, został poprawnie wczytany przez program. Na początku tego rozkodowanego pliku, występuje następująca sekwencja: <?xml version="1.0" encoding="UTF-8"?>. Nie jestem informatykiem i nie potrafię sobie z tym w żaden sposób poradzić. Od miesiąca już buszuję po necie, czytając o: UNICODE, UTF-8, RFC 3629 itp., lecz ni w ząb tego nie pojmuję i jestem bezsilny.

Chodzi tylko o przekształcenie posiadanego przeze mnie pliku na bieżący rok, do "ludzkiej" postaci, ze wspomnianą wcześniej sekwencją na początku, a nie z jakimiś hieroglifami, których nie rozumiem ani ja sam, ani program, który nie identyfikuje właściwie pliku.

Pewnie ktoś zapyta, czemu nie zwrócę się do serwisu oprogramowania, jak w minionym roku? Oczywiście, że próbowałem, ale niestety, serwis jeszcze przed końcem ubiegłego roku, przestał istnieć.

Proszę o pomoc. Jest to dla mnie bardzo pilne, praktycznie na poniedziałek powinienem mieć wczytany plik do programu sprawozdawczego.

Przepraszam, że tak mętnie to wszystko tłumaczę, ale nie jestem biegły w dziedzinie informatyki i opisuję tak, jak potrafię.

Czy może mi ktoś pomóc?

Pozdrawiam


([alex]) #2

Weź sobie notatnik, wpisz tam jedna literę A i zapisz jako (po kolei)

ANSI

Unicode

Utf-8

Potem obejrzyj sobie te pliki pod czymś co może czytać bajt po bajtu.

Potem spróbuj do swojego pliku s przodu przykleić odpowiedni bajt który zapisuje do pliku notatnik aby wiedzieć jaki format czyta.


(Gogo 1991) #3

Udało mi się zrobić to: Weź sobie notatnik, wpisz tam jedna literę A i zapisz jako (po kolei)

ANSI

Unicode

Utf-8

Ale tego nie rozumiem: Potem obejrzyj sobie te pliki pod czymś co może czytać bajt po bajtu.

No i tego, też nie: Potem spróbuj do swojego pliku s przodu przykleić odpowiedni bajt który zapisuje do pliku notatnik aby wiedzieć jaki format czyta.

W każdym z trzech zapisanych przeze mnie plików, po otwarciu ich w notatniku, A jest takie samo. Nie wiem, jak czytać osobno każdy bajt? :frowning:

-- Dodane 08.03.2009 (N) 11:51 --

Pomocy, czas ucieka, proszęęęę #-o


([alex]) #4

Nie sadzę aby tą prace ktoś za ciebie odwalił w ramach dobroczynności. Więc albo zrób sam używając wskazówek, albo zamów komuś wykonanie tej pracy.

Zobacz dokładne rozmiary tych plików, zrozumiesz o co chodzi.


(Sawyer47) #5

Z samego opisu to trudno pomóc, wrzuć pliki, najlepiej stary zakodowany i rozkodowany oraz nowy zakodowany, wtedy na pewno ktoś pomoże.


(Gogo 1991) #6

Rozmiar zakodowanego pliku: 8,35 KB, a rozkodowany: 197 KB. Nie są to jakieś gigantyczne wielkości. Chyba nie robi się tego ręcznie, odczytując każdy znak z tabel? Z tego, co udało mi się wyczytać z netu, rozkodowanie polega na umieszczeniu jakiejś instrukcji (polecenia) na początku pliku, ale nie potrafię tego zrealizować. Skoro ja się na tym w ogóle nie znam, proszę o pomoc mądrzejszych ode mnie w tej dziedzinie. Jeśli to aż taki problem, to przepraszam, że zawracam głowę mądrym ludziom, którzy mogą, ale nie chcą.

Pozdrawiam


(Kalin 93) #7

Czyli według Ciebie, Ci mądrzy ludzie są też jasnowidzami ?

Skąd ktokolwiek ma wiedzieć jaka jest zawartość pliku zakodowanego ?

Nikt Ci nie pomoże bo skąd mamy widzieć co trzeba rozkodować, a UTF-8 to może być kodowanie zakodowanego pliku :smiley: