Czy zapisanie pliku tekstowego jak UTF-8 zapisuje "FULL UNICODE & special chars"?

Czy zapisanie pliku tekstowego jak UTF-8 zapisuje “FULL UNICODE & special chars” ?

 

Jeśli nie to w jakim kodowaniu można zapisać wszystkie Unicode(np. rosyjskie litery azjatyckie, norweskie itp. i “specjalne znaki” ?

UTF-8/UTF-16/UTF-32 to tylko system kodowania i każdy z nich pozwala na zapis wszystkich znaków ze standardu Unicode.

Dlatego UTF-8 wystarczy w zupełności.

 

Jakieś wątpliwości?

Chyba nie zadałeś sobie wysiłku poszukać ani samemu sprawdzić.

a dajmy na to zwykły notatnik zawiera UTF-8  i Big endian? skoro UTF-8 zapisuje wszystko to po co ten Big endian?

 

albo

UTF-8 LE

UTF-8 BE

Czy naprawdę tak trudno otworzyć notatnik i sprawdzić, tak trudno kliknąć “Zapisz jako” i zajrzeć w dostępne opcje kodowania?

Czy naprawdę tak trudno wygooglać Big endian?

http://pl.wikipedia.org/wiki/Kolejno%C5%9B%C4%87_bajt%C3%B3w

http://en.wikipedia.org/wiki/Endianness

scripter1 - ok… To dlaczego gdy zapisze jako UTF-8 … pokazuje “krzaczki” lub [][][][][][][][][][][][][][][] ? ? ?

Ale może trochę więcej szczegółów.

Masz w systemie zainstalowane odpowiednie czcionki?

Np. aby poprawnie wyświetlać znaki japońskie w windowsie trzeba w ustawieniach językowych zainstalować czcionki azjatyckie.

scripter1 - dajmy na to, że mam zainstalowane ale w Windows 7 żle pokazuje ID TAG utworów mp3… Nazwa PLIKU  unicode JEST DOBRA… ale tytuł, artysta itp… to już nie (wystepują krzaczki)

  1. Kodowanie kodowaniem, możesz mieć 500x rodzajów…

  2. Masz mieć czcionki które obsługują ten typ kodowania bo inaczej będą krzaki (program ma mieć ustawione, że to tą czcionką ma być wyświetlane).

  3. Po co tyle rodzajów kodowania ? W super skrócie bo jak tekst ma kilka milionów linii to przy kompresji itp robi to różnicę.

 

Tu masz łopatologię czemu i po co:

http://www.unicode.org/faq/utf_bom.html

 

 

Bo pisane było ichniejszą czcionką, a wcale nie jest powiedziane, że ludek miał to w jakimś UTF… mógł to pisać w ich regionalnym np iso-331 (może być zgodne z utf ale nie musi).

Wredotka - No właśnie dlatego poruszyłem ten wątek…z UTF-8.

Jak napisałem w poprzednim poście , mam zainstalowany Chiński tradycyjny ale to i tak nie zmienia nazwy w TAGACH wyświetlane np. w Exploratorze lub innym menedżerze plików, ewentualnie w odtwarzaczach…

 

Niektóre krzaki można “naprawić” ale trzeba znać kodowanie i użyć jakieś programu albo scryptu…

ale nie da się niektórych - w 100% poprawnie ponieważ kodowanie w tekscie może być MIESZANE-jedno naprawi, drugie popsuje(pozmienia) , zawierac chiński tradycyjny, chiński uproszczony, japoński(NIE!) i tak zwane specjalne znaki…

Nie jestem pewien ale wydaje mi się że chyba nie masz zainstalowanych czcionek a jedynie język Chiński.

W windowsie czcionki wschodnioazjatyckie instaluje się dodatkową opcją i nie są one rozdzielone na chińskie, japońskie itp. tylko ogólnie jako wschodnioazjatyckie.

asiaLanguages.gif

Ja mam Windows 7 i nie mam takiego okna.

https://pl.wikipedia.org/wiki/Pomoc:Wyświetlanie_czcionek_azjatyckich#Windows_Vista.2C_7_i_8

Czyli nic nie musisz instalować.

 

Problem taki, że nie wiemy na jakim systemie te pliki powstały, może do być starsza wersja windows, np 98 a ten korzystał wtedy jeszcze ze stantartów kodowania iso, ale wcale nie powiedziane, że to był windows.

 

Aby wyjaśnić jak to może być duży problem, to polskich rodzajów kodowania znaków jest 29! Fakt niektóre są archaiczne i nie spotykane. Najczęściej można spotkać Latin 2 i mazovia.

 

Teraz pomyślmy ile tego powstało w chinach skoro mają w użyciu z 5 wersji alfabetu, a dodatkowo odmiany regionalne.

 

Nie dosyć, że trzeba wyczaić jak kodowane to trzeba mieć czcionkę która to prawidłowo wyświetli.

 

Z lekka syzyfowa praca.

 

Chiński uproszczony GB2312, GBK, EUC-CN, ISO-2022-CN, HZ SimSun Chiński tradycyjny BIG5, EUC-TW, ISO-2022-TW MingLiU

 

Zawsze można podpatrywać źródła ich stron www jakie mają kodowanie i od nich wziąć czcionkę.