Php iconv() - lista obsługiwanych nazw kodowań


(Pj) #1

Piszę funkcje do bota, która ma pobrać kodowanie źródła RSS i zapisać je w bazie.

Problem polega na tym, że zdarzają się źródła z błędami w kodzie i wyciągnięte z pliku informacje o kodowaniu są błędne, a podanie błędnej nazwy kodowania wejściowego w funkcji iconv() podczas zasysania treści, przerywa jej działanie

Chciałbym zminimalizować możliwość wystąpienia takiej sytuacji ale do tego potrzebuje pełną listę nazw kodowań jaką obsługuje inconv() najlepiej w postać tablicy :slight_smile:

Niestety na stronie biblioteki http://www.gnu.org/software/libiconv/ nie ma wszystkich nazw kodowań jakie występują na stronach www i w źródłach RSS :frowning: np windows-xxxx


(kalamita) #2

Poczytaj tutaj:

http://www.w3.org/International/tutoria ... -char-enc/


(Damgora) #3

http://pl.wikipedia.org/wiki/Windows-1250 -pierwsza linijka ("znane także jako(...)") :wink:

poza tym pytasz o wszystkie kodowania świata czy o te obsługiwane przez iconv?


(Pj) #4

Dokładnie to potrzebuje pełną listę nazw kodowań jakie mogą wystąpić w dokumentach xml i są jednocześnie obsługiwane przez funkcję iconv()

tymczasowo stworzyłem poniższą tablice

$accepted_encoding = array('iso-2022-jp','windows-1250','windows-1251','windows-1252','windows-1253','windows-1254','windows-1255','windows-1256','windows-1257','windows-1258','utf-8','utf-16','us-ascii','iso-8859-1','iso-8859-2','iso-8859-3','iso-8859-4','iso-8859-5','iso-8859-6','iso-8859-7','iso-8859-8','iso-8859-9','iso-8859-10','iso-8859-11','iso-8859-13','iso-8859-14','iso-8859-15','iso-8859-16','euc-kr','euc-tw','euc-cn','euc-jp','koi8-u','koi8-r');

o czym zapomniałem ? :smiley: