SMS UCS2 | Encodage UCS2, SMS international ISO/CEI 10646 – Unicode

Envoyer des SMS UCS2

Envoyer des SMS avec des caractères accentués

Qu’est-ce que le SMS UCS-2 ?

SMS UCS2 – (Universal Character Set) : C’est une forme de codage universel des caractères se référant à Unicode, qui permet d’échanger des messages SMS entre différentes langues, intégrant les caractères latins et orientaux, c’est la norme la plus utilisée dans les GSM (deux bytes par caractère), pour échanger des messages SMS, qu’ils soient normaux 160 caractères, étendus plusieurs SMS ou bien encodés à 70 caractères, comme utilisé pour les SMS en cyrillique.

Le développement des échanges et la nécessité de pouvoir communiquer en multi langues avec leurs différences et leurs particularités (japonais, chinois, arabe, cyrillique, latin) au niveau mondial, a fait que des standards ont dû être développés. Unicode est un de ceux-là, et il est lié à la norme ISO 10646. La dernière version connue d’Unicode est la 7.0, qui a été publiée en juin 2014.

Sans vouloir entrer dans les détails, ni différencier les Normes des Standards, il convenait de trouver la solution pour pouvoir écrire (et échanger) dans toutes les langues, en respectant les affichages et le sens de l’écriture (gauche-droite) écriture pour l’hébreu et l’arabe et la  conventionnelle, (droite-gauche), un peu plus utilisée dans tous les pays, et ce dans le but de se rapprocher un peu plus des langues réelles, et respecter ainsi la sémantique et les hétérogénéité de langues traitées.

Mais là aussi, les termes en anglais ont pris le pas, sur les termes en français, mais il convient de savoir que l’UCS   (Universal Character Set), n’est ni plus ni moins que le JUC (Jeu universel de Caractères) et que depuis 1991, un Consortium Unicode s’est créé et collabore avec l’ISO, pour développer le Standard Unicode, dont le nom officiel est ISO/CEI 10646.

La diversité des codes et langages a fait que 4 sous-standards ont été développés

Envoi SMS UCS-2,           Deux  octets pour chaque caractère

Envoi SMS UCS-4,           Quatre octets pour chaque caractère. Nota UCS-4 et UTF-32, sont identiques.

Envoi SMS UTF-8,           Semble être la plus populaire.

Envoi SMS UTF-16,         C’est une extension de l’UCS-2, mais qui peut représenter 11.144.112 caractères Unicode, mais les 65.536 premiers caractères sont représentés par deux octets et tous les suivants par 4

Envoi SMS UTF-32,         C’est idem à UCS-4

Un octet pour les caractères ASCI, deux octets pour 1920 caractères (latin, grec, copte, cyrillique, hébreu). Trois octets pour le chinois et le japonais. Pour tous les autres caractères restants (plus de 2000 millions), ils seront encodés en utilisant 4, 5 ou 6 octets.

Que l’on soit en Europe, en Amérique ou en Asie (Japon), chacun tente de tirer la couverture à soi, mais les encodages en UTF semblent tenir la corde sur les encodages en UCS, car ils pénalisent moins les documents américains et européens, nous sommes très loin, des débuts de l’ordinateur en Europe et de l’idée initiale que 96 caractères seraient suffisants pour représenter toutes les langues et usances.

Un SMS en règle générale c’est 160 caractères ou 1120 bits, codés en UCS-2, mais il ne faut ni sigles, ni caractères accentués. C’est entre autres pour ces raisons que les SMS accentués utilisent plus d’octets et de caractères que les lettres normales, c’est ainsi que pour le cyrillique, la taille des messages est ramenée à 70 caractères.

Plus d’information sur notre solution CLEVERSMS