Kodeside 950 - Code page 950

Kode side 950
Sprog) Traditionelt kinesisk
Lavet af Microsoft
Strækker sig Big5
Baseret på Big5-ETen

Kodeside 950 er kodesiden, der bruges på Microsoft Windows til traditionel kinesisk . Det er Microsofts implementering af de facto standard Big5 -tegnkodning . Kodesiden er ikke registreret hos IANA , og derfor er det ikke en standard at kommunikere oplysninger over internettet, selvom det normalt er mærket som big5, herunder af Microsoft -biblioteksfunktioner.

Terminologi og varianter

Den største forskel mellem Windows-kodeside 950 og "almindelig" (ikke-leverandørspecifik) Big5 er inkorporering af en delmængde af ETEN- udvidelserne til Big5 ved 0x F9D6 til 0xF9FE (omfattende de syv kinesiske tegn碁, 銹, 裏, 墻, 恒, 粧 og 嫺, efterfulgt af 34 bokstegningstegn og blokelementer ). De områder, der bruges af nogle af de andre ETEN-udvidede tegn, defineres i stedet som slutbrugerdefinerede (private brug) tegn .

IBMs implementering af CCSID 950 er en smule anderledes, og inkorporerer nogle af ETEN -udvidelserne til leadbytes 0xA3, 0xC6, 0xC7 og 0xC8, mens de udelades med leadbyte 0xF9 (som Microsoft inkluderer), og i stedet kortlægger dem til det private brugsområde som bruger -definerede tegn.

Microsoft opdaterede deres version af kodeside 950 i 2000 og tilføjede eurotegnet (€) ved dobbeltbyte-koden 0xA3E1. IBM refererer til euro- tegnopdateringen som CCSID 1370 (som omfatter både enkeltbyte (0x80) og dobbeltbyte euroskilte) eller CCSID 1373 (som kun inkluderer et eurobokstegn med dobbeltbyte). Kodeside 1373 matcher Microsofts adfærd, hvor ETEN -udvidelser er inkluderet.

CCSID 950 omfatter enkel byte kodeside 1114 (CCSID 1114) og dobbeltbyte kodeside 947 (CCSID 947), hvorimod eurotegnet udvidet CCSID 1370 omfatter enkeltbyte kodeside 1114 (CCSID 5210) og dobbeltbyte kodeside 947 (CCSID 21427) .

Enkelt byte koder

Følgende er de enkeltbyte grafiske tegn, der er inkluderet af IBM. Koderne 0x00 selvom 0x1F og 0x7F kan i stedet bruges til C0 -kontrolkoder afhængigt af kontekst (sammenlign kodeside 437 , kodeside 897 ). Som nævnt ovenfor er enkeltbyte-eurotegnet på 0x80 ikke inkluderet i IBM CCSIDs 950 eller 1373 eller Microsoft.

Kode side 1114
_0 _1 _2 _3 _4 _5 _6 _7 _8 _9 _EN _B _C _D _E _F
0_
 

263A

263B

2665

2666

2663

2660

2022

25D8

25CB

25D9

2642

2640

266A

266B

263C
1_
25BA

25C4

2195

203C

00B6
§
00A7

25AC

21A8

2191

2193

2192

2190

221F

2194

25B2

25BC
2_ SP
0020
!
0021
"
0022
#
0023
$
0024
%
0025
&
0026
'
0027
(
0028
)
0029
*
002A
+
002B
,
002C
-
002D
.
002E
/
002F
3_ 0
0030
1
0031
2
0032
3
0033
4
0034
5
0035
6
0036
7
0037
8
0038
9
0039
:
003A
;
003B
<
003C
=
003D
>
003E
?
003F
4_ @
0040
A
0041
B
0042
C
0043
D
0044
E
0045
F
0046
G
0047
H
0048
Jeg
0049
J
004A
K
004B
L
004C
M
004D
N
004E
O
004F
5_ P
0050
Q
0051
R
0052
S
0053
T
0054
U
0055
V
0056
W
0057
X
0058
Y
0059
Z
005A
[
005B
\
005C
]
005D
^
005E
_
005F
6_ '
0060
en
0061
b
0062
c
0063
d
0064
e
0065
f
0066
g
0067
t
0068
i
0069
j
006A
k
006B
l
006C
m
006D
n
006E
o
006F
7_ s
0070
q
0071
r
0072
s
0073
t
0074
u
0075
v
0076
w
0077
x
0078
y
0079
z
007A
{
007B
|
007C
}
007D
~
007E

2302
8_
20AC

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

  Brev  Nummer  Tegnsætning  Symbol  Andet  Udefineret

Resten er dele af en dobbelte bytesekvens.

Anvendelse af privat brugsområde

Kortlægning fra Big5 EUDC til PUA kodepunkter
Big5 rækkevidde Unicode -område Formel
81 40–8D FE U+EEB8 – U+F6B0 0xeeb8 + (157 * (H-0x81)) + (L<0x80)?(L-0x40):(L-0x62)
8E 40 – A0 FE U+E311 – U+EEB7 0xe311 + (157 * (H-0x8e)) + (L<0x80)?(L-0x40):(L-0x62)
C6 A1 – C8 FE U+F6B1 – U+F848 0xf672 + (157 * (H-0xc6)) + (L<0x80)?(L-0x40):(L-0x62)
FA 40 – FE FE U+E000 – U+E310 0xe000 + (157 * (H-0xfa)) + (L<0x80)?(L-0x40):(L-0x62)

Denne kortlægning bruges også i HKSCS, hvor en given glyph endnu ikke findes i den angivne Unicode -revision .

Se også

  • LMBCS-18
  • Kodeside 951 , et Microsoft-hack til udskiftning af cp950 med en HKSCS-aktiveret version på Windows XP

Referencer

  1. ^ "Tegnsæt" . IANA - protokolregistre .
  2. ^ "Encoding.WindowsCodePage Property - .NET Framework (nuværende version)" . MSDN . Microsoft.
  3. ^ a b c d Zhu, HF .; Hu, DY .; Wang, ZG .; Kao, TC .; Chang, WCH .; Crispin, M. (1996). "Kinesisk tegnkodning til internetbeskeder" . Anmodninger om kommentarer . IETF . doi : 10.17487/rfc1922 . RFC 1922.
  4. ^ a b "CCSID 950 informationsdokument" . Arkiveret fra originalen 2014-12-02.
  5. ^ "Lead byte A3: ibm-950_P110-1999" . ICU -demonstration - Converter Explorer . Internationale komponenter til Unicode .
  6. ^ "Lead byte C6: ibm-950_P110-1999" . ICU -demonstration - Converter Explorer . Internationale komponenter til Unicode .
  7. ^ "Lead byte C7: ibm-950_P110-1999" . ICU -demonstration - Converter Explorer . Internationale komponenter til Unicode .
  8. ^ "Lead byte C8: ibm-950_P110-1999" . ICU -demonstration - Converter Explorer . Internationale komponenter til Unicode .
  9. ^ "Lead byte F9: ibm-950_P110-1999" . ICU -demonstration - Converter Explorer . Internationale komponenter til Unicode .
  10. ^ a b "CCSID 1370 informationsdokument" . Arkiveret fra originalen 2016-03-27.
  11. ^ "ibm-1373_P100-2002" . ICU -demonstration - Converter Explorer . Internationale komponenter til Unicode .
  12. ^ "Lead byte A3: ibm-1373_P100-2002" . ICU -demonstration - Converter Explorer . Internationale komponenter til Unicode .
  13. ^ "Lead byte C6: ibm-1373_P100-2002" . ICU -demonstration - Converter Explorer . Internationale komponenter til Unicode .
  14. ^ "Lead byte C7: ibm-1373_P100-2002" . ICU -demonstration - Converter Explorer . Internationale komponenter til Unicode .
  15. ^ "Lead byte C8: ibm-1373_P100-2002" . ICU -demonstration - Converter Explorer . Internationale komponenter til Unicode .
  16. ^ "Lead byte F9: ibm-1373_P100-2002" . ICU -demonstration - Converter Explorer . Internationale komponenter til Unicode .
  17. ^ "CCSID 1114 informationsdokument" . Arkiveret fra originalen 2016-03-27.
  18. ^ "CCSID 947 informationsdokument" . Arkiveret fra originalen 2014-12-01.
  19. ^ "CCSID 5210 informationsdokument" . Arkiveret fra originalen 2014-11-29.
  20. ^ "CCSID 21427 informationsdokument" . Arkiveret fra originalen 2016-03-27.
  21. ^ Kodeside CPGID 01114 (pdf) (PDF) , IBM
  22. ^ Kodeside CPGID 01114 (txt) , IBM
  23. ^ "Windows Best Fit Chart: CP950" . unicode.org . Hentet 13. september 2016 .
  24. ^ "Big5" . Kanji Database . Hentet 13. september 2016 .
  25. ^ "Big5-HKSCS: 2008" . Arkiveret fra originalen 2016-09-13.

eksterne links