Kodeside 950 - Code page 950
| Sprog) | Traditionelt kinesisk |
|---|---|
| Lavet af | Microsoft |
| Strækker sig | Big5 |
| Baseret på | Big5-ETen |
Kodeside 950 er kodesiden, der bruges på Microsoft Windows til traditionel kinesisk . Det er Microsofts implementering af de facto standard Big5 -tegnkodning . Kodesiden er ikke registreret hos IANA , og derfor er det ikke en standard at kommunikere oplysninger over internettet, selvom det normalt er mærket som big5, herunder af Microsoft -biblioteksfunktioner.
Terminologi og varianter
Den største forskel mellem Windows-kodeside 950 og "almindelig" (ikke-leverandørspecifik) Big5 er inkorporering af en delmængde af ETEN- udvidelserne til Big5 ved 0x F9D6 til 0xF9FE (omfattende de syv kinesiske tegn碁, 銹, 裏, 墻, 恒, 粧 og 嫺, efterfulgt af 34 bokstegningstegn og blokelementer ). De områder, der bruges af nogle af de andre ETEN-udvidede tegn, defineres i stedet som slutbrugerdefinerede (private brug) tegn .
IBMs implementering af CCSID 950 er en smule anderledes, og inkorporerer nogle af ETEN -udvidelserne til leadbytes 0xA3, 0xC6, 0xC7 og 0xC8, mens de udelades med leadbyte 0xF9 (som Microsoft inkluderer), og i stedet kortlægger dem til det private brugsområde som bruger -definerede tegn.
Microsoft opdaterede deres version af kodeside 950 i 2000 og tilføjede eurotegnet (€) ved dobbeltbyte-koden 0xA3E1. IBM refererer til euro- tegnopdateringen som CCSID 1370 (som omfatter både enkeltbyte (0x80) og dobbeltbyte euroskilte) eller CCSID 1373 (som kun inkluderer et eurobokstegn med dobbeltbyte). Kodeside 1373 matcher Microsofts adfærd, hvor ETEN -udvidelser er inkluderet.
CCSID 950 omfatter enkel byte kodeside 1114 (CCSID 1114) og dobbeltbyte kodeside 947 (CCSID 947), hvorimod eurotegnet udvidet CCSID 1370 omfatter enkeltbyte kodeside 1114 (CCSID 5210) og dobbeltbyte kodeside 947 (CCSID 21427) .
Enkelt byte koder
Følgende er de enkeltbyte grafiske tegn, der er inkluderet af IBM. Koderne 0x00 selvom 0x1F og 0x7F kan i stedet bruges til C0 -kontrolkoder afhængigt af kontekst (sammenlign kodeside 437 , kodeside 897 ). Som nævnt ovenfor er enkeltbyte-eurotegnet på 0x80 ikke inkluderet i IBM CCSIDs 950 eller 1373 eller Microsoft.
| _0 | _1 | _2 | _3 | _4 | _5 | _6 | _7 | _8 | _9 | _EN | _B | _C | _D | _E | _F | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 0_ |
|
☺ 263A |
☻ 263B |
♥ 2665 |
♦ 2666 |
♣ 2663 |
♠ 2660 |
• 2022 |
◘ 25D8 |
○ 25CB |
◙ 25D9 |
♂ 2642 |
♀ 2640 |
♪ 266A |
♫ 266B |
☼ 263C |
| 1_ |
► 25BA |
◄ 25C4 |
↕ 2195 |
‼ 203C |
¶ 00B6 |
§ 00A7 |
▬ 25AC |
↨ 21A8 |
↑ 2191 |
↓ 2193 |
→ 2192 |
← 2190 |
∟ 221F |
↔ 2194 |
▲ 25B2 |
▼ 25BC |
| 2_ |
SP 0020 |
! 0021 |
" 0022 |
# 0023 |
$ 0024 |
% 0025 |
& 0026 |
' 0027 |
( 0028 |
) 0029 |
* 002A |
+ 002B |
, 002C |
- 002D |
. 002E |
/ 002F |
| 3_ |
0 0030 |
1 0031 |
2 0032 |
3 0033 |
4 0034 |
5 0035 |
6 0036 |
7 0037 |
8 0038 |
9 0039 |
: 003A |
; 003B |
< 003C |
= 003D |
> 003E |
? 003F |
| 4_ |
@ 0040 |
A 0041 |
B 0042 |
C 0043 |
D 0044 |
E 0045 |
F 0046 |
G 0047 |
H 0048 |
Jeg 0049 |
J 004A |
K 004B |
L 004C |
M 004D |
N 004E |
O 004F |
| 5_ |
P 0050 |
Q 0051 |
R 0052 |
S 0053 |
T 0054 |
U 0055 |
V 0056 |
W 0057 |
X 0058 |
Y 0059 |
Z 005A |
[ 005B |
\ 005C |
] 005D |
^ 005E |
_ 005F |
| 6_ |
' 0060 |
en 0061 |
b 0062 |
c 0063 |
d 0064 |
e 0065 |
f 0066 |
g 0067 |
t 0068 |
i 0069 |
j 006A |
k 006B |
l 006C |
m 006D |
n 006E |
o 006F |
| 7_ |
s 0070 |
q 0071 |
r 0072 |
s 0073 |
t 0074 |
u 0075 |
v 0076 |
w 0077 |
x 0078 |
y 0079 |
z 007A |
{ 007B |
| 007C |
} 007D |
~ 007E |
⌂ 2302 |
| 8_ |
€ 20AC |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Brev Nummer Tegnsætning Symbol Andet Udefineret
Resten er dele af en dobbelte bytesekvens.
Anvendelse af privat brugsområde
| Big5 rækkevidde | Unicode -område | Formel |
|---|---|---|
| 81 40–8D FE | U+EEB8 – U+F6B0 |
0xeeb8 + (157 * (H-0x81)) + (L<0x80)?(L-0x40):(L-0x62)
|
| 8E 40 – A0 FE | U+E311 – U+EEB7 |
0xe311 + (157 * (H-0x8e)) + (L<0x80)?(L-0x40):(L-0x62)
|
| C6 A1 – C8 FE | U+F6B1 – U+F848 |
0xf672 + (157 * (H-0xc6)) + (L<0x80)?(L-0x40):(L-0x62)
|
| FA 40 – FE FE | U+E000 – U+E310 |
0xe000 + (157 * (H-0xfa)) + (L<0x80)?(L-0x40):(L-0x62)
|
Denne kortlægning bruges også i HKSCS, hvor en given glyph endnu ikke findes i den angivne Unicode -revision .
Se også
- LMBCS-18
- Kodeside 951 , et Microsoft-hack til udskiftning af cp950 med en HKSCS-aktiveret version på Windows XP
Referencer
- ^ "Tegnsæt" . IANA - protokolregistre .
- ^ "Encoding.WindowsCodePage Property - .NET Framework (nuværende version)" . MSDN . Microsoft.
- ^ a b c d Zhu, HF .; Hu, DY .; Wang, ZG .; Kao, TC .; Chang, WCH .; Crispin, M. (1996). "Kinesisk tegnkodning til internetbeskeder" . Anmodninger om kommentarer . IETF . doi : 10.17487/rfc1922 . RFC 1922.
- ^ a b "CCSID 950 informationsdokument" . Arkiveret fra originalen 2014-12-02.
- ^ "Lead byte A3: ibm-950_P110-1999" . ICU -demonstration - Converter Explorer . Internationale komponenter til Unicode .
- ^ "Lead byte C6: ibm-950_P110-1999" . ICU -demonstration - Converter Explorer . Internationale komponenter til Unicode .
- ^ "Lead byte C7: ibm-950_P110-1999" . ICU -demonstration - Converter Explorer . Internationale komponenter til Unicode .
- ^ "Lead byte C8: ibm-950_P110-1999" . ICU -demonstration - Converter Explorer . Internationale komponenter til Unicode .
- ^ "Lead byte F9: ibm-950_P110-1999" . ICU -demonstration - Converter Explorer . Internationale komponenter til Unicode .
- ^ a b "CCSID 1370 informationsdokument" . Arkiveret fra originalen 2016-03-27.
- ^ "ibm-1373_P100-2002" . ICU -demonstration - Converter Explorer . Internationale komponenter til Unicode .
- ^ "Lead byte A3: ibm-1373_P100-2002" . ICU -demonstration - Converter Explorer . Internationale komponenter til Unicode .
- ^ "Lead byte C6: ibm-1373_P100-2002" . ICU -demonstration - Converter Explorer . Internationale komponenter til Unicode .
- ^ "Lead byte C7: ibm-1373_P100-2002" . ICU -demonstration - Converter Explorer . Internationale komponenter til Unicode .
- ^ "Lead byte C8: ibm-1373_P100-2002" . ICU -demonstration - Converter Explorer . Internationale komponenter til Unicode .
- ^ "Lead byte F9: ibm-1373_P100-2002" . ICU -demonstration - Converter Explorer . Internationale komponenter til Unicode .
- ^ "CCSID 1114 informationsdokument" . Arkiveret fra originalen 2016-03-27.
- ^ "CCSID 947 informationsdokument" . Arkiveret fra originalen 2014-12-01.
- ^ "CCSID 5210 informationsdokument" . Arkiveret fra originalen 2014-11-29.
- ^ "CCSID 21427 informationsdokument" . Arkiveret fra originalen 2016-03-27.
- ^ Kodeside CPGID 01114 (pdf) (PDF) , IBM
- ^ Kodeside CPGID 01114 (txt) , IBM
- ^ "Windows Best Fit Chart: CP950" . unicode.org . Hentet 13. september 2016 .
- ^ "Big5" . Kanji Database . Hentet 13. september 2016 .
- ^ "Big5-HKSCS: 2008" . Arkiveret fra originalen 2016-09-13.
eksterne links
- Microsofts reference til kode side 950
- Kortlægning af kode side 950 til Unicode
- Internationale komponenter til Unicode (ICU) kortlægningsfiler: windows-950-2000.ucm , ibm-950_P110-1999.ucm , ibm-1373_P100-2002.ucm