Kodepunkt - Code point

I karakter koder terminologi, en kode punkt eller kode position er nogen af de numeriske værdier, der udgør codespace . Mange kodepunkter repræsenterer enkelte tegn, men de kan også have andre betydninger, f.eks. Til formatering.

For eksempel omfatter tegnkodningsskemaet ASCII 128 kodepunkter i området 0 hex til 7F hex , Udvidet ASCII omfatter 256 kodepunkter i området 0 hex til FF hex , og Unicode omfatter 1.114.112 kodepunkter i området 0 hex til 10FFFF hex . Unicode kode rummet er opdelt i sytten planer (den grundlæggende flersprogede plan, og 16 supplerende fly), hver med 65.536 (= 2 16 ) kodepunkter. Således er den samlede størrelse af Unicode-kodeområdet 17 × 65.536 = 1.114.112.

Definition

Begrebet et kodepunkt bruges til abstraktion for at skelne begge:

  • nummeret fra en kodning som en sekvens af bits , og
  • den abstrakte karakter fra en bestemt grafisk repræsentation ( glyph ).

Dette skyldes, at man måske ønsker at gøre disse forskelle i:

  • kode et bestemt kodeområde på forskellige måder, eller
  • vise et tegn via forskellige tegn.

For Unicode kaldes den specifikke sekvens af bits en kodeenhed - til UCS-4- kodning er ethvert kodepunkt kodet som 4- byte ( oktet ) binære tal , mens der i UTF-8- kodning er forskellige kodepunkter kodet som sekvenser fra en til fire byte lange og danner en selvsynkroniseringskode . Se sammenligning af Unicode-kodninger for detaljer. Kodepunkter tildeles normalt til abstrakte tegn . En abstrakt karakter er ikke en grafisk tegn, men en enhed af tekstdata. Dog kan kodepunkter også være reserveret til fremtidig tildeling (det meste af Unicode-kodeområdet er ikke tildelt) eller få andre udpegede funktioner.

Sondringen mellem et kodepunkt og det tilsvarende abstrakte tegn udtages ikke i Unicode, men er tydeligt for mange andre kodningsordninger, hvor der kan findes adskillige kodesider for et enkelt kodeområde.

Historie

Konceptet med et kodepunkt er en del af Unicodes løsning på et vanskeligt spil, som tegnkodende udviklere står over for i 1980'erne. Hvis de tilføjede flere bits pr. Tegn for at rumme større tegnsæt, ville denne designbeslutning også udgøre et uacceptabelt spild af dengang knappe databehandlingsressourcer for latinske scriptbrugere (som udgjorde langt størstedelen af ​​computerbrugere på det tidspunkt), da disse ekstra bits ville altid blive nulstillet for sådanne brugere. Kodepunktet undgår dette problem ved at bryde den gamle idé om en direkte en-til-en-korrespondance mellem tegn og bestemte sekvenser af bits.

Se også

Referencer

eksterne links