Notifikationer

Markér alle som læst Log ud

hclarsen Nybegynder

24. august 2009 - 20:38 Der er 12 kommentarer og
1 løsning

Characters og tilsvarende integer

Hej

Jeg har leget lidt med

printf("%c", 97);

Dette giver mig et 'a'. I min C-bog har jeg en oversigt, hvor der er en søjle kaldet "DEC" og en søjle med det tilsvarende character.

"DEC" løber fra 0..255, hvorfor jeg har forstået det således: En byte (forudsat denne er 8 bit) kan antage 256 mulige værdier, i.e. 0..255.

Mine spørgsmål er:

#1: Hvordan ved printf, at 97 svarer til 'a' og vice versa?
#2: Hvad kaldes tallet "97" i denne sammenhæng?
#3: Er det korrekt at sige, at byten har værdien "97"?
#4: Kaldes tegnene i søjlen for ASCII-værdier? Hvis nej, hvad kaldes de så for?

Tak på forhånd.

Synes godt om

dennismp Nybegynder

24. august 2009 - 21:24 #1

#1
Fordi man har defineret en standard, hvor det er vedtaget at 97 er a. Der findes andre standarder, hvor dette ikke er tilfældet. Standarden hedder ASCII i dette tilfælde.

#2
ASCII værdien

#3
Det kan du sagents sige. I princippet kan du også bruge en integer til at gemme ascii værdier i. Men det er jo klart overkill, når vi kun bruger værdierne 0..255 :)

#4
Du har karakterne og ASCII værdien der repræsenterer dem (i denne contekst).

Synes godt om

hclarsen Nybegynder

24. august 2009 - 22:05 #2

Ok, tak. Jeg stiller nogle opfølgende spørgsmål, og svarene kan du ligge i et "Svar", så du kan få point :-)

#5: Er de 256 karakterer de mulige tegn, der forefindes på en computer? I.e., samtlige tegn overhovedet er blandt de 256?

Tak, du er god.

Synes godt om

hclarsen Nybegynder

24. august 2009 - 22:05 #3

Hov, jeg mente "lægge", ikke "ligge".

Synes godt om

hclarsen Nybegynder

24. august 2009 - 22:23 #4

Iøvrigt:

#6: Jeg har defineret en integer i. Hvis jeg sætter i=35000, så klager min compiler ikke. Hvorfor?

Jeg bruger MS Visual C++.

Synes godt om

arne_v Ekspert

25. august 2009 - 03:22 #5

ASCII har kun tegn 0-127
ISO-8859-1 og de andre har kun tegn 0-255
Unicode har ca. 100000 tegn 0-100000

ASCII, ISO-8859-1 og de andre gemmer et tegn i en enkelt byte

Unicode gemmer tegn ifoelge en encoding

den mest brugte encoding er UTF-8, med den vil et tegn blive gemt som 1-3 tegn (eller er det 1-4 ?)

den naestmeste brugte encoding er UTF-16, hvor et tegn gemmes som 2 byte (bortset fra visse special tilfaelde hvor det er 4)

i C/C++ bruger man typerne:
char = 1 byte : ASCII, ISO-8859-1 og Unicode i UTF-8
wchar_t = 2 byte : Unicode i UTF-16

Synes godt om

hclarsen Nybegynder

25. august 2009 - 08:58 #6

Så svarene til spørgsmål 1-4 er korrekte?

Synes godt om

hclarsen Nybegynder

25. august 2009 - 09:11 #7

Ok, så de 0..255 tegn er ISO-8859-1. Men hedder de tilsvarende integers stadig ASCII-værdier for alle tegnene?

Synes godt om

hclarsen Nybegynder

25. august 2009 - 09:33 #8

Er en ASCII-fil en fil indeholdende de 0..127 tegn, eller må 128-255 også være med?

Synes godt om

dennismp Nybegynder

25. august 2009 - 10:21 #9

Helt god er jeg ikke :) Arne har ret.

#5: Er de 256 karakterer de mulige tegn, der forefindes på en computer? I.e., samtlige tegn overhovedet er blandt de 256?

Nej, der findes langt flere. Husk på, at der findes jo mange varianter af fx e: é, è, ë, ê. Og der er jo tonsvis af tegn. Og vi har jo også kinesisk, arabisk, russisk etc.

Her kommer en lang smøre, som er hvad jeg *tror* verdenen ser ud. Så husk på din dansklære og hvad han fortalte om kildekritik :)

Dengang hvor ASCII/ISO-8859-1/osv blev brugt, var i den tid hvor computerens resourcer var noget mere begrænset end i dag. Dengang brugte man bare et tegnsæt (fx 8859-1 i danmark) og da alle gøre det, var det ikke et problem. Og ISO-8859-1 kan jo netop repræsenteres i en byte, som du selv er inde på. Nemt.

Begrænsningerne blev mere og mere tydeligt efterhånden som computerne kom i netværk, herunder især internettet. Pludselig kunne man blive præsenteret for tekster skrevet på sprog der indeholder tegn, der ikke fandtes i ISO-8859-1. (Da ISO-8859-1s "byte" var brugt op, kunne man ikke bare definere flere karakter).. Så der er mange forskellige alternativer til ISO-8859-1. Fx er russere ikke så interesseret i æøå, så de har deres egen med de tegn de bruger.

Hvis du har set en tekst/webside hvor æøå ser underligt ud, er det ofte fordi at man ikke er enig om hvilken standard der bruges. Fx, afsenderen har sendt teksten i en standard, hvor læseren tror det er en anden. I de fleste browsere kan du i "View" menuen finde en "Encoding" hvor du selv kan tvinge din browser til at bruge en bestemt encoding.

Det kunne jo så være smart, nu hvor computerens resourcer ikke er nær så begrænset som i "gamle dage", at lave en standard der indeholder "alle" (næsten alle) tegn der findes: Unicode.

Som arne er inde på, så er 1 byte ikke altid et tegn når vi snakker unicode. Da vi jo gerne vil have mange flere tegn end 256 tegn, bliver vi nød til at bruge mere end en byte pr tegn. Vi kunne jo bare sige, at nu fylder alle tegn 2 bytes (eller 3.. eller 4). Men det vil jo betyde at hvis du læser en ISO-8859-1 fil som unicode, vil alt være volapyk. Og samme tekst vil fylde dobbelt så meget.

Det ville jo være smartere at genbruge ISO-8859-1 (så har vi jo allerede en hel del af de tegn der bruges i eksisterende tekster, hvilket gør det nemmere for folk at "opgrader" til Unicode hvis der bruges UTF-8) og så udvide denne til at kunne indeholde "alt det andet". Og det gør unicode.

UTF-8, UTF-16 .. osv, er forskellige måder at repræsentere unicode karakterne.

#6: Jeg har defineret en integer i. Hvis jeg sætter i=35000, så klager min compiler ikke. Hvorfor?

Der er ikke noget underligt i at have 35000 som heltal. Så den del er gyldig.

Compileren ser argumenterne til printf() som gyldige (første argument er en string, næste en integer). Den ved ikke noget om, hvad indeholdet af string'en er, eller at typen af argumentet efter format-string, skal passe sammen med %c. Argumenterne er gyldige (set fra compileren). At det så semantisk ikke giver mening, er et andet problem. c er jo ret relativt lavniveaussprog, så det er dit ansvar at bruge printf() korrekt, så det giver mening.

Håber du kan bruge det.

Synes godt om

hclarsen Nybegynder

25. august 2009 - 10:40 #10

Det hjalp meget. Det eneste jeg er i tvivl om er det sidste spørgsmål:

#7: Altså 0..127 er så ASCII-tegnene, og 128-255 er udvidelsen - samlet kaldes det for ISO-8859. For intervallet 128-255, hedder de tilsvarende integers stadig ASCII-værdier eller er det "ISO-8859"-værdier? Eller noget helt tredje?

#8: Angående det med i = 35000: Jeg tænker på, at integers løber fra -32000 til 32000 (cirka), så hvordan kan 35000 være gyldig?

Synes godt om

dennismp Nybegynder

25. august 2009 - 11:02 #11

#7
Jeg tror at de fleste kalder det for ASCII tegn (selvom det er forkert). Men ellers er det vel bare (ISO-8859..)-tegn.

#8
Så vidt jeg husker, så definere C kun hvad en integer minimum skal være, ikke hvad den maks må være. Så en int kan på en platform indeholde flere værdier end en int på en anden platform.

Men en 32bit heltal kan indeholde værdier: -2.147.483.648 til 2.147.483.647.

En 16bit heltal ligger derimod i intervallet −32.768 - 32.767

I stdlib.h er der defineret typer som int16_t, int32_t, uint16_t olign. Samt INT16_MIN, INT32_MIN, INT16_MAX .. som indeholder minimum og maximum værdier du kan gemme i de forskellige typer.

Jeg vil tro at din integer er større end du tror :)

Synes godt om

hclarsen Nybegynder

25. august 2009 - 11:08 #12

Aha, ok. Tak.

Jeg tænkte, at arne burde lægge et svar også. Så deler jeg pointene.

Synes godt om

arne_v Ekspert

26. august 2009 - 00:21 #13

Hvis vi ser bort fra EBCDIC (gammel IBM tegnsaet til mainframe), saa bruger man samme betydning af tegn 0-127 (ASCII, ISO-8859-x, Unicode etc.).

Tegnene 128-255 findes ikke i ASCII men findes i ISO-8859-x og Unicode. Det er imidlertid vaerd at bemaerke at de har forskellig betydning i ISO-8859-1 (vesteuropaeisk) og ISO-8859-2 (oesteuropaeisk) og de andre.

ISO-8859-1 specielt i dens Windows faetter kaldet CodePage 1252 er stadig ret udbredte omend trenden absolut gaar mod Unicode med UTF-8 som encoding.

Hvis du vil se hvor stor din int er saa udskriv:

sizeof(int)

Hvis vi antager 8 bit bytes (hvilket ikke er givet i C standarden men som de facto er universel idag) og 2's complement for negative tal (ditto), saa vil range af int vaere -2^(8*n-1) ... 2^n(8*n-1)-1

Og jeg skal ikke have point her.

Dennis har svaret paa spoergsmaalene - jeg har bare suppleret.

Synes godt om

Ny bruger Nybegynder

Din løsning...

Tilladte BB-code-tags: [b]fed[/b] [i]kursiv[/i] [u]understreget[/u] Web- og emailadresser omdannes automatisk til links. Der sættes "nofollow" på alle links.

Følg dette spørgsmål

Opret Preview

Programmeringssprog kurser

Kurser inden for grundlæggende programmering

Se alle Programmeringssprog kurser

Flere spørgsmål fra C/C++ kategorien

Titel	Indlæg	Oprettet	Seneste aktivitet
Delphi og API (woocommerce) Af juzas i C/C++	1	24/03/202221:15	25/03/202201:34
Erfaring med Cee Studio Compiler Af Marting i C/C++	43	24/01/202110:34	06/02/202121:51
omskrive linux CLI-cmd til brug i windows med en i686-w64-mingw32 Af prox1 i C/C++	8	04/05/202014:59	18/09/202016:35
Fordel ved Polymorphism Af prox1 i C/C++	8	29/03/202014:57	29/03/202018:07
Er 16 bit af CRC-32 lige så godt som CRC-16 Af Simon i C/C++	1	19/03/202009:18	19/03/202018:40

Se alle spørgsmål i kategorien Opret spørgsmål

Log ind eller opret profil

Hov!

For at kunne deltage på Computerworld Eksperten skal du være logget ind.

Det er heldigvis nemt at oprette en bruger: Det tager to minutter og du kan vælge at bruge enten e-mail, Facebook eller Google som login.

Du kan også logge ind via nedenstående tjenester

Alle kategorier på Eksperten

Seneste artiklerRSS

06/02

Test af Arlo Essential 3 XL 2K udendørs overvågningskamera

06/02

Nørgaard: Ansæt nu bare de unge - så kan det ikke gå helt galt

06/02

Afgående topchef Pär Fors har besluttet at blive på posten frem til juli: Dette er han mest stolt af fra sin tid i NNIT

06/02

Endnu et af Apples AI-projekter er ramt af problemer: Vi skal udvikle meget hurtigere, lyder det fra topchef

06/02

Den cyberkriminelle industri er velsmurt og professionel: Men en bogreception på syvende etage på Rådhuspladsen viser, at det er forsvarerne også blevet

06/02

Har du en pinlig mail-adresse? Nu giver Google dig mulighed for at ændre den – uden at miste data

06/02

Amazon skruer vildt op for investeringer i AI: Så mange penge vil selskabet pumpe ind i området

06/02

Har en af dine LinkedIn-kontakter forbindelse til Epstein? Det kan du nu tjekke med nyt værktøj

06/02

Streaming: En stemningsfuld og lækker spionserie placeret i Den Kolde Krigs Moskva

06/02

Hundreder af nye millioner skal gøre en forskel: Her er Rigspolitiets opskrift på at skabe en slagkraftig projekt-maskine

06/02

Det mest omfattende hacker-angreb siden SolarWinds: Kriminel cybergruppe er brudt ind i 37 landes statshemmeligheder

Vis flere artikler

IT-JOB

Qpurpose ApS

Hiring talented and senior software engineers

Netcompany A/S

Microsoft Operations Engineer

KMD A/S

Senior Service Delivery Manager (SDM)

KMD A/S

Product Owner / Product Manager

KMD A/S

Senior Product Manager

Vis flere jobs

Seneste spørgsmål Seneste aktivitet

15 min siden	e-bogslæser Af gerhardpet i Andet software
I går 11:41	Bærbar cd afspiller med Bluetooth? Af nu_igen i Musik & videoafspillere
I går 06:23	Batteri Af Henricus64 i PC
06/0211:30	Problemer med Apps Af ejgil703 i Office & Kontorpakker
04/0217:03	Ny browser til windows xp Af Perfrank i Browsere

White papers

Styrk medarbejderglæde og produktivitet med DEX
Conscia
Er I klar til at tage næste skridt på den digitale retailrejse?
TDC Erhverv
Undgå at printeren bliver svageste led i sikkerheden
Konica Minolta
Revolutionér kundeoplevelsen med AI og automatisering
Sabio

Flere white papers »