Hvad ' er den praktiske forskel mellem en ' glyph ' og en ' tegn '?

Jeg så dette spørgsmål på typografi-webstedsforslaget og det bugnede mig, at jeg ikke “kender ikke svaret. Jeg behandlede altid” glyph “og” character “som udskiftelige.


Efter at have læst en forklaring på Unicode Karakterkodning Modelside , min forståelse er omtrent dette:

  • Tegn defineres af deres betydning i sprog, tegn, ved deres udseende . Så ligaturen til æstetisk kombination af fi er en tegn, men to tegn.

Så min tro er (ret mig, hvis jeg ” m forkert) at forskellen praktisk ville være:

  • Tekstparsere, der ikke er interesseret i tekstens æstetik, læser tegn som deres respektive tegn. Så:
    • Hvis du skulle kopiere og indsætte tekst, der indeholder tegn i en almindelig teksteditor, konverteres tegnene til deres respektive tegn (a ligaturglyph ville blive f og i )
    • Ethvert velfremstillet automatiseret system baseret på tekst-parsing (f.eks. søgemaskine-crawlere, skærmlæsere, stavekontrol) fortolker tegnene som deres respektive tegn.
    • Et tegn kan have mange glyffer eller glyfsæt. Jeg vil sige, at en glyf kun kan have et tegn, men dette er tydeligvis ikke rigtigt, da der er et eksempel på den sammenkædede artikel med 3 glyffer og glyphsæt, der tilsyneladende svarer til et tegn og et sæt af tegn. Jeg kan ikke helt se, hvordan dette kunne fungere: Det betyder helt sikkert, at der vil være inkonsekvens eller tvetydighed i, hvordan disse tegn fortolkes, varierende efter fortolker? (Eller varierer det efter sprog eller skrifttype?)
    • Mens glyph-browsere (f.eks. Den i Illustrator) indeholder det fulde glyfsæt med en skrifttype, indeholder tegnkort (f.eks. Windows-tegnkortet) kun tegn, ikke glyffer, der er flere tegn som ligaturer (noget jeg ikke havde lagt mærke til før)

Jeg har lyst til, at jeg næsten er der, men jeg har klart misforstået noget et sted langs linjen: ikke kun “One glyph multiple characters” -tingen, men også at kopiere og indsætte adfærd med ligaturer er ikke “t ret hvad jeg forventede:

  • Kopier ligaturen fra Illustrator til dette inputfelt: indsættes som fi (to tegn) som forventet .
  • Indsæt HTML-koden for den () – vises som ligaturen, når den ikke er i en kodeblok (fi – som i denne skrifttype ikke ligner en ligatur, men du” ll se er en, hvis du prøver at vælge kun halvdelen af den), og koden i en kodeblok (fi), som forventet.
  • Kopier og indsæt den gengivne ikke-kodeblok-ligatur tilbage i inputboksen: klistres ind som ligaturkarakteren og gengives som ligaturen uanset om den “er i en kodeblok eller ej (fi og ). Ligeledes ord der indeholder det: fi t mis fi ts (fit misfits) indsættes som fi t misfits (fit misfits). Måske afhænger det af, om det sted, det indsættes, forstår den anvendte kodning?

Hvor langt forkert er min forståelse af dette? Kan nogen sætte mig ret: med en klar definition af forskellen mellem tegn og tegn (hvis min er forkert eller kan forbedres) og give klarere / mere nøjagtige eksempler end min på, hvad det betyder i praksis ?

Kommentarer

  • Det bliver langt mere kompliceret, når du har scripts som arabisk, hvor du har kombinerende tegn.
  • @MartinSchr ö der +1 Lyder som åbningssætningen til et fremragende svar … 🙂

Svar

Glyffer relaterer til, hvordan tekst gengives, tegn til, hvordan den fortolkes. Når du kopierer &, indsættes kildeapplikationen normalt i flere formater. Almindelig tekst nedbryder filaturen til f og i, HTML-format kan oversætte den til den char-enhed, du citerede, eller nedbryde den også i f og i.

Generelt er forholdet mellem tegn og tegn n: m. På indikationssprog opdeles nogle tegn i to tegn, der placeres forskellige steder i ordet. På latin ville det tættest være at gengive é som to tegn (e og ´).På arabisk har hvert tegn forskellige tegn afhængigt af dets position inden for et ord: indledende, mellem, endelig eller isoleret.

Oversættelsen fra tegn til tegn er specifik for hver applikation og de typografiske funktioner, den understøtter. Til latinsk tekst plejede denne oversættelse at være ligetil, men OpenType-skrifttyper introducerede yderligere funktioner som ligaturer, swashes, alternative former, små bogstaver osv.

Af praktiske årsager er du kun bekymret over tegn, når du implementerer, hvordan en applikation gengiver tekst, eller når du designer en skrifttype, eller når du vil anvende en OpenType-funktion, der erstatter nogle tegn med andre (f.eks. ligaturer). Ellers er Unicode-kodepunkter din ven.

Kommentarer

  • Hej user322483, velkommen til GDSE og tak for dit svar. Hvis du har spørgsmål, kan du se Hjælp eller pinge en af os i Grafisk designchat når dit omdømme er tilstrækkeligt (20). Bliv ved med at bidrage og nyd siden!
  • Du skriver ” På arabisk har hvert tegn forskellige tegn, afhængigt af dets position inden for et ord: initial, mellem, endelig eller isoleret . ” < — Ville ikke ‘ t være forskellige tegn. Engelsk har A og a, men i computertale er A og a forskellige tegn. hver glyf kortlægges til en anden kode. Hebraisk har chaf og final chaf (bogstavet chaf i slutningen af et ord ser anderledes ud) og jeg ‘ er sikker på at det ‘ s betegnet som en anden karakter i computeren.

Svar

Jeg tror ikke, at din forståelse er forkert dig ” ser bare systemer, der forsøger at hjælpe brugeren ved at indsætte, hvad den mener, de ønsker. Da nogle ligaturer (“fi”, “fl”) er ret almindelige uden for sættsystemer, anerkender software, at brugeren sandsynligvis ikke indtastede den glyf, snarere en anden app transformerede deres typede tegn.

Kort sagt : Tegn refererer til en sproglig enhed. Glyph henviser til en designet instans af denne enhed, hvad enten det er store, små, små bogstaver, historisk eller stilistisk variant.

Kommentarer

  • I databehandling er A og a forskellige tegn. ASCII har 128 tegn, og udtrykket karakter der inkluderer A og a som forskellige tegn.
  • Ingeniører bruger mange ord, der ikke ‘ T tilpasser sig præcedenser i andre brancher. Din er et godt eksempel.
  • der kom med udtrykket ” tegn ” og ” glyph ” f første? grafiske designere eller computeringeniører? Jeg ‘ Jeg har troet, at computerne kom før det grafiske design. Men der kan være en trykningsindustri, der gik forud for grafisk design, og diskuterede forud for computere på nogle måder eller forud for moderne computere. Jeg antager, at selvom de mennesker, der bedst kan svare på det, der nu er grafisk design, er trykkeribranchen, men der er ‘ ingen trykindustriens stackexchange. Men det ‘ ville være interessant at vide, hvem der lånte fra hvem og på hvilken måde betegnelsen Character.
  • Typografi kom længe før software Engineering. Skriv venligst her, hvis du foretager undersøgelsen og finder oprindelsen. Mit gæt er, at det vil være engang i det 17. århundrede. Muligvis så tidligt som de første typografer i midten af 16.

Svar

Der er et par svar her der giver god information om tegn vs tegn, men de adresserer ikke rigtig kilden til din forvirring med hensyn til kopiering og indsættelse.

Først og fremmest er din forståelse grundlæggende korrekt:

Tegn defineres af deres betydning på sprog, tegn, ved deres udseende . Så ligaturen til æstetisk kombination fi er en tegn, men to tegn.

Det er værd at understrege, at listen over tegn er defineret af Unicode standard, som er offentliggjort af Unicode Consortium, på grund af det faktum, at de er autorisationen til kodning af tekst i et maskinlæsbart format. Definitionen ovenfor er i det væsentlige den primære retningslinje, som Unicode Consortium-medlemmer bruger til at afgøre, om nogle foreslåede addit ion til Unicode er et tegn og derfor værd at inkludere det, eller et glyph og skal håndteres af fontgengivere.

Jeg nævner dette fordi forvirringen du har oplevet ovenfor skyldtes det faktum, at der findes flere ligatur tegn (ikke glyfer ) i Unicode.For eksempel er U+FB01 tegnet til ligaturen: http://unicode.org/charts/PDF/UFB00.pdf

At have ligaturtegn i Unicode er ikke rigtig i ånden af ovenstående definition for, hvilke slags ting der skal medtages i Unicode-standarden som tegn, da ligaturer ikke virkelig har en betydning uafhængig af sammensætningen af to andre tegn. Unicode-folkene er naturligvis opmærksomme på dette, og Unicode FAQ om ligaturer indrømmer lige så meget:

De eksisterende ligaturer findes grundlæggende for kompatibilitet og afrunding med ikke-Unicode-tegnsæt. Deres brug frarådes.

Eksistensen af denne karakter er i sidste ende kilden til din forvirring.

I korrekt implementeret software kopieres kopiering. tekst skal altid kopiere de tegn der blev specificeret, ikke glyferne , og det er præcis hvad der foregår i dine tre eksempler.

1) I det første eksempel skrev du f og i i Illustrator, som gengav en enkelt ligatur glyph . Når du valgte og kopierede den gengivne glyph, kopierede Illustrator korrekt f (U+0066) og i (U+0069) tegn på dit udklipsholder.

2) I det andet eksempel skrev du HTML-koden for ligaturen karakter (&#64257) i indtastningsfeltet, og fik ligaturen glyph , der repræsenterer ligaturen karakteren (. Da den underliggende karakter faktisk er den obskure og relativt meningsløse ligaturkarakter, jeg nævnte ovenfor, vælger at glyph kopierer et enkelt tegn U+FB01.

3) I det tredje eksempel kopierer du den gengivne ligatur karakter U+FB01 der blev gengivet i del 2, som altid indsættes som dette tegn. Din hovedforvirring ser ud til at være forskellen mellem HTML-enhedskoder og tegn, især med hensyn til hvordan de gengives i og uden for kodeblokke.

HTML-enhedskoden &#64257; er en streng på 8 forskellige tegn. HTML-gengiveren i din webbrowser erstatter disse 8 tegn U+0026 U+0023 U+0036 U+0032 U+0035 U+0037 U+0023 med enkelt Unicode-tegnet U+FB01, som det derefter gengiver passende. <code> -tagget i HTML deaktiverer imidlertid denne adfærd og efterlader disse 8 tegn, som de er.

Når du kopierer gengivet HTML, kopierer du den gengivne tegn (som adskiller sig fra de gengivne tegn ). Når du kopierer din gengivne HTML-enhed, kopieres således det enkelte U+FB01 -tegn til dit udklipsholder.

Når du indsætter U+FB01 tegn tilbage i HTML-koden, ingen erstatning skal finde sted, hvilket betyder, at tegnet gengives som en ligatur, uanset om det falder inden for en <code> blok.

Svar

Tegn er det, der er gemt i tekstfiler, behandlet af applikationer, og flyttet rundt, mens tegn er deres visuelle repræsentation.

For at få et klart billede kan vi se, hvad der sker, når et program forsøger at gengive en tekststreng på skærmen (på en lidt forenklet måde):

  • Applikationen læste først tekststrengen, at den er den streng af tegn, der er gemt på disken eller i hukommelsen.
  • Den sender den derefter til en tekstlayoutmaskine, blandt nogle andre egenskaber som den ønskede skrifttype, tekstsprog og så videre:
    • T Tekstlayoutmotoren åbner grundlæggende skrifttypefilen, beder den om glyf (erne), der svarer til hvert tegn, og udskift glyph-substitution (som at erstatte glyphen for f og i med ligaturglyfen af fi) og positionering (som kerning).
    • I slutningen har layoutmotoren en sekvens af glyfer, deres positioner i forhold til hinanden og en kortlægning mellem inputtegn og outputglyffer. Tegnet til glyf-kortlægning er således, at det ved, at de to første tegn i ordet file svarer til to de første glyph (fi ligatur ), det 3. tegn til det andet tegn og det 4. tegn til det tredje tegn.
  • Et grafikgengivelsesbibliotek bruges derefter til at “tegne” disse tegn på skærmen ved hjælp af figurer fra skrifttypen.
  • Når brugeren vælger “glyfer” på skærmen, vil applikationen derefter høre glyph til teksttilknytning leveret af layoutmotoren for at finde ud af, hvilken del af inputteksten svarer til, hvad brugeren vælger og sender teksten til udklipsholderen, når brugeren kopierer den.
  • Det samme sker, når brugeren indsætter markøren midt i teksten og begynder at skrive, kortlægningen bestemmer, hvor i inputteksten de nye tegn skal indsættes, og opdateringsteksten sendes til layoutmotoren til proces og tegnet om og så videre.

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *