Vad ' är den praktiska skillnaden mellan en ' glyph ' och en ' tecken '?

Jag såg den här frågan på typografi-webbplatsförslaget och det bugade mig att jag inte ”vet inte svaret. Jag behandlade alltid” glyph ”och” character ”som utbytbara.


Efter att ha läst en förklaring på Unicode Teckenkodning Modelsida , min förståelse är ungefär så här:

  • Tecken definieras av deras betydelse i språk, tecken, genom deras utseende . Så, ligaturen för att estetiskt kombinera fi är ett tecken, men två tecken.

Så, min tro är (rätta mig om jag ” fel) att skillnaden praktisk skulle vara:

  • Textparsers som inte är intresserade av textens estetik kommer att läsa tecken som respektive tecken. Så:
    • Om du skulle kopiera och klistra in text som innehåller glyfer i en redigerare för ren text konverterades glyferna till respektive tecken (a ligaturglyph skulle bli f och i )
    • Alla välgjorda automatiserade system baserade på textparsning (t.ex. sökmotorer, skärmläsare, stavningskontroller) skulle tolka tecknen som deras respektive tecken.
    • Ett tecken kan ha många glyfer eller glyfuppsättningar. Jag vill säga att en glyf bara kan ha en karaktär, men detta är helt klart inte rätt eftersom det finns ett exempel på den länkade artikeln om 3 glyfer och glyph-uppsättningar som verkar motsvara varje tecken och uppsättning tecken. Jag förstår inte riktigt hur detta skulle kunna fungera: det betyder säkert att det kommer att vara inkonsekvens eller tvetydighet i hur dessa glyfer tolkas, varierar med tolk? (Eller varierar det beroende på språk eller typsnitt?)
    • Medan glyph-webbläsare (t.ex. den i Illustrator) innehåller hela teckenuppsättningen för ett teckensnitt, innehåller karaktärskartor (t.ex. Windows-karaktärskartan) bara tecken, inte glyfer som är flera tecken som ligaturer (något jag inte märkte tidigare)

Jag känner att jag är nästan där men jag har tydligt missförstått något någonstans längs linjen: inte bara ”One glyph multiple characters” -saken, men också att kopiera och klistra in beteenden med ligaturer är inte ”t ganska vad jag förväntade mig:

  • Kopiera ligaturen från Illustrator till denna inmatningsruta: klistrar in som fi (två tecken) som förväntat .
  • Klistra in HTML-koden för den () – visas som ligaturen när den inte är i ett kodblock (fi – som i det här teckensnittet inte ser ut som en ligatur, men du” se är en om du försöker välja bara hälften av den) och koden i ett kodblock (fi), som förväntat.
  • Kopiera och klistra in den återgivna icke-kodblockerade ligaturen tillbaka i inmatningsrutan: klistrar in som ligaturkaraktären och återges som ligaturen oavsett om den är i ett kodblock eller inte (fi och ). Likaså ord som innehåller det: fi t mis fi ts (fit misfits) klistras in som fi tfel (fit misfits). Kanske beror det på om platsen det klistras in förstår kodningen som används?

Hur långt är min förståelse för detta? Kan någon ställa mig rätt: med en tydlig definition av skillnaden mellan tecken och tecken (om min är fel eller kan förbättras), och ge tydligare / mer exakta exempel än min på vad det betyder i praktiken ?

Kommentarer

  • Det blir mycket mer komplicerat när du har skript som arabiska där du har kombinerande tecken.
  • @MartinSchr ö der +1 Låter som inledande mening i ett utmärkt svar … 🙂

Svar

Glyphs relaterar till hur text återges, tecken till hur den tolkas. När du kopierar & klistrar, ger källapplikationen vanligtvis ett val av flera format. Vanlig text sönderdelar fi ligaturen i f och i, HTML-format kan översätta den till den char-enhet du citerade eller sönderdela den i f och i.

Generellt är förhållandet mellan tecken och tecken n: m. På indikationsspråk delar vissa tecken upp i två tecken som placeras på olika platser i ordet. På latin skulle närmast den situationen vara att göra é som två tecken (e och ´).På arabiska har varje tecken olika tecken beroende på dess position inom ett ord: initial, mellanliggande, slutlig eller isolerad.

Översättningen från tecken till tecken är specifik för varje program och de typografiska funktioner som stöds. För latinsk text brukade den här översättningen vara okomplicerad, men OpenType-teckensnitt introducerade ytterligare funktioner som ligaturer, streck, alternativa former, små bokstäver etc. gör text eller när du utformar ett teckensnitt eller när du vill använda en OpenType-funktion som ersätter vissa tecken med andra (t.ex. ligaturer). Annars är Unicode-kodpunkter din vän.

Kommentarer

  • Hej user322483, välkommen till GDSE och tack för ditt svar. Om du har några frågor, se hjälpcentret eller pinga en av oss i Grafisk designchatt när ditt rykte är tillräckligt (20). Fortsätt bidra och njut av sajten!
  • Du skriver ” På arabiska har varje tecken olika tecken beroende på dess position inom ett ord: initial, mellersta, sista eller isolerade . ” < — Skulle ’ inte vara olika tecken. Engelska har A och a, men i datorsamtal är A och a olika tecken. varje glyf mappas till en annan kod. Hebreiska har chaf och final chaf (bokstaven chaf i slutet av ett ord ser annorlunda ut) och jag ’ är säker på att det ’ s betecknas som en annan karaktär i datorer.

Svar

Jag tror inte att din förståelse är felaktig du ” ser bara system som försöker hjälpa användaren genom att klistra in vad den tror att de vill ha. Eftersom vissa ligaturer (”fi”, ”fl”) är ganska vanliga utanför typsättningssystem, erkänner programvaran att användaren förmodligen inte angav den glyf, snarare en annan app förvandlade deras skrivna tecken.

Kort sagt : Tecken avser en språklig enhet. Glyph hänvisar till en utformad instans av den enheten, oavsett om det är versaler, gemener, liten bokstav, historisk eller stilistisk variant.

Kommentarer

  • Vid beräkning är A och a olika tecken. ASCII har 128 tecken och termen karaktär där innehåller A och a som separata tecken.
  • Ingenjörer använder många ord som inte ’ t anpassar sig till prejudikat i andra branscher. Din är ett bra exempel.
  • som kom med termen ” karaktär ” och ” glyph ” f första? grafiska formgivare eller datoringenjörer? Jag ’ Jag trodde att datorerna kom före den grafiska designen. Men det kan finnas en tryckeribransch som föregick grafisk design och diskuterades före datorer på vissa sätt eller tidigare datorer. Jag antar att även om de som bäst kan svara för det som nu är grafisk design är tryckbranschen, men det finns ’ ingen tryckbransch. Men det ’ skulle vara intressant att veta vem som lånade av vem och på vilket sätt beteckningen Character.
  • Typografi kom långt innan mjukvaruutveckling. Vänligen skicka inlägg här om du gör undersökningen och hittar ursprunget. Jag antar att det kommer att vara någon gång på 1600-talet. Möjligen så tidigt som de första typograferna i mitten av 16: e.

Svar

Det finns ett par svar här som ger bra information om tecken mot tecken, men de adresserar inte riktigt källan till din förvirring när det gäller kopiering och klistra.

Först och främst är din förståelse i grund och botten korrekt:

Tecken definieras av deras betydelse i språk, tecken, av deras utseende . Så, ligaturen för estetiskt kombinera fi är en tecken men två tecken.

Det är värt att betona att listan med tecken definieras av Unicode standard, som publiceras av Unicode Consortium, på grund av det faktum att de är befogenhet att koda text i ett maskinläsbart format. Definitionen ovan är i huvudsak den primära riktlinjen som Unicode Consortium-medlemmarna använder för att avgöra om några föreslagna tillsats ion till Unicode är en karaktär och därmed värdig att inkluderas, eller en glyph och bör hanteras av teckensnittsgivare.

Jag nämner detta eftersom förvirringen du upplevde ovan berodde på det faktum att det finns flera ligatur tecken (inte glyfer ) i Unicode.Till exempel är U+FB01 tecknet för ligaturen: http://unicode.org/charts/PDF/UFB00.pdf

Att ha ligaturtecken i Unicode är inte riktigt i andan av ovanstående definition för vilka slags saker som ska inkluderas i Unicode-standarden som tecken, eftersom ligaturer inte har en mening oberoende av kompositionen av två andra karaktärer. Unicode-människorna är naturligtvis medvetna om detta och Unicode FAQ om ligaturer erkänner lika mycket:

De befintliga ligaturerna finns i grunden för kompatibilitet och rundutlösning med icke-Unicode-teckenuppsättningar. Deras användning avskräcks.

Förekomsten av denna karaktär är i slutändan källan till din förvirring.

I korrekt implementerad programvara kopieras kopiering. texten ska alltid kopiera de tecken som har angetts, inte siffrorna , och det är exakt vad som händer i dina tre exempel.

1) I det första exemplet skrev du f och i i Illustrator, vilket gav en enda ligatur glyph . När du markerade och kopierade den återgivna tecknet kopierade Illustrator korrekt f (U+0066) och i (U+0069) tecken till ditt urklipp.

2) I det andra exemplet skrev du in HTML-koden för ligaturen karaktär (&#64257) i inmatningsrutan och fick ligaturen glyph som representerar ligaturen karaktär (. Eftersom den underliggande karaktären faktiskt är den obskyra och relativt meningslösa ligaturkaraktären som jag nämnde ovan, valde att glyph kommer att kopiera ett enstaka tecken U+FB01.

3) I det tredje exemplet kopierar du den återgivna ligaturen karaktär U+FB01 som gjordes i del 2, som alltid kommer att klistra in som det tecknet. Din huvudsakliga förvirring verkar handla om skillnaden mellan HTML-enhetskoder och tecken, särskilt när det gäller hur de återges i och utanför kodblock.

HTML-enhetskoden &#64257; är en sträng med åtta olika tecken. HTML-renderaren i din webbläsare ersätter de åtta tecknen U+0026 U+0023 U+0036 U+0032 U+0035 U+0037 U+0023 med singel Unicode-tecknet U+FB01, som sedan återges på lämpligt sätt. Taggen <code> i HTML inaktiverar dock detta beteende och lämnar de åtta tecknen som de är.

När du kopierar av renderad HTML kopierar du den renderade tecken (som skiljer sig från de återgivna siffrorna ). När du kopierar din renderade HTML-enhet kopieras alltså U+FB01 -tecknet till urklipp.

När du klistrar in U+FB01 karaktär tillbaka i HTML, ingen ersättning behöver ske, vilket innebär att karaktären återges som en ligatur oavsett om den faller inom en <code> block.

Svar

Tecken är det som lagras i textfiler, bearbetas av applikationer och flyttade runt, medan siffror är deras visuella representation.

För att få en tydlig bild kan vi se vad som händer när ett program försöker återge en textsträng på skärmen (på ett förenklat sätt):

  • Applikationen läste först textsträngen, att den är teckensträngen som är lagrad på disken eller i minnet.
  • Den skickar den sedan till en textlayoutmotor bland några andra egenskaper som önskat typsnitt, textspråk och så vidare:
    • T han textlayoutmotor öppnar i princip teckensnittsfilen, frågar efter glyf (erna) som motsvarar varje tecken och gör glyfbyte (som att ersätta glyphen för f och i med ligaturglyph av fi) och positionering (som kerning).
    • I slutet har layoutmotorn en sekvens av siffror, deras positioner i förhållande till varandra och en mappning mellan inmatade tecken och utdatatecken. Karaktären till glyfmappning är så att den vet att de två första tecknen i ordet file motsvarar två de första glyferna (fi ligaturen ), det tredje tecknet till det andra tecknet och det fjärde tecknet till det tredje tecknet.
  • Ett grafikåtergivningsbibliotek används sedan för att ”rita” dessa glyfer på skärmen med former från teckensnittet.
  • När användaren väljer ”glyfer” på skärmen, kommer applikationen att konsultera glyph till textmappning som tillhandahålls av layoutmotorn för att hitta vilken del av inmatningstexten som motsvarar vad användaren väljer och skickar texten till Urklipp när användaren kopierar den.
  • Samma sak händer när användaren infogar markören i mitten av texten och börjar skriva, mappningen avgör var i inmatningstexten de nya tecknen ska infogas och den uppdaterande texten skickas till layoutmotorn till bearbeta och rita om och så vidare.

Lämna ett svar

Din e-postadress kommer inte publiceras. Obligatoriska fält är märkta *