Milyen ' s a gyakorlati különbség a ' karakterjel és a ' között “b34f85af2d”> karakter '?

láttam ezt a kérdést a tipográfia webhely javaslatán , és hibát vetett rám, hogy nem sikerült “Nem tudom a választ. A” karakterjelet “és a” karaktert “mindig felcserélhetőként kezeltem.


Miután elolvastam egy magyarázatot az Unicode-on Karakterkódoló modelloldal , megértésem nagyjából ez:

  • A karaktereket a nyelv jelentése jével, a karakterjelekkel, a megjelenésükkel . Tehát a fi esztétikus kombinálásának ligatúrája egy karakterjel, de két karakter.

Tehát meggyőződésem: (kérem, javítson ki, ha igen ” téves), hogy a gyakorlati különbség a következő lenne:

  • A szöveg értelmezői, akiket nem érdekel a szöveg esztétikája, a karakterjeleket a karaktereikként olvassák. Tehát:
    • Ha a karakterjeleket tartalmazó szöveget sima szövegszerkesztőbe másolná és beillesztené, a karakterjelek a megfelelő karaktereikké alakulnak át (a ligatúra karakterjeléből f és i lesz )
    • Minden jól elkészített, szövegelemzésen alapuló automatizált rendszer (pl. keresőmotorok, képernyőolvasók, helyesírás-ellenőrzők) a karakterjeleket a megfelelő karaktereikként értelmezik.
    • Egy karakter sokféle lehet karakterjelek vagy karakterjelkészletek. Azt akarom mondani, hogy egy karakterjelnek csak egy karaktere lehet, de ez egyértelműen nem “megfelelő”, mivel a kapcsolt cikken példa van 3 karakterjelre és karakterjelkészletre, amelyek úgy tűnik, hogy mindegyik egy-egy karakternek és karakterkészletnek felel meg. Nem értem, hogyan működhet ez: bizonyára ez azt jelenti, hogy következetlenségek vagy kétértelműségek mutatkoznak abban, ahogy ezeket a karaktereket értelmezik, értelmezőként változik? (Vagy nyelvenként vagy betűtípusonként változik?)
    • Míg a karakterjelző böngészők (pl. Az Illustratorban találhatóak) tartalmazzák a betűtípus teljes karakterjelkészletét, a karaktertérképek (pl. A Windows karaktertérkép) csak karaktereket tartalmaznak, nem pedig több karakterből álló karakterjeleket, például ligatúrákat (amiket korábban nem vettem észre)

Úgy érzem, hogy már majdnem ott vagyok, de valahol egyértelműen félreértettem valamit: nem csak az „Egy karakter több karaktert” dolgot, de a viselkedés másolása és beillesztése ligatúrákkal nem “várakozásom”:

  • Másolja a ligatúrát az Illustrator alkalmazásból erre a beviteli mezőre: a várakozásoknak megfelelően fi (két karakter) beillesztés .
  • Illessze be a HTML kódot hozzá () – ligatúraként jelenik meg, ha nincs kódblokkban (fi – amely ebben a betűtípusban nem hasonlít egy ligatúrára, de” lásd: az egyik, ha csak a felét próbálja kiválasztani), és a kód, amikor egy kódblokkban van (fi), a várakozásoknak megfelelően.
  • Másolás és beillesztés a renderelt, nem kódblokkoló ligatúra vissza a beviteli mezőbe: a ligatúra karakterként beilleszti, és a ligatúraként renderel, függetlenül attól, hogy kódblokkban van-e vagy sem (ф és ). Hasonlóképpen az azt tartalmazó szavak: fi t mis fi ts (fit misfits) mint hibát hibázik (fit misfits). Talán attól függ, hogy a beillesztett hely megérti-e a használt kódolást?

Mennyire tévedek ennek megértése? Helyesbíthet-e valaki: egyértelműen a karakterjelek és a karakterek közötti különbség meghatározása (ha az enyém téved, vagy javítható), és az enyémnél világosabb / pontosabb példákat adjon arra, hogy ez mit jelent a gyakorlatban ?

Megjegyzések

  • Sokkal bonyolultabbá válik, ha olyan szkriptjeid vannak, mint az arab, ahol karaktereket kombinálsz.
  • @MartinSchr ö der +1 Úgy hangzik, mint egy kiváló válasz kezdő mondata … 🙂

Válasz

A karakterjelek a szöveg megjelenítéséhez, a karakterek a tolmácsoláshoz kapcsolódnak. A & beillesztés másolásakor a forrásalkalmazás általában több formátum közül választhat. A sima szöveg lebontja a fi lgatúrát f-re és i-re, a HTML formátum lefordíthatja azt az általad idézett char entitássá, vagy lebonthatja f és i alakban is.

Általában a karakterek és a karakterjelek kapcsolata n: m. Indiai nyelveken néhány karakter két karakterre oszlik, amelyek a szó különböző helyein helyezkednek el. Latinul ehhez a helyzethez a legközelebb az é két karakterjel (e és ´) ábrázolása lenne.Arabul minden karakter különböző karakterjelekkel rendelkezik, attól függően, hogy milyen helyzetben vannak egy szóban: kezdő, középső, végső vagy elszigetelt.

A karakterekből a karakterjelekbe történő fordítás az egyes alkalmazásokra és az általuk támogatott tipográfiai jellemzőkre jellemző. A latin nyelvű szöveg esetében ez a fordítás korábban egyszerű volt, de az OpenType betűtípusok olyan további szolgáltatásokat vezettek be, mint például a ligatúrák, az alakváltások, az alternatív űrlapok, a kis sapkák stb. renderelt szöveget, vagy ha betűtípust tervez, vagy ha olyan OpenType szolgáltatást szeretne alkalmazni, amely egyes karakterjeleket másokkal helyettesít (pl. ligatúrákat). Egyébként a Unicode kódpontok a barátod.

Megjegyzések

  • Szia user322483, üdvözlöm a GDSE-ben, és köszönöm a válaszod. Ha kérdése van, kérjük, keresse fel a súgót , vagy pingeljen egyikünket a grafikai csevegésben ha a hírneved elegendő (20). Tartson közreműködést, és élvezze az oldalt!
  • Írsz ” Arabul minden karakter különböző karakterjelekkel rendelkezik, attól függően, hogy a szavakon belül milyen helyen helyezkedik el: kezdő, középső, végső vagy elszigetelt . ” < — Nem lennének ‘ t, ha különböző karakterek lennének. Az angolnak van A és a, de a beszéd kiszámításakor az A és a különböző karakterek. mindegyik karakterjel egy másik kódhoz van hozzárendelve. A héber nyelven van chaf és final chaf (a szó végén lévő betű chaf, másképp néz ki), és én ‘ biztos vagyok benne, hogy ‘ más karakternek nevezik a számítástechnikában.

Válasz

Nem gondolom, hogy a megértésed téves neked ” csak olyan rendszereket látunk, amelyek megpróbálnak segíteni a felhasználónak azáltal, hogy beillesztik, amit gondol. Mivel egyes ligatúrák (“fi”, “fl”) meglehetősen gyakoriak a szedési rendszereken kívül, a szoftver felismeri, hogy a felhasználó valószínűleg nem írta be ezt a karakterjelet, inkább egy másik alkalmazás alakította át a beírt karaktereket.

Röviden : Karakter egy nyelvi egységre utal. karakterjel az egység tervezett példányára utal, legyen az nagybetűs, kisbetűs, kis sapkás, történelmi vagy stílusváltozat.

Megjegyzések

  • A számítás során az A és az a különböző karakterek. Az ASCII 128 karakterből áll, és az ott szereplő karakter kifejezésben A és egy külön karakterek szerepelnek.
  • A mérnökök sok olyan szót használnak, amelyek nem ‘ nem igazodik más iparágak precedenseihez. A tiéd egy jó példa.
  • aki előállta a ” karakter ” és ” glyph ” f irst? grafikusok vagy számítógépes mérnökök? Azt hittem,

hogy a számítógépek a grafikai tervezés elé kerültek. De lehet, hogy van olyan nyomdaipar, amely megelőzte a grafikai tervezést, és vitatható, hogy valamilyen módon megelőzte a számítógépeket, vagy megelőzte a modern számítógépeket. Gondolom, bár a nyomdaipar a legjobban tud válaszolni a mai grafikai tervezésre, de ‘ nincs nyomdaipari veremcsere. De ‘ érdekes lehet tudni, hogy kitől kaptak kölcsön és milyen módon írták át a Karakter kifejezést.

  • A tipográfia hosszú elött volt szoftverfejlesztés. Kérjük, írjon ide, ha vállalja a kutatást és megtalálja az eredetét. Azt hiszem, valamikor a 17. században lesz. Valószínűleg már az első tipográfusoknál, 16. közepén.
  • Válasz

    Van itt pár válasz amelyek jó információkat adnak a karakterjelekről és a karakterekről, de valójában nem foglalkoznak a másolás és beillesztés zavaraival.

    Először is, megértése alapvetően helyes:

    A karaktereket a nyelv jelentése jük, a karakterjelek, a megjelenésük alapján határozzuk meg. Tehát az esztétikus ötvözés ligatúrája fi egy karakterjel, de két karakter.

    Érdemes hangsúlyozni, hogy a karakterek listáját az Unicode határozza meg szabvány, amelyet az Unicode Konzorcium tesz közzé, annak a ténynek köszönhető, hogy “ők rendelkeznek a jogosultsággal a szöveg géppel olvasható formátumban történő kódolására. A fenti meghatározás lényegében az elsődleges irányelv, amelyet az Unicode konzorcium tagjai használnak annak eldöntésére, hogy javasoltak-e vagy sem. addit Az Unicode-hoz tartozó karakter karakter és így érdemes szerepeltetni, vagy glyph , és a betűtípus-megjelenítőknek kell kezelniük.

    Ezt azért említem, mert a zavar amit fentebb tapasztaltál, annak tudható be, hogy az Unicode-ban több ligatúra karakter (és nem karakterjel ) létezik.Például a U+FB01 a karakter karaktere: http://unicode.org/charts/PDF/UFB00.pdf

    Ha a ligatúra karakterek az Unicode-ban vannak, akkor nem igazán a fenti definíció szellemében, hogy milyen dolgokat kell szerepeltetni az Unicode szabványban karakterként, mivel a ligatúráknak valójában nincsenek két másik karakter összetétele. Az Unicode-os emberek természetesen tisztában vannak ezzel, és a Unicode GYIK a ligatúrákról ennyit is elismer:

    A meglévő ligatúrák alapvetően a nem Unicode karakterkészletekkel való kompatibilitás és körbekapcsolás miatt léteznek. Használatuk nem javasolt.

    Ennek a karakternek a megléte okozza végső soron a zavart.

    A megfelelően telepített szoftverekben a másolás a szövegnek mindig át kell másolnia a megadott karaktereket , nem pedig a karakterjeleket , és ez pontosan az, ami a három példájában zajlik.

    1) Az első példában f és i beírta az Illustrator programba, amely egyetlen ligatúrát glyph renderelt . Amikor kiválasztotta és átmásolta a rendezett karakterjelet, az Illustrator helyesen másolta a f (U+0066) és i (U+0069) karaktereket a vágólapra.

    2) A második példában beírta a beviteli mezőbe a karakter (&#64257) ligatúra HTML-kódját, és helyesen kapta meg a ligatúra karakter et jelképező ligatúrát glyph (. Mivel az alapul szolgáló karakter valójában a fent említett homályos és viszonylag értelmetlen ligatúra-karakter, az a karakterjel egyetlen karaktert másol U+FB01.

    3) A harmadik példában a renderelt ligatúra karakter U+FB01 amelyet a 2. részben rendeltek el, amely mindig beillesztésre kerül, mint a karakter. Úgy tűnik, hogy a fő zavarod a HTML entitáskódok és a karakterek közötti különbségre vonatkozik, különös tekintettel a megjelenítés módjára. a kódblokkokon belül és kívül.

    A HTML entitás kódja &#64257; egy 8 különálló karakterlánc. A böngésző HTML-megjelenítője helyettesíti ezt a 8 karaktert U+0026 U+0023 U+0036 U+0032 U+0035 U+0037 U+0023 az U+FB01 single Unicode karakterrel, amelyet azután megfelelően renderel. A HTML-ben található <code> címke azonban letiltja ezt a viselkedést, így a 8 karakter a jelenlegi állapotában marad.

    Amikor másolja a renderelt HTML-t, a renderelt karakterek (amelyek eltérnek a renderelt karakterjelek től). Így a renderelt HTML-entitás másolásakor az egyetlen U+FB01 karakter a vágólapra másolódik.

    A U+FB01 karakter vissza a HTML-be, nem kell helyettesíteni, vagyis a karakter ligatúraként jelenik meg, függetlenül attól, hogy egy <code> blokk.

    Válasz

    A karakterek azok, amelyeket szöveges fájlokban tárolnak, az alkalmazások feldolgoznak, és mozogtak, miközben a karakterjelek a vizuális megjelenítésük.

    A tiszta kép érdekében megnézhetjük, mi történik, amikor egy alkalmazás megpróbál egy szövegsort megjeleníteni a képernyőn (kissé leegyszerűsítve):

    • Az alkalmazás először elolvasta a szöveges karakterláncot, amely a lemezen vagy a memóriában tárolt karakterláncot tartalmazta.
    • Ezután elküldte a szöveges elrendező motornak, néhány között egyéb tulajdonságok, például a kívánt betűtípus, szövegnyelv és így tovább:
      • T a szövegelrendező motor alapvetően megnyitja a betűtípusfájlt, kéri tőle az egyes karaktereknek megfelelő karakterjelet (karakterjeleket), és néhány karakterjelet helyettesít (például a karakterjelet a f és a i a fi kötőjeljelével és pozícionálásával (mint a kerning).
      • Végül az elrendező motor sorozata: karakterjelek, egymáshoz viszonyított helyzetük, valamint a bemeneti karakterek és a kimeneti karakterjelek leképezése. A karakter karakterleképezéshez úgy kell tudnia, hogy a file szó első két karaktere megegyezik az első karakterjelével (a fi ligatúra ), a 3. karakter a 2. karakterig és a 4. karakter a 3. karakterig.
    • Ezután egy grafikus megjelenítő könyvtár segítségével „rajzolják” le ezeket a karaktereket a képernyőn a alakzatok a betűtípusból.
    • Amikor a felhasználó a képernyőn kijelöli a „karakterjeleket”, az alkalmazás megkérdezi az elrendező motor által biztosított karakterjel és szöveg közötti leképezést, hogy megtudja, a bemeneti szöveg mely része felel meg a a felhasználó kiválasztja és elküldi a szöveget a vágólapra, amikor a felhasználó másolja.
    • Ugyanez történik, amikor a felhasználó beilleszti a kurzort a szöveg közepébe és elkezdi gépelni, a leképezés meghatározza, hogy a beviteli szövegben hová illessze be az új karaktereket, és a frissítő szöveget elküldi az elrendező motornak a folyamat, újrarajzolás és így tovább.

    Vélemény, hozzászólás?

    Az email címet nem tesszük közzé. A kötelező mezőket * karakterrel jelöltük