láttam ezt a kérdést a tipográfia webhely javaslatán , és hibát vetett rám, hogy nem sikerült “Nem tudom a választ. A” karakterjelet “és a” karaktert “mindig felcserélhetőként kezeltem.
Miután elolvastam egy magyarázatot az Unicode-on Karakterkódoló modelloldal , megértésem nagyjából ez:
- A karaktereket a nyelv jelentése jével, a karakterjelekkel, a megjelenésükkel . Tehát a
fi
esztétikus kombinálásának ligatúrája egy karakterjel, de két karakter.
Tehát meggyőződésem: (kérem, javítson ki, ha igen ” téves), hogy a gyakorlati különbség a következő lenne:
- A szöveg értelmezői, akiket nem érdekel a szöveg esztétikája, a karakterjeleket a karaktereikként olvassák. Tehát:
- Ha a karakterjeleket tartalmazó szöveget sima szövegszerkesztőbe másolná és beillesztené, a karakterjelek a megfelelő karaktereikké alakulnak át (a
fi
ligatúra karakterjelébőlf
ési
lesz ) - Minden jól elkészített, szövegelemzésen alapuló automatizált rendszer (pl. keresőmotorok, képernyőolvasók, helyesírás-ellenőrzők) a karakterjeleket a megfelelő karaktereikként értelmezik.
- Egy karakter sokféle lehet karakterjelek vagy karakterjelkészletek. Azt akarom mondani, hogy egy karakterjelnek csak egy karaktere lehet, de ez egyértelműen nem “megfelelő”, mivel a kapcsolt cikken példa van 3 karakterjelre és karakterjelkészletre, amelyek úgy tűnik, hogy mindegyik egy-egy karakternek és karakterkészletnek felel meg. Nem értem, hogyan működhet ez: bizonyára ez azt jelenti, hogy következetlenségek vagy kétértelműségek mutatkoznak abban, ahogy ezeket a karaktereket értelmezik, értelmezőként változik? (Vagy nyelvenként vagy betűtípusonként változik?)
- Míg a karakterjelző böngészők (pl. Az Illustratorban találhatóak) tartalmazzák a betűtípus teljes karakterjelkészletét, a karaktertérképek (pl. A Windows karaktertérkép) csak karaktereket tartalmaznak, nem pedig több karakterből álló karakterjeleket, például ligatúrákat (amiket korábban nem vettem észre)
- Ha a karakterjeleket tartalmazó szöveget sima szövegszerkesztőbe másolná és beillesztené, a karakterjelek a megfelelő karaktereikké alakulnak át (a
Úgy érzem, hogy már majdnem ott vagyok, de valahol egyértelműen félreértettem valamit: nem csak az „Egy karakter több karaktert” dolgot, de a viselkedés másolása és beillesztése ligatúrákkal nem “várakozásom”:
- Másolja a ligatúrát
fi
az Illustrator alkalmazásból erre a beviteli mezőre: a várakozásoknak megfelelőenfi
(két karakter) beillesztés . - Illessze be a HTML kódot hozzá () – ligatúraként jelenik meg, ha nincs kódblokkban (fi – amely ebben a betűtípusban nem hasonlít egy ligatúrára, de” lásd: az egyik, ha csak a felét próbálja kiválasztani), és a kód, amikor egy kódblokkban van (
fi
), a várakozásoknak megfelelően. - Másolás és beillesztés a renderelt, nem kódblokkoló ligatúra vissza a beviteli mezőbe: a ligatúra karakterként beilleszti, és a ligatúraként renderel, függetlenül attól, hogy kódblokkban van-e vagy sem (ф és
fi
). Hasonlóképpen az azt tartalmazó szavak: fi t mis fi ts (fit misfits
) mint hibát hibázik (fit misfits
). Talán attól függ, hogy a beillesztett hely megérti-e a használt kódolást?
Mennyire tévedek ennek megértése? Helyesbíthet-e valaki: egyértelműen a karakterjelek és a karakterek közötti különbség meghatározása (ha az enyém téved, vagy javítható), és az enyémnél világosabb / pontosabb példákat adjon arra, hogy ez mit jelent a gyakorlatban ?
Megjegyzések
- Sokkal bonyolultabbá válik, ha olyan szkriptjeid vannak, mint az arab, ahol karaktereket kombinálsz.
- @MartinSchr ö der +1 Úgy hangzik, mint egy kiváló válasz kezdő mondata … 🙂
Válasz
A karakterjelek a szöveg megjelenítéséhez, a karakterek a tolmácsoláshoz kapcsolódnak. A & beillesztés másolásakor a forrásalkalmazás általában több formátum közül választhat. A sima szöveg lebontja a fi lgatúrát f-re és i-re, a HTML formátum lefordíthatja azt az általad idézett char entitássá, vagy lebonthatja f és i alakban is.
Általában a karakterek és a karakterjelek kapcsolata n: m. Indiai nyelveken néhány karakter két karakterre oszlik, amelyek a szó különböző helyein helyezkednek el. Latinul ehhez a helyzethez a legközelebb az é két karakterjel (e és ´) ábrázolása lenne.Arabul minden karakter különböző karakterjelekkel rendelkezik, attól függően, hogy milyen helyzetben vannak egy szóban: kezdő, középső, végső vagy elszigetelt.
A karakterekből a karakterjelekbe történő fordítás az egyes alkalmazásokra és az általuk támogatott tipográfiai jellemzőkre jellemző. A latin nyelvű szöveg esetében ez a fordítás korábban egyszerű volt, de az OpenType betűtípusok olyan további szolgáltatásokat vezettek be, mint például a ligatúrák, az alakváltások, az alternatív űrlapok, a kis sapkák stb. renderelt szöveget, vagy ha betűtípust tervez, vagy ha olyan OpenType szolgáltatást szeretne alkalmazni, amely egyes karakterjeleket másokkal helyettesít (pl. ligatúrákat). Egyébként a Unicode kódpontok a barátod.
Megjegyzések
- Szia user322483, üdvözlöm a GDSE-ben, és köszönöm a válaszod. Ha kérdése van, kérjük, keresse fel a súgót , vagy pingeljen egyikünket a grafikai csevegésben ha a hírneved elegendő (20). Tartson közreműködést, és élvezze az oldalt!
- Írsz ” Arabul minden karakter különböző karakterjelekkel rendelkezik, attól függően, hogy a szavakon belül milyen helyen helyezkedik el: kezdő, középső, végső vagy elszigetelt . ” < — Nem lennének ‘ t, ha különböző karakterek lennének. Az angolnak van A és a, de a beszéd kiszámításakor az A és a különböző karakterek. mindegyik karakterjel egy másik kódhoz van hozzárendelve. A héber nyelven van chaf és final chaf (a szó végén lévő betű chaf, másképp néz ki), és én ‘ biztos vagyok benne, hogy ‘ más karakternek nevezik a számítástechnikában.
Válasz
Nem gondolom, hogy a megértésed téves neked ” csak olyan rendszereket látunk, amelyek megpróbálnak segíteni a felhasználónak azáltal, hogy beillesztik, amit gondol. Mivel egyes ligatúrák (“fi”, “fl”) meglehetősen gyakoriak a szedési rendszereken kívül, a szoftver felismeri, hogy a felhasználó valószínűleg nem írta be ezt a karakterjelet, inkább egy másik alkalmazás alakította át a beírt karaktereket.
Röviden : Karakter egy nyelvi egységre utal. karakterjel az egység tervezett példányára utal, legyen az nagybetűs, kisbetűs, kis sapkás, történelmi vagy stílusváltozat.
Megjegyzések
- A számítás során az A és az a különböző karakterek. Az ASCII 128 karakterből áll, és az ott szereplő karakter kifejezésben A és egy külön karakterek szerepelnek.
- A mérnökök sok olyan szót használnak, amelyek nem ‘ nem igazodik más iparágak precedenseihez. A tiéd egy jó példa.
- aki előállta a ” karakter ” és ” glyph ” f irst? grafikusok vagy számítógépes mérnökök? Azt hittem,
hogy a számítógépek a grafikai tervezés elé kerültek. De lehet, hogy van olyan nyomdaipar, amely megelőzte a grafikai tervezést, és vitatható, hogy valamilyen módon megelőzte a számítógépeket, vagy megelőzte a modern számítógépeket. Gondolom, bár a nyomdaipar a legjobban tud válaszolni a mai grafikai tervezésre, de ‘ nincs nyomdaipari veremcsere. De ‘ érdekes lehet tudni, hogy kitől kaptak kölcsön és milyen módon írták át a Karakter kifejezést.
Válasz
Van itt pár válasz amelyek jó információkat adnak a karakterjelekről és a karakterekről, de valójában nem foglalkoznak a másolás és beillesztés zavaraival.
Először is, megértése alapvetően helyes:
A karaktereket a nyelv jelentése jük, a karakterjelek, a megjelenésük alapján határozzuk meg. Tehát az esztétikus ötvözés ligatúrája fi egy karakterjel, de két karakter.
Érdemes hangsúlyozni, hogy a karakterek listáját az Unicode határozza meg szabvány, amelyet az Unicode Konzorcium tesz közzé, annak a ténynek köszönhető, hogy “ők rendelkeznek a jogosultsággal a szöveg géppel olvasható formátumban történő kódolására. A fenti meghatározás lényegében az elsődleges irányelv, amelyet az Unicode konzorcium tagjai használnak annak eldöntésére, hogy javasoltak-e vagy sem. addit Az Unicode-hoz tartozó karakter karakter és így érdemes szerepeltetni, vagy glyph , és a betűtípus-megjelenítőknek kell kezelniük.
Ezt azért említem, mert a zavar amit fentebb tapasztaltál, annak tudható be, hogy az Unicode-ban több ligatúra karakter (és nem karakterjel ) létezik.Például a U+FB01
a karakter karaktere: http://unicode.org/charts/PDF/UFB00.pdf
Ha a ligatúra karakterek az Unicode-ban vannak, akkor nem igazán a fenti definíció szellemében, hogy milyen dolgokat kell szerepeltetni az Unicode szabványban karakterként, mivel a ligatúráknak valójában nincsenek két másik karakter összetétele. Az Unicode-os emberek természetesen tisztában vannak ezzel, és a Unicode GYIK a ligatúrákról ennyit is elismer:
A meglévő ligatúrák alapvetően a nem Unicode karakterkészletekkel való kompatibilitás és körbekapcsolás miatt léteznek. Használatuk nem javasolt.
Ennek a karakternek a megléte okozza végső soron a zavart.
A megfelelően telepített szoftverekben a másolás a szövegnek mindig át kell másolnia a megadott karaktereket , nem pedig a karakterjeleket , és ez pontosan az, ami a három példájában zajlik.
1) Az első példában f
és i
beírta az Illustrator programba, amely egyetlen ligatúrát glyph renderelt . Amikor kiválasztotta és átmásolta a rendezett karakterjelet, az Illustrator helyesen másolta a f
(U+0066
) és i
(U+0069
) karaktereket a vágólapra.
2) A második példában beírta a beviteli mezőbe a karakter (fi
) ligatúra HTML-kódját, és helyesen kapta meg a ligatúra karakter et jelképező ligatúrát glyph (. Mivel az alapul szolgáló karakter valójában a fent említett homályos és viszonylag értelmetlen ligatúra-karakter, az a karakterjel egyetlen karaktert másol U+FB01
.
3) A harmadik példában a renderelt ligatúra karakter U+FB01
amelyet a 2. részben rendeltek el, amely mindig beillesztésre kerül, mint a karakter. Úgy tűnik, hogy a fő zavarod a HTML entitáskódok és a karakterek közötti különbségre vonatkozik, különös tekintettel a megjelenítés módjára. a kódblokkokon belül és kívül.
A HTML entitás kódja fi
egy 8 különálló karakterlánc. A böngésző HTML-megjelenítője helyettesíti ezt a 8 karaktert U+0026 U+0023 U+0036 U+0032 U+0035 U+0037 U+0023
az U+FB01
single Unicode karakterrel, amelyet azután megfelelően renderel. A HTML-ben található <code>
címke azonban letiltja ezt a viselkedést, így a 8 karakter a jelenlegi állapotában marad.
Amikor másolja a renderelt HTML-t, a renderelt karakterek (amelyek eltérnek a renderelt karakterjelek től). Így a renderelt HTML-entitás másolásakor az egyetlen U+FB01
karakter a vágólapra másolódik.
A fi
U+FB01
karakter vissza a HTML-be, nem kell helyettesíteni, vagyis a karakter ligatúraként jelenik meg, függetlenül attól, hogy egy <code>
blokk.
Válasz
A karakterek azok, amelyeket szöveges fájlokban tárolnak, az alkalmazások feldolgoznak, és mozogtak, miközben a karakterjelek a vizuális megjelenítésük.
A tiszta kép érdekében megnézhetjük, mi történik, amikor egy alkalmazás megpróbál egy szövegsort megjeleníteni a képernyőn (kissé leegyszerűsítve):
- Az alkalmazás először elolvasta a szöveges karakterláncot, amely a lemezen vagy a memóriában tárolt karakterláncot tartalmazta.
- Ezután elküldte a szöveges elrendező motornak, néhány között egyéb tulajdonságok, például a kívánt betűtípus, szövegnyelv és így tovább:
- T a szövegelrendező motor alapvetően megnyitja a betűtípusfájlt, kéri tőle az egyes karaktereknek megfelelő karakterjelet (karakterjeleket), és néhány karakterjelet helyettesít (például a karakterjelet a
f
és ai
afi
kötőjeljelével és pozícionálásával (mint a kerning). - Végül az elrendező motor sorozata: karakterjelek, egymáshoz viszonyított helyzetük, valamint a bemeneti karakterek és a kimeneti karakterjelek leképezése. A karakter karakterleképezéshez úgy kell tudnia, hogy a
file
szó első két karaktere megegyezik az első karakterjelével (afi
ligatúra ), a 3. karakter a 2. karakterig és a 4. karakter a 3. karakterig.
- T a szövegelrendező motor alapvetően megnyitja a betűtípusfájlt, kéri tőle az egyes karaktereknek megfelelő karakterjelet (karakterjeleket), és néhány karakterjelet helyettesít (például a karakterjelet a
- Ezután egy grafikus megjelenítő könyvtár segítségével „rajzolják” le ezeket a karaktereket a képernyőn a alakzatok a betűtípusból.
- Amikor a felhasználó a képernyőn kijelöli a „karakterjeleket”, az alkalmazás megkérdezi az elrendező motor által biztosított karakterjel és szöveg közötti leképezést, hogy megtudja, a bemeneti szöveg mely része felel meg a a felhasználó kiválasztja és elküldi a szöveget a vágólapra, amikor a felhasználó másolja.
- Ugyanez történik, amikor a felhasználó beilleszti a kurzort a szöveg közepébe és elkezdi gépelni, a leképezés meghatározza, hogy a beviteli szövegben hová illessze be az új karaktereket, és a frissítő szöveget elküldi az elrendező motornak a folyamat, újrarajzolás és így tovább.