UTF-16은 유해한 것으로 간주되어야합니까?

정답이 아닙니다. " שָׁ "를 작성하면 " ש로 구성된 복합 문자를 설명합니다. ", " ָ " 및 " ׁ ", vovels, 각각의 제거는 논리적입니다. " 백 스페이스를 누르면 하나의 코드 포인트가 제거됩니다. "를 누르고 " del "를 누르면 보벨을 포함한 모든 문자를 제거합니다. 그러나 불법 상태의 텍스트 (불법 코드 포인트)는 절대 생성하지 않습니다. 따라서 백 스페이스 키를 누르고 잘못된 텍스트가 표시되는 상황은 올바르지 않습니다.
CiscoIPPhone : 버그가 " 인 경우 여러 사람이 여러 번보고했습니다. " 그리고 몇 년 후 개발자가 개발자 블로그에 " 믿거 나 말거나 대부분 의도적입니다. ", (약하게 말하면) ' 아마도 최고의 디자인 결정이 아니라고 생각하는 경향이 있습니다. 🙂 '의 의도가 ' 그것을 의미하지는 않는다고 ' 버그.
좋은 소식입니다. UTF-16은 실제로 " 두 세계 중 최악의 " : UTF8은 가변 길이이고 모든 유니 코드를 포함하며 변환 알고리즘이 필요합니다. 원시 코드 포인트로 /에서 ASCII로 제한하며 엔디안 문제가 없습니다. UTF32는 고정 길이이며 변환이 필요하지 않지만 더 많은 공간을 차지하고 엔디안 문제가 있습니다. 지금까지는 내부적으로 UTF32를 사용하고 직렬화를 위해 UTF8을 사용할 수 있습니다. 그러나 UTF16에는 이점이 없습니다. ' 엔디안에 의존하고 '의 가변 길이이며 많은 공간을 차지합니다. '는 ASCII와 호환되지 않습니다. UTF16을 올바르게 처리하는 데 필요한 노력은 UTF8에서 더 잘 사용할 수 있습니다.
@Ian : UTF-8은 UTF-8과 동일한주의 사항이 없습니다 . UTF-8로 서로 게이트를 가질 수 없습니다. UTF-8은 그렇지 않은 것처럼 가장하지 않지만 UTF-16을 사용하는 대부분의 프로그래머는 잘못 사용하고 있습니다. 알아. '이 동영상을 계속해서 봤습니다.
또한 UTF-8은 '하지 않습니다. 모두가 가변 너비 인코딩으로 취급하기 때문에 문제가 있습니다. UTF-16에 문제가있는 이유는 모든 사람이 고정 너비 인코딩처럼 취급하기 때문입니다.

Answer

이것은 이전 답변입니다.
UTF-8 Everywhere 는 최신 업데이트를 확인합니다.

의견 : 예, UTF-16은 유해한 것으로 간주되어야합니다 . 그것이 존재하는 바로 그 이유는 얼마 전 widechar가 현재 UCS-4가 될 것이라는 잘못된 믿음이 있었기 때문입니다.

UTF-8의 “anglo-centrism”에도 불구하고, 그것은 텍스트에 대한 유일한 유용한 인코딩으로 간주되어야합니다. 프로그램, 웹 페이지 및 XML 파일, OS 파일 이름 및 기타 컴퓨터 대 컴퓨터 텍스트 인터페이스의 소스 코드가 존재해서는 안된다고 주장 할 수 있습니다. 그러나 그렇게 할 때 텍스트는 인간 독자만을위한 것이 아닙니다.

반면 UTF-8 오버 헤드는 상당한 이점이 있지만 지불해야 할 적은 비용입니다. char*로 문자열을 전달하는 인식되지 않는 코드와의 호환성과 같은 장점. 이것은 대단한 일입니다. UTF-8보다 UTF-16에서 더 짧은 유용한 문자는 거의 없습니다.

다른 모든 인코딩은 결국 죽을 것이라고 믿습니다. 여기에는 MS-Windows, Java, ICU, python이 포함됩니다. 오랜 연구와 토론 끝에 내 회사 의 개발 규칙은 OS API 호출을 제외한 모든 곳에서 UTF-16을 사용하는 것을 금지했으며 이는 중요성에도 불구하고 응용 프로그램의 성능과 Windows를 사용한다는 사실입니다. 변환 함수는 항상 가정 된 UTF8 std::string를 Windows 자체가 올바르게 지원하지 않습니다 .

“ 필요한 곳에 필요한 것을 사용하세요 “라고 말하는 사람들에게 “모든 곳에서 동일한 인코딩을 사용하는 것은 큰 이점이 있으며, 특히 C ++에 wchar_t를 추가하는 것은 실수라고 생각합니다. C ++ 0x에 유니 코드를 추가하는 것도 실수라고 생각합니다. STL 구현에서 요구해야하는 것은 모든 std::string 또는 char* 매개 변수는 유니 코드와 호환되는 것으로 간주됩니다.

또한 “ 사용에 반대합니다. 당신이 원하는 것 “접근. 그런 자유에 대한 이유가 없습니다. 텍스트 주제에 대한 충분한 혼란이있어서이 모든 소프트웨어가 손상되었습니다. 위에서 말했듯이, 저는 프로그래머가 마침내 UTF-8에 대한 합의를 하나의 적절한 방법으로해야한다고 확신합니다. (저는 ASCII를 사용하지 않는 국가에서 왔고 Windows에서 자랐기 때문에 마지막으로 종교적 근거에 따라 UTF-16을 공격 할 것으로 예상됩니다.)

더 많은 정보를 공유하고 싶습니다. Windows에서 텍스트를 작성하는 방법과 컴파일시 확인 된 유니 코드 정확성, 사용 용이성 및 코드의 더 나은 다중 플랫폼성에 대해 다른 모든 사람에게 권장하는 사항에 대해 설명합니다. 이 제안은 Windows에서 유니 코드를 사용하는 적절한 방법으로 일반적으로 권장되는 것과 상당히 다릅니다. 그러나 이러한 권장 사항에 대한 심층 연구 결과 동일한 결론이 나왔습니다. 따라서 다음과 같습니다.

인접한 지점이 아닌 다른 위치에서 wchar_t 또는 std::wstring를 사용하지 마십시오. UTF-16을 허용하는 API.
_T("") 또는 L"" UTF-16 리터럴을 사용하지 마십시오 (이들은 IMO가 표준에서 제외되어야합니다. , UTF-16 지원 중단의 일부).
_UNICODE 상수에 민감한 유형, 함수 또는 파생어 (예 : LPTSTR 또는 CreateWindow().
그러나 _UNICODE는 항상 정의되어 있습니다. 자동 컴파일되는 char* 문자열을 WinAPI에 전달하지 마십시오.
std::strings 및 char* 프로그램의 모든 위치는 UTF-8로 간주됩니다 (달리 언급되지 않은 경우).
내 모든 문자열은 std::string이지만 char * 또는 문자열 리터럴을 convert(const std::string &).
와이드 문자를 허용하는 Win32 함수 만 사용합니다 (LPWSTR). LPTSTR 또는 LPSTR를 허용하는 사람은 절대 허용하지 않습니다. 다음과 같이 매개 변수를 전달합니다.
```
::SetWindowTextW(Utils::convert(someStdString or "string litteral").c_str()) 
```
(정책은 아래 변환 함수를 사용합니다.)

MFC 문자열 사용 :

CString someoneElse; // something that arrived from MFC. Converted as soon as possible, before passing any further away from the API call: std::string s = str(boost::format("Hello %s\n") % Convert(someoneElse)); AfxMessageBox(MfcUtils::Convert(s), _T("Error"), MB_OK);

Windows에서 파일, 파일 이름 및 fstream 작업 :
- 전달하지 않음 std::string 또는 const char* fstream 계열에 대한 파일 이름 인수. MSVC STL은 UTF-8 인수를 지원하지 않지만 다음과 같이 사용해야하는 비표준 확장이 있습니다.
- std::string 인수를 std::wstring with Utils::Convert :
```
std::ifstream ifs(Utils::Convert("hello"), std::ios_base::in | std::ios_base::binary); 
```
  우리는 수동으로 fstream에 대한 MSVC의 태도가 변경되면 변환을 제거하십시오.
- 이 코드는 다중 플랫폼이 아니므로 수동으로 변경해야 할 수 있습니다. 미래
- 자세한 내용은 fstream 유니 코드 조사 / 토론 사례 4215를 참조하세요.
- UTF8이 아닌 콘텐츠로 텍스트 출력 파일을 생성하지 마십시오.
- RAII / OOD 이유로 fopen()를 사용하지 마십시오. 필요한 경우 위의 _wfopen() 및 WinAPI 규칙을 사용하세요.

// For interface to win32 API functions std::string convert(const std::wstring& str, unsigned int codePage /*= CP_UTF8*/) { // Ask me for implementation.. ... } std::wstring convert(const std::string& str, unsigned int codePage /*= CP_UTF8*/) { // Ask me for implementation.. ... } // Interface to MFC std::string convert(const CString &mfcString) { #ifdef UNICODE return Utils::convert(std::wstring(mfcString.GetString())); #else return mfcString.GetString(); // This branch is deprecated. #endif } CString convert(const std::string &s) { #ifdef UNICODE return CString(Utils::convert(s).c_str()); #else Exceptions::Assert(false, "Unicode policy violation. See W569"); // This branch is deprecated as it does not support unicode return s.c_str(); #endif }

동의 할 수 없습니다 '. 많은 아시아 언어에서 utf8보다 utf16의 장점이 당신이 만드는 포인트를 완전히 지배합니다. 일본, 태국, 중국 등이이 인코딩을 포기하기를 바라는 것은 순진합니다. 문자 집합 간의 문제가되는 충돌은 차이점을 제외하고 문자 집합이 거의 비슷해 보일 때입니다. 나는 표준화를 제안한다 : 고정 7 비트 : iso-irv-170; 8 비트 변수 : utf8; 16 비트 변수 : utf16; 32 비트 고정 : ucs4.
@Charles : 입력 해 주셔서 감사합니다. 사실, 일부 BMP 문자는 UTF-16보다 UTF-8에서 더 깁니다. 그러나 '가 직면하게합시다. 문제는 BMP 중국어 문자가 차지하는 바이트가 아니라 발생하는 소프트웨어 설계 복잡성입니다. 어쨌든 중국 프로그래머가 가변 길이 문자를 디자인해야한다면 UTF-8은 시스템의 다른 변수에 비해 여전히 지불해야 할 작은 가격 인 것 같습니다. 공간이 매우 중요한 경우 UTF-16을 압축 알고리즘으로 사용할 수 있지만, 그럼에도 LZ와 일치하지 않으며 LZ 또는 기타 일반 압축 후에는 둘 다 동일한 크기와 엔트로피를 사용합니다.
내가 기본적으로 말하는 것은 기존의 char * 프로그램과도 호환되는 One 인코딩으로 제공되는 단순화가 제공되며 오늘날 모든 것에 대해 가장 인기있는 것은 상상할 수 없다는 것입니다.마치 옛날 " 일반 텍스트 " 일과 비슷합니다. 이름이있는 파일을 열고 싶습니까? 어떤 종류의 유니 코드를 수행하는지 등을 신경 쓸 필요가 없습니다. 개발자 여러분은 UTF-16을 매우 특별한 경우에 제한하여 약간의 성능이 수개월의 작업에 가치가있는 매우 특수한 경우에 제한 할 것을 제안합니다.
Linux는 내부적으로 UTF-8을 사용하도록 선택할 때 특정 요구 사항이있었습니다. 바로 Unix와의 호환성입니다. Windows는 '이를 필요로하지 않았으므로 개발자가 유니 코드를 구현할 때 텍스트를 처리하는 거의 모든 함수의 UCS-2 버전을 추가하고 멀티 바이트 버전을 UCS-2로 간단히 변환하고 다른 사람들에게 전화하십시오. 나중에 UCS-2를 UTF-16으로 대체합니다. 반면 Linux는 8 비트 인코딩을 유지하므로 UTF-8을 사용했습니다. '이 경우 적절한 선택입니다.
@Pavel Radzivilovsky : BTW, " 다른 모든 인코딩은 결국 죽을 것이라고 믿습니다. 여기에는 MS-Windows, Java, ICU, python이 즐겨 찾기로 사용하는 것을 중지해야합니다. " 및 " 특히 C ++에 wchar_t를 추가하는 것은 실수라고 생각합니다. C ++ Ox에 유니 코드를 추가하는 것도 실수라고 생각합니다. " 는 매우 순진하거나 매우 거만합니다. . 그리고 이것은 집에서 Linux로 코딩하고 UTF-8 문자에 만족하는 누군가로부터 왔습니다. 솔직히 말해서 : 이겼습니다 ' 발생하지 않았습니다 .

답변

유니 코드 코드 포인트는 문자가 아닙니다! 때로는 글리프 (시각적 형식)가 아닙니다. .

몇 가지 예 :

“ⅲ”와 같은 로마 숫자 코드 포인트. ( “iii”처럼 보이는 단일 문자.)
단일 결합 된 문자 “\ u00e1″또는 문자와 분리 된 분음 부호 “\ u0061 \로 표현 될 수있는”á “와 같은 액센트 문자 u0301 “.
그리스어 소문자 시그마와 같은 문자. 단어 위치의 중간 (“σ “)과 끝 (“ς “)에 대해 서로 다른 형식을 갖지만 검색의 동의어로 간주되어야합니다.
유니 코드 임의 하이픈 U + 00AD. 컨텍스트에 따라 시각적으로 표시되거나 표시되지 않을 수 있으며 의미 검색에서는 무시됩니다.

유니 코드 편집을 얻는 유일한 방법 권리는 전문가가 작성한 라이브러리를 사용하거나 전문가가되어 직접 작성하는 것입니다. 코드 포인트 만 세고 있다면 죄의 상태에있는 것입니다.

이것입니다. 아주 많이. UTF-16은 문제를 일으킬 수 있지만 전체적으로 UTF-32를 사용하더라도 여전히 문제가 발생할 수 있습니다.
문자 란 무엇입니까? 코드 포인트를 문자로 정의하고 거의 괜찮습니다. 사용자가 볼 수있는 글리프를 의미한다면 그것은 다른 것입니다.
@tchrist 그 정의는 괜찮지 만 다른 것에 대해서는 공간을 할당하는 것이 확실합니까? 별로. 조합 문자를 단독 문자로 처리하는 경우 (예 : 삭제 또는 " 처음 N 문자를 가져옴 " 작업) ' 이상하고 잘못된 동작이 발생합니다. 코드 포인트가 적어도 다른 코드와 결합 될 때만 의미가있는 경우 ' 현명한 방식으로 자체적으로 처리 할 수 없습니다.
@Pacerier, 이것은 파티에 늦었지만 그것에 대해 언급해야합니다. 일부 언어에는 분음 부호의 잠재적 인 조합이 매우 많습니다 (베트남어, 즉 mệt đừ). 분음 부호마다 하나의 문자가 아닌 조합을 사용하는 것이 매우 유용합니다.
용어에 대한 작은 참고 : 코드 포인트 do 는 유니 코드 문자 에 해당합니다. i>; Daniel이 여기서 말하는 것은 유니 코드 자소 클러스터

답변 에 해당하는 사용자 인식 문자 입니다. h2>

유니 코드 변환 형식 (UTF)에 대해 사용할 수있는 간단한 규칙이 있습니다.-저장 및 통신을위한 utf-8-데이터 처리를위한 utf-16 사용하는 대부분의 플랫폼 API가 utf-32 (UNIX 세계에서 일반적) 인 경우 utf-32를 사용합니다.

오늘날 대부분의 시스템은 utf-16 (Windows, Mac OS, Java, .NET, ICU)을 사용합니다. , Qt). 다음 문서도 참조하세요. http://unicode.org/notes/tn12/

“UTF-16 as 유해”로 돌아 가기, 확실히 아닙니다.

대리자를 두려워하는 사람들 (유니 코드를 가변 길이 인코딩으로 변환한다고 생각)하는 사람들은 문자와 문자 간의 매핑을 만드는 다른 (훨씬 더 큰) 복잡성을 이해하지 못합니다. 매우 복잡한 유니 코드 코드 포인트 : 문자, 합자, 변형 선택기, 제어 문자 등을 결합합니다.

여기에서이 시리즈를 읽으십시오. http://www.siao2.com/2009/06/29/9800913.aspx 그리고 UTF-16이 어떻게 쉬운 문제가되는지 확인하십시오.

코멘트

유닉스 세계에서 UTF-32가 일반적으로 사용되는 몇 가지 예를 추가하십시오!

아니요, 그렇지 않습니다. 데이터 처리에 UTF-16을 사용하려고합니다. 그것은 ' 엉덩이가 아파요. UTF-8의 모든 단점은 있지만 장점은 없습니다. UTF-8과 UTF-32는 모두 이전에 Mrs UTF-16으로 알려진 악의적 인 해킹보다 분명히 우수합니다. 이전에는 처녀 이름이 UCS-2였습니다.

어제 Java 코어 String 클래스에서 버그를 발견했습니다. `equalsIgnoreCase` 메서드 (문자열 클래스에있는 다른 메서드)에도 Java는 UTF-8 또는 UTF-32를 사용했습니다. UTF-16을 사용하는 모든 코드에는 수백만 개의 이러한 잠자는 폭탄이 있으며, 나는 지겹고 지쳤습니다. UTF-16은 우리 소프트웨어를 교활한 버그로 영원히 괴롭히는 악의적 인 수두입니다. 분명히 해롭고 더 이상 사용되지 않고 금지되어야합니다.

@tchrist 와우 비 대리인 인식 기능 (아무것도 없었을 때 작성되었고 슬프게도이를 가능하게하는 방식으로 문서화 되었기 때문) 적응 불가능-.toUpperCase (char))를 지정하면 잘못된 동작이 발생합니까? ' 오래된 코드 포인트 맵을 사용하는 UTF-32 함수가 '이를 더 잘 처리하지 못한다는 것을 알고 있습니까? 또한 전체 Java API는 서로 게이트를 잘 처리하지 않고 유니 코드에 대한 더 복잡한 점을 전혀 처리하지 않습니다. 나중에 사용 된 인코딩은 전혀 문제가되지 않습니다. '

-1 : .NET의 무조건 `.Substring(1)`는 모든 비 BMP 유니 코드에 대한 지원을 중단하는 사소한 예입니다. UTF-16을 사용하는 모든 것 에는이 문제가 있습니다. 고정 너비 인코딩으로 처리하기에는 ' 너무 쉽고 문제가 거의 발생하지 않습니다. 따라서 유니 코드를 지원하려는 경우 적극적으로 유해한 인코딩이됩니다.

답변

예, 물론입니다.

왜? 실행 코드 와 관련이 있습니다.

대규모 코퍼스에 대한 코드 포인트 사용 통계 를 살펴보면 Tom Christiansen에 의해 “BMP가 아닌 코드 포인트보다 크기가 더 큰 경우 트랜스 -8 비트 BMP 코드 포인트가 몇 차수 사용되는 것을 볼 수 있습니다.

 2663710 U+002013 ‹–› GC=Pd EN DASH 1065594 U+0000A0 ‹ › GC=Zs NO-BREAK SPACE 1009762 U+0000B1 ‹±› GC=Sm PLUS-MINUS SIGN 784139 U+002212 ‹−› GC=Sm MINUS SIGN 602377 U+002003 ‹ › GC=Zs EM SPACE 544 U+01D49E ‹𝒞› GC=Lu MATHEMATICAL SCRIPT CAPITAL C 450 U+01D4AF ‹𝒯› GC=Lu MATHEMATICAL SCRIPT CAPITAL T 385 U+01D4AE ‹𝒮› GC=Lu MATHEMATICAL SCRIPT CAPITAL S 292 U+01D49F ‹𝒟› GC=Lu MATHEMATICAL SCRIPT CAPITAL D 285 U+01D4B3 ‹𝒳› GC=Lu MATHEMATICAL SCRIPT CAPITAL X

TDD dictum : “테스트되지 않은 코드는 깨어진 코드입니다.”라고 말하고 “실행되지 않은 코드는 깨어진 코드입니다”라고 바꾸고 프로그래머가 BMP가 아닌 코드 포인트를 얼마나 자주 처리해야하는지 생각해보세요.

UTF-16을 가변 너비 인코딩으로 처리하지 않는 것과 관련된 버그는 UTF-8 의 해당 버그보다 눈에 띄지 않을 가능성이 훨씬 큽니다. 일부 프로그래밍 언어는 여전히 UCS-2 대신 UTF-16을 제공한다고 보장하지 않습니다. 일부 고급 프로그래밍 언어는 코드 포인트 대신 코드 단위에 대한 액세스를 제공합니다 (C조차도 사용하는 경우 코드 포인트에 대한 액세스를 제공합니다. wchar_t, 어떤 플랫폼이든

코멘트

" UTF-16을 다음과 같이 처리하지 않는 것과 관련된 버그 가변 너비 인코딩은 UTF-8의 동등한 버그보다 눈에 띄지 않을 가능성이 훨씬 큽니다. " 이것이 문제의 핵심이므로 정답입니다.
정확합니다. UTF-8 처리가 지루하다면 ' 즉시 명백해집니다. UTF-8 처리가 지루한 경우 ' 일반적인 Han 문자 나 수학 기호를 입력 한 경우에만 알 수 있습니다.
매우 사실이지만 다른 경우에는 손, 덜 빈번한 경우에 버그를 찾기 위해 운에 의존해야한다면 단위 테스트는 무엇입니까?
@musiphil : 그렇다면 BMP가 아닌 문자에 대한 단위 테스트를 마지막으로 만든 것은 언제입니까?
이전 진술에 대해 자세히 설명하기 위해 : UTF-8을 사용하더라도 몇 가지 실제 예제 만 본 후에 모든 사례를 다루었다고 확신 할 수 없습니다. UTF-16과 동일 : 코드가 비 대리자 및 대리자 모두에서 작동하는지 테스트해야합니다. (누군가는 UTF-8에는 적어도 4 개의 주요 케이스가 있고 UTF-16에는 2 개의 케이스 만 있다고 주장 할 수도 있습니다.)

Answer

UTF-16이 유해한 것으로 간주 될 수 있다고 생각하면 유니 코드에 대한 더 많은 이해 가 필요하다고 생각합니다.

주관적인 질문에 대한 내 의견을 제시하기 위해 반대 투표를 받았으므로 자세히 설명해 드리겠습니다. UTF-16에 대해 정확히 무엇을 괴롭히는가? 모든 것이 UTF-8로 인코딩 된 경우 선호합니까? UTF-7? 또는 물론 UCS-4는 어떻습니까? 물론 특정 응용 프로그램이 모든 단일 문자 코드를 처리하도록 설계되지는 않았지만 특히 오늘날의 글로벌 정보 도메인에서 국제 경계 간의 통신에 필요합니다.

하지만 실제로 UTF-16이 혼란 스럽거나 부적절하게 구현 될 수 있기 때문에 해로운 것으로 간주되어야한다고 생각한다면 (유니 코드는 확실히 가능할 수 있음), 어떤 문자 인코딩 방법이 해롭지 않은 것으로 간주 될까요?

편집 : 명확히하기 위해 : 표준의 부적절한 구현을 표준 자체의 품질을 반영하는 것으로 간주하는 이유는 무엇입니까? 다른 사람들이 나중에 언급했듯이 응용 프로그램이 도구를 부적절하게 사용한다고해서 해당 도구를 의미하지는 않습니다. 그 자체로 결함이있는 것입니다. 그렇다면 “var 키워드가 유해한 것으로 간주 됨”또는 “스레딩이 유해한 것으로 간주 됨”과 같은 말을 할 수 있습니다.이 질문은 많은 프로그래머가 구현하는 데 어려움을 겪는 표준의 품질과 특성을 혼동한다고 생각합니다. 올바르게 사용하는 것은 유니 코드 자체가 아니라 유니 코드의 작동 방식을 이해하지 못하기 때문이라고 생각합니다.

-1 : Artyom '의 개체에 대해 언급하는 것은 어떻습니까? 그저 그를 애용하는 것보다는 요?
BTW :이 기사를 쓰기 시작했을 때 거의 " 유니 코드의 Softeare 기사에 대한 Joel이 고려되어야합니까? 많은 실수가 있기 때문에 유해합니다. " 예 : utf-8 인코딩은 6자가 아닌 최대 4 자까지 사용합니다. 또한 실제로 다른 UCS-2와 UTF-16을 구분하지 못하며 실제로 제가 이야기하는 문제를 유발합니다.
또한 Joel이이 기사를 작성했을 때 UTF-8 표준은 4가 아닌 6 바이트였습니다. RFC 3629는 기사를 작성한 후 몇 개월 후에 표준을 4 바이트로 변경했습니다. 인터넷에있는 대부분의 것과 마찬가지로, 둘 이상의 출처에서 읽고 출처의 나이를 인식하는 것이 좋습니다. 링크는 ' " 모두 종료 " 의도 한 것이 아니지만 오히려 시작점입니다.
나는 거의 모든 경우의 가변 길이 인코딩 (BMP 포함) 또는 항상 고정 길이 인코딩 인 utf-8 또는 utf-32를 그리겠습니다.
@iconiK : 바보처럼 굴지 마세요. UTF-16은 텍스트 처리를위한 사실상 표준이 아닙니다. Perl이 항상 그래 왔던 텍스트 처리에 더 적합한 프로그래밍 언어를 보여주세요. 10 년) 내부적으로 기본 UTF-8 표현과 함께 추상 문자를 사용했습니다. 이 때문에 모든 Perl 프로그램은 사용자가 멍청한 대리자를 계속 사용하지 않고도 모든 유니 코드를 자동으로 처리합니다. 문자열의 길이는 코드 단위가 아니라 코드 포인트의 개수입니다. 그 밖의 것은 이전 버전과의 호환성에 하위 버전을 넣는 어리 석음입니다.

Answer

Utf-에는 아무런 문제가 없습니다. 16 인코딩. 그러나 16 비트 단위를 문자로 취급하는 언어는 잘못 설계된 것으로 간주되어야합니다. 항상 문자를 나타내지 않는 “char“라는 유형을 갖는 것은 매우 혼란 스럽습니다. 대부분의 개발자는 문자 유형이 코드 포인트 또는 문자를 나타낼 것으로 예상하기 때문에 BMP 이외의 문자에 노출되면 많은 코드가 손상 될 수 있습니다.

그러나 utf-32를 사용한다고해서 각각의 32를 의미하지는 않습니다. 비트 코드 포인트는 항상 문자를 나타냅니다. 문자 결합으로 인해 실제 문자는 여러 코드 포인트로 구성 될 수 있습니다. 유니 코드는 결코 사소한 것이 아닙니다.

BTW. 문자가 8 비트 일 것으로 예상하는 플랫폼 및 애플리케이션에는 Utf-8이 제공되는 동일한 종류의 버그가있을 수 있습니다.

자바에서 '의 경우 타임 라인을 보면 ( java.com/en/javahistory/timeline.jsp ), 유니 코드가 16 비트 (1996 년에 변경됨) 인 동안 주로 String의 개발이 발생했음을 알 수 있습니다. BMP가 아닌 코드 포인트를 처리 할 수있는 능력을 강화해야했기 때문에 혼란 스러웠습니다.
@Kathy : C #에 대한 변명은 아닙니다. 일반적으로 단일 코드 포인트 (21 비트)를 보유하고 CodeUnit 유형을 보유하는 CodePoint 유형이 있어야한다는 데 동의합니다. 단일 코드 단위 (UTF-16의 경우 16 비트)와 Character 유형은 이상적으로 완전한 자소를 지원해야합니다. 하지만 기능적으로는 String …
이 답변은 거의 2 년이 지났지 만 가능합니다. ' 도움이되지 않고 댓글을 달아주세요. " 항상 문자를 나타내지 않는 ' char '라는 유형을 갖는 것은 예쁩니다. 혼란 스럽습니다. " 그러나 사람들은 C 등에서 항상 이것을 사용하여 단일 바이트에 저장할 수있는 정수 데이터를 나타냅니다.
그리고 I ' 문자 인코딩을 올바르게 처리하지 않는 ' 많은 C 코드를 확인했습니다.
C #에는 다른 변명이 있습니다. Windows 용으로 설계되었고 Windows는 UCS-2를 기반으로 구축되었습니다 ('는 오늘날 Windows API에서도 불가능한 UTF-8 지원). 또한 Microsoft가 Java 호환성을 원한다고 생각합니다 (.NET 1.0에는 Java 호환성 라이브러리가 있었지만 Java 지원이 매우 빨리 중단되었습니다. '이 문제가 Sun ' MS에 대한 소송?)

답변

내 개인적인 선택은 항상 UTF-8을 사용합니다. 거의 모든 것을위한 Linux의 표준이며 많은 레거시 앱과 역 호환됩니다. 라틴 문자가 아닌 문자와 다른 UTF 형식에 사용되는 추가 공간 측면에서 최소한의 오버 헤드가 있으며 라틴 문자의 공간을 크게 절약 할 수 있습니다. 웹에서 라틴어가 가장 우세하며 가까운 미래에 그럴 것이라고 생각합니다. 그리고 원래 게시물의 주요 주장 중 하나를 다루기 위해 거의 모든 프로그래머가 UTF-8에 때때로 다중 바이트 문자가 있음을 알고 있습니다. 모든 사람이 이것을 올바르게 다루는 것은 아니지만 일반적으로 UTF-16에 대해 말할 수있는 것보다 더 많은 것을 알고 있습니다. 그러나 물론 응용 프로그램에 가장 적합한 것을 선택해야합니다. 이것이 바로 처음에 두 개 이상이있는 이유입니다.

UTF-16은 BMP 내부의 모든 것에 대해 더 간단합니다. div id = “1d3184f537″>

이 이것이 널리 사용되는 이유입니다. 하지만 저는 ' UTF-8의 팬이기도합니다. 또한 바이트 순서에 문제가 없으므로 이점이 있습니다.

이론적으로는 그렇습니다. 실제로는 UTF-16BE와 같은 것이 있는데, 이는 BOM이없는 빅 엔디안에서 UTF-16을 의미합니다. 이것은 내가 만든 것이 아닙니다. 이것은 ID3v2.4 태그에서 허용되는 실제 인코딩입니다 (ID3v2 태그는 안타깝지만 안타깝게도 널리 사용됩니다). 이러한 경우 텍스트 자체에 BOM이 포함되어 있지 않으므로 ' 외부에서 엔디안을 정의해야합니다. UTF-8은 항상 단방향으로 작성되며 ' 이러한 문제가 없습니다.

아니요, UTF-16은 더 간단하지 않습니다. 더 어렵습니다. 고정 된 너비라고 생각하도록 오도하고 속입니다. 너무 늦을 때까지 눈치 채지 못하기 때문에 그러한 모든 코드가 깨졌습니다. CASE IN POINT : 어제 Java 코어 라이브러리에서 또 다른 어리석은 UTF-16 버그를 발견했습니다. 이번에는 String.equalsIgnoreCase에서 UCS-2 브레인 데스 버그에 남겨져 16/17 유효한 유니 코드 코드 포인트에서 실패했습니다. 그 코드는 얼마나 오래 있었습니까? 버그가 있다고 변명 할 수 없습니다. UTF-16은 순전히 어리 석음과 사고가 일어나기를 기다리고 있습니다. UTF-16에서 screaming을 실행합니다.

@tchrist UTF-16이 고정 길이가 아니라는 것을 알지 못하려면 매우 무지한 개발자 여야합니다. Wikipedia로 시작하면 맨 위에 다음 내용이 표시됩니다. " 코드 포인트 당 1 개 또는 2 개의 16 비트 코드 단위의 가변 길이 결과를 생성합니다. ". 유니 코드 FAQ는 동일하게 설명합니다 : unicode.org/faq//utf_bom.html#utf16-1 . 저는 ' 어떻게 UTF-16이 가변 길이로 쓰여진 모든 사람을 속일 수 있는지 모릅니다. 방법은 UTF-16 용으로 설계되지 않았으며 ' 유니 코드로 간주되어서는 안됩니다.

@tchrist 통계 소스? 좋은 프로그래머는 드물지만 우리가 더 가치있게되기 때문에 이것이 좋다고 생각합니다. 🙂 Java API의 경우 문자 기반 부분은 결국 더 이상 사용되지 않을 수 있지만 이것이 사용되지 않는다는 보장은 없습니다 '. 그리고 확실히 ' 컴플라이언스 이유로 제거되지 않았습니다.

답변

글쎄, 고정 크기 기호를 사용하는 인코딩이 있습니다. 확실히 UTF-32를 의미합니다. 하지만 각 심볼에 4 바이트가 낭비되는 공간이 너무 많습니다. 일상적인 상황에서 왜 사용합니까?

내 생각에 대부분의 문제는 일부 소프트웨어가 떨어 졌다는 사실에서 나타납니다. 유니 코드 표준에 뒤처졌지만 상황을 신속하게 수정하지는 못했습니다. Opera, Windows, Python, Qt-모두 UTF-16이 널리 알려 지거나 존재하기 전에 나타났습니다. 그래도 Opera, Windows Explorer 및 Notepad에서 BMP 외부의 문자에 더 이상 문제가 없음을 확인할 수 있습니다 (적어도 내 PC에서는). 그러나 어쨌든 프로그램이 서로 게이트 쌍을 인식하지 못하면 UTF-16을 사용하지 않습니다. 이러한 프로그램을 다룰 때 어떤 문제가 발생하더라도 UTF-16 자체와는 아무런 관련이 없습니다.

그러나 BMP 만 지원하는 레거시 소프트웨어의 문제는 다소 과장된 것 같습니다. BMP 외부의 문자는 매우 특정한 경우와 영역에서만 발생합니다. 유니 코드 공식 FAQ 에 따르면 “동아시아 텍스트에서도 대리 쌍의 발생률은 평균적으로 모든 텍스트 저장 용량의 1 % 미만이어야합니다”.물론 BMP 외부의 문자는 프로그램이 유니 코드를 준수하지 않기 때문에 무시해서는 안됩니다 . 그러나 대부분의 프로그램은 그러한 문자를 포함하는 텍스트 작업을위한 것이 아닙니다. 그것을 지원하지 않으면, 그것은 불쾌하지만 이증은 아닙니다.

이제 대안을 고려해 봅시다. UTF-16이 존재하지 않았다면 비 ASCII 텍스트에 적합한 인코딩이 없을 것이며 UCS-2 용으로 생성 된 모든 소프트웨어는 유니 코드 호환을 유지하기 위해 완전히 재 설계되어야합니다. 후자는 유니 코드 채택을 늦출 가능성이 큽니다. 또한 ASCII와 관련하여 UTF-8이하는 것처럼 UCS-2의 텍스트와의 호환성을 유지할 수 없었을 것입니다.

이제 모든 레거시 문제를 제쳐두고 인코딩에 대한 주장은 무엇입니까? 나는 요즘 개발자들이 UTF-16이 가변 길이라는 것을 모르고 Wikipedia와 함께 모든 곳에서 작성된다는 것을 정말로 의심합니다. 누군가가 복잡성을 가능한 문제로 지적했다면 UTF-16은 UTF-8보다 구문 분석하기가 훨씬 덜 어렵습니다. 또한 UTF-16에서만 문자열 길이를 결정하는 것이 엉망이라고 생각하는 것도 잘못되었습니다. UTF-8 또는 UTF-32를 사용하는 경우에도 하나의 유니 코드 코드 포인트가 “반드시 한 문자를 의미하는 것은 아닙니다. 그 외에는 인코딩에 큰 영향을 미치지 않는다”고 생각합니다.

그러므로 인코딩 자체가 유해한 것으로 간주해서는 안된다고 생각합니다. UTF-16은 단순성과 간결함 사이의 절충안이며 필요한 곳에 필요한 것을 사용하여 해가 없습니다 . 어떤 경우에는 ASCII와의 호환성을 유지해야하고 UTF-8이 필요합니다. 어떤 경우에는 Han 표의 문자로 작업하고 UTF-16을 사용하여 공간을 절약하기를 원합니다. 어떤 경우에는 고정 된 문자를 사용하는 보편적 인 표현이 필요합니다. 길이 인코딩입니다. 더 적절한 것을 사용하고 올바르게 수행하십시오.

그 '는 다소 깜빡이는 앵글로 중심의 관점 인 Malcolm입니다. " ASCII는 미국과 거의 비슷합니다. 나머지 전 세계도 우리와 맞아야합니다 ".

li>

사실 저는 ' 러시아 출신이고 내 프로그램을 포함하여 항상 키릴 문자를 접하므로 ' 내가 앵글로 중심의 시각을 가지고 있다고 생각합니다. 🙂 ASCII를 언급하는 것은 적절하지 않습니다. ' 유니 코드가 아니고 특정 문자를 지원하지 않기 때문입니다 '. UTF-8, UTF-16, UTF-32는 동일한 국제 문자 집합을 지원하며 특정 영역에서 사용하기위한 것입니다. 그리고 이것이 바로 제 요점입니다. 주로 영어를 사용하는 경우 UTF-8을 사용하고, 주로 키릴 문자를 사용하는 경우 UTF-16을 사용하고, 고대 언어를 사용하는 경우 UTF-32를 사용합니다. 아주 간단합니다.

" 사실이 아닙니다. 일본어, 중국어 또는 아랍어와 같은 아시아 문자도 BMP에 속합니다. BMP 자체는 실제로 매우 크고 확실히 오늘날 사용되는 모든 스크립트를 포함 할 수있을만큼 큽니다. " 이것은 모두 잘못되었습니다. BMP에는 0xFFFF 문자 (65536)가 포함됩니다. 중국어만으로는 그 이상이 있습니다. 중국 표준 (GB 18030)에는 그 이상이 있습니다. 유니 코드 5.1은 이미 100,000 개 이상의 문자를 할당했습니다.

@Marcolm : " BMP 자체는 실제로 매우 크고 확실히 오늘날 사용되는 모든 스크립트를 포함 할만큼 충분히 큽니다. " 사실이 아닙니다. 이 시점에서 유니 코드는 이미 BMP보다 더 많은 문자를 수용 할 수있는 약 100,000 개의 문자를 할당했습니다. BMP 외부에는 많은 한자가 있습니다. 그리고 그들 중 일부는 GB-18030 (필수 중국어 표준)에 의해 요구됩니다. 기타는 일본 및 한국 표준 (필수 아님)에서 요구합니다. 따라서 이러한 시장에서 제품을 판매하려면 BMP 지원 이상의 것이 필요합니다.

UTF-16을 사용하지만 좁은 BMP 문자 만 처리 할 수있는 모든 것은 실제로 UTF-16을 사용하지 않습니다. 버그가 많고 부서졌습니다. OP의 전제는 건전합니다. UTF-16은 해 롭습니다. 이는 사람들이 손상된 코드를 작성하도록 유도하기 때문입니다. ï 유니 코드 텍스트를 처리 할 수 있거나 처리 할 수 없습니다. 그렇게 할 수 없다면 ASCII 전용 텍스트 처리만큼 어리석은 하위 집합을 선택하는 것입니다.

Answer

특히 동아시아 언어에 대한 Windows 국제화 작업은 저를 손상 시켰을 수도 있지만, 프로그램 내부에서 문자열을 표현하는 경우 UTF-16을, 일반 텍스트의 네트워크 또는 파일 저장을 위해서는 UTF-8을 선호합니다. 문서처럼. 그러나 UTF-16은 일반적으로 Windows에서 더 빠르게 처리 될 수 있으므로 Windows에서 UTF-16을 사용할 때의 주요 이점입니다.

UTF-16으로 도약하면 평균 제품 처리의 적절성이 크게 향상되었습니다. 국제 텍스트.대리 쌍을 고려해야하는 좁은 경우 (기본적으로 삭제, 삽입 및 줄 바꿈)가 거의 없으며 평균 사례는 대부분 직선 통과입니다. 그리고 JIS 변형과 같은 이전 인코딩과 달리 UTF-16은 서로 게이트 쌍을 매우 좁은 범위로 제한하므로 검사가 정말 빠르고 앞뒤로 작동합니다.

그렇습니다. 인코딩 된 UTF-8도 있습니다. 그러나 서로 게이트 쌍을 두 개의 UTF-8 시퀀스로 잘못 인코딩하는 고장난 UTF-8 응용 프로그램도 많이 있습니다. 따라서 UTF-8은 “구원”도 보장하지 않습니다.

IE는 일반적으로 UTF-8 페이지에서 내부 UTF-16 표현으로 변환하는 경우에도 2000 년 이후로 서로 게이트 쌍을 합리적으로 잘 처리합니다. “Firefox도 제대로 작동한다고 확신하므로 Opera가 무엇을하는지에 대해서는 신경 쓰지 않습니다.

UTF-32 (UCS4라고도 함)는 공간을 많이 차지하기 때문에 대부분의 응용 프로그램에서 의미가 없습니다. 그래서 그것은 거의 시작하지 않습니다.

나는 ' UTF-8 및 surrogate 쌍에 대한 주석입니다. surrogate 쌍은 UTF-16 인코딩에서 의미있는 개념 일뿐입니다. 맞습니까? UTF-16 인코딩에서 UTF-8 인코딩으로 직접 변환하는 코드가 잘못 될 수 있습니다. 문제는 UTF-8을 쓰는 것이 아니라 UTF-16을 잘못 읽는 것입니다. 맞습니까?
Jason '이 말하는 소프트웨어는 의도적으로 UTF-8을 그런 방식으로 구현합니다 : 서로 게이트 쌍을 만든 다음 UTF-8 en 각 절반을 개별적으로 코딩하십시오. 해당 인코딩의 올바른 이름은 CESU-8이지만 Oracle (예 : UTF-8)은이를 UTF-8로 잘못 표시합니다. Java는 객체 직렬화에 유사한 체계를 사용하지만 '는 " 수정 된 UTF-8 내부 용으로 만 사용됩니다. (이제 사람들이 해당 문서를 읽고 DataInputStream # readUTF () 및 DataOutputStream # writeUTF ()를 부적절하게 사용하지 않도록 할 수 있다면 …)
AFAIK, UTF-32는 여전히 가변 길이 인코딩입니다. 코드 포인트의 특정 범위 인 UCS4와 같지 않습니다.
@Eonil, UTF-32는 UCS5 이상과 같은 것을 특징으로하는 유니 코드 표준이있는 경우에만 UCS4와 구별 될 수 있습니다.
@JasonTrue 그래도 결과는 우연히 동일하며 설계 상 보장되지는 않습니다. 32 비트 메모리 주소 지정, Y2K, UTF16 / UCS2에서도 같은 일이 발생했습니다. 아니면 그 평등을 보장 할 수 있습니까? 우리가 가지고 있다면 기꺼이 사용하겠습니다. 하지만 ' 깨질 수있는 코드를 작성하고 싶지 않습니다. 문자 수준 코드를 작성 중이며 UTF <-> 코드 포인트간에 트랜스 코딩하는 보장 된 방법이 부족하여 많은 버그가 발생합니다. .

답변

UTF-8은 확실히 갈 길입니다. 내부 용 UTF-32가 동반 될 수 있습니다. 고성능 랜덤 액세스가 필요한 알고리즘에서 사용합니다 (그러나 결합 문자를 무시 함).

UTF-16 및 UTF-32 (LE / BE 변형 포함) 모두 엔디 어 니스 문제가 발생합니다. 외부에서 사용하지 마십시오.

설명

UTF-8에서도 일정 시간 임의 액세스가 가능합니다. 코드 포인트 대신 코드 단위를 사용하십시오. 실제 임의의 코드 포인트 액세스가 필요할 수도 있지만 ' 사용 사례를 본 적이 없으며 ' 원할 가능성이 높습니다. 대신 임의의 자소 클러스터 액세스.

답변

UTF-16? 확실히 해 롭습니다. 여기에 내 생각에 불과하지만 프로그램의 텍스트에 대해 정확히 세 가지 인코딩이 허용됩니다.

ASCII : 더 나은 것을 제공 할 수없는 저수준 사물 (예 : 마이크로 컨트롤러)을 다룰 때
UTF8 : 파일과 같은 고정 너비 미디어에 저장
정수 코드 포인트 ( “CP”?) : 프로그래밍 언어에 편리한 가장 큰 정수 배열 및 플랫폼 (낮은 해상도 제한에서 ASCII로 붕괴). 구형 컴퓨터에서는 int32이고 64 비트 주소 지정을 사용하는 모든 컴퓨터에서는 int64 여야합니다.
분명히 레거시 코드 사용에 대한 인터페이스 이전 코드가 올바르게 작동하도록하려면 어떤 인코딩이 필요합니다.

@simon buchan, the U+10ffff max는 코드 포인트가 부족할 때 창 밖으로 나갑니다. 즉, 속도를 위해 p64 시스템에서 int32를 사용하는 것이 안전 할 수 있습니다. ' U+ffffffff를 초과합니다. 2050 년경 128 비트 시스템 용 코드를 다시 작성해야합니다. (이것이 " 편리한 가장 큰 정수를 사용하는 것입니다 " " 사용 가능한 가장 큰 " (아마도 int256 또는 bignums 등)
/ li>
@David : 유니 코드 5.2는 107,361 개의 코드 포인트를 인코딩합니다.사용하지 않은 코드 포인트는 867,169 개입니다. " "는 어리 석습니다. 유니 코드 코드 포인트는 UTF-16이 의존하는 속성 인 0에서 0x10FFFF까지의 숫자로 정의 됩니다. (또한 2050 년에는 64 비트 시스템이 전체 인터넷 주소 공간을 수용 할 수있는 128 비트 시스템에 대한 추정치가 훨씬 낮은 것으로 보입니다 '의 주소 공간)
@David : " "가 128 비트 스위치가 아닌 유니 코드 코드 포인트 부족을 언급했을 때, 예, 앞으로 몇 세기 안에있을 것입니다. 메모리와는 달리 문자가 기하 급수적으로 증가하지 않으므로 유니 코드 컨소시엄은 구체적으로 U+10FFFF 않을 것 을 보장했습니다. >. 이것은 정말로 21 비트가 누구에게나 충분한 상황 중 하나입니다.
@Simon Buchan : 적어도 첫 접촉까지는. 🙂
U + FFFF 위에 코드 포인트가 없음을 보장하는 데 사용되는 유니 코드입니다.

답변

유니 코드 는 최대 0x10FFFF (1,114,112 코드)의 코드 포인트를 정의하며 모든 애플리케이션은 다국어 환경에서 실행됩니다. 문자열 / 파일 이름 등이 올바르게 처리되어야합니다.

Utf-16 : 1,112,064 만 포함 코드. 유니 코드 끝에있는 항목은 15-16면 (개인 사용 영역)에서 가져온 것입니다. Utf-16 개념을 깨는 것 외에는 더 이상 성장할 수 없습니다.

Utf-8 : 이론적으로 2,216,757,376 개의 코드를 다룹니다. 현재 유니 코드 코드 범위는 최대 4 바이트 시퀀스로 나타낼 수 있습니다. 바이트 순서 문제가 발생하지 않으며 ascii와 “호환”됩니다.

Utf-32 : 이론적으로 2 ^ 32 = 4,294,967,296 코드를 다룹니다. 현재는 가변 길이로 인코딩되지 않았으며 앞으로는 없을 것입니다.

이러한 사실은 자명합니다. Utf-16 의 일반적인 사용을 옹호하는 것을 이해하지 못합니다. 가변 길이로 인코딩되어 있으며 (인덱스로 액세스 할 수 없음) 현재에도 전체 유니 코드 범위를 포함하는 데 문제가 있습니다. 바이트 순서 등을 처리해야합니다. 기본적으로 Windows 및 다른 곳에서 사용된다는 점을 제외하고는 어떤 이점도 보이지 않습니다. 다중 플랫폼 코드를 작성할 때는 기본적으로 Utf-8 를 사용하고 끝점에서만 변환하는 것이 좋습니다. 플랫폼에 따라 다릅니다 (이미 제안 된대로). 인덱스에 의한 직접 액세스가 필요하고 메모리에 문제가없는 경우 Utf-32 를 사용해야합니다.

주요 문제는 Windows Unicode = Utf-16 를 다루는 많은 프로그래머가 다음과 같은 사실을 모르거나 무시한다는 것입니다. 가변 길이로 인코딩됩니다.

일반적으로 * nix 플랫폼에서 사용되는 방식은 꽤 좋습니다. c 문자열 (char *)은 Utf-8 인코딩으로 해석되고 와이드 C 문자열 (wchar_t *)은 Utf-32 .

참고 : UTF -16은 모든 유니 코드를 다룹니다. Unicode Consortium은 10FFFF가 유니 코드의 TOP 범위이고 UTF-8 최대 4 바이트 길이를 정의하고 유효한 코드 포인트 범위에서 0xD800-0xDFFF 범위를 명시 적으로 제외하고이 범위는 서로 게이트 생성에 사용됩니다. 쌍. 따라서 유효한 유니 코드 텍스트는 이러한 각 인코딩 중 하나로 표현 될 수 있습니다. 또한 미래로 성장하는 것에 대해서도. ' 100 만 개의 코드 포인트로는 먼 미래에 충분하지 않을 것 같습니다.
@Kerrek : 틀림 : UCS-2는 유효한 유니 코드가 아닙니다. 부호화. 정의에 따른 모든 UTF- * 인코딩은 교환에 적합한 모든 유니 코드 코드 포인트를 나타낼 수 있습니다. UCS-2는 그보다 훨씬 적은 수와 몇 가지를 더 나타낼 수 있습니다. 반복 : UCS-2는 유효한 유니 코드 인코딩이 아닙니다. ASCII보다 더 그렇습니다.
" Utf-의 일반적인 사용을 옹호하는 것을 이해하지 못합니다. 8 . 가변 길이 인코딩 (인덱스로 액세스 할 수 없음) "
@Ian Boyd, 임의 액세스 패턴에서 문자열의 개별 문자에 액세스해야하는 필요성은 다음과 같습니다. 엄청나게 과장되었습니다. 매우 드문 문자 행렬의 대각선을 계산하려는 것만큼이나 일반적입니다. 문자열은 거의 항상 순차적으로 처리되며 UTF-8 char N + 1에 액세스하는 경우 UTF-8 char N은 O (1)이므로 문제가 없습니다. 문자열에 무작위로 액세스 할 필요가 거의 없습니다. UTF-8 대신 UTF-32로 이동하는 것이 저장 공간의 가치가 있다고 생각하는지 여부는 귀하의 의견입니다.하지만 저에게는 전혀 문제가되지 않습니다.
@tchrist, 승인하겠습니다. 역방향 반복을 " 순차 "로 포함하고 후행 끝의 약간 추가 비교를 늘리면 문자열이 사실상 항상 순차적으로 처리됩니다. 알려진 문자열에 대한 문자열. 두 가지 매우 일반적인 시나리오는 문자열 끝에서 공백을 자르고 경로 끝에서 파일 확장자를 확인하는 것입니다.

Answer

다음을 목록에 추가하세요.

제시된 시나리오는 간단합니다 (원래보다 여기에 제시 할 것이므로 훨씬 더 간단합니다! ) : 1. WinForms TextBox는 비어있는 Form에 있습니다. MaxLength가 20 로 설정되어 있습니다.

2. 사용자가 TextBox에 입력하거나 텍스트를 붙여 넣습니다.

3. TextBox에 무엇을 입력하거나 붙여 넣든 상관없이 20 개를 초과하는 텍스트에서는 동정적으로 경고음이 울리지 만 사용자는 20 개로 제한됩니다 (여기서 YMMV, 사운드 구성 변경 그 효과를주기 위해!).

4. 흥미 진진한 모험을 시작하기 위해 작은 텍스트 패킷이 다른 곳으로 전송됩니다.

이제 이것은 쉬운 시나리오이며 누구나 여가 시간에 이것을 작성할 수 있습니다. 지루하고 전에 사용해 본 적이 없었기 때문에 WinForms를 사용하여 여러 프로그래밍 언어로 직접 작성했습니다. 그리고 여러 실제 언어로 된 텍스트를 사용하는 이유는 내가 그렇게 연결되어 있고 전체 이상한 우주의 누구보다 키보드 레이아웃이 더 많기 때문입니다.

저는 지루함을 해소하기 위해 Magic Carpet Ride 라는 형식의 이름도 지정했습니다.

이것은 가치가 있기 때문에 작동하지 않았습니다.

그래서 대신 다음 20 문자를 내 Magic Carpet Ride 양식에 추가 :

0123401234012340123 𠀀

이런.

마지막 문자는 U + 20000입니다. 유니 코드의 확장 B 표의 문자 (U + d840 U + dc00, 그 앞에서 벗어난 것을 부끄럽지 않은 친한 친구에게) ….

그리고 이제 볼 게임이 있습니다.

TextBox가 있기 때문입니다. MaxLength 는

텍스트 상자에 수동으로 입력 할 수있는 최대 문자 수를 가져 오거나 설정합니다.

정말 의미

가져 오기 또는 설정 UTF-16 LE 코드의 최대 수 텍스트 상자에 수동으로 입력 할 수 있으며 Kaplan 동료만큼 집착하는 사람 만 공격적이라고 생각하는 언어 적 캐릭터 개념으로 귀여운 게임을 시도하는 문자열에서 살아있는 쓰레기를 무자비하게 잘라냅니다. 더 알아보세요!).

문서를 업데이트하는 방법에 대해 알아 보겠습니다 ….
저의 UCS-2에서 UTF-16으로 시리즈는 TextBox.MaxLength의 단순한 개념에 대한 저의 불행에 주목할 것입니다. 및 .Net Framework의 다른 부분에서 발생할 수있는 잘못된 시퀀스를 생성하는 극악한 동작이이 경우 최소한 처리해야하는 방법

System.Text.EncoderFallbackException : 인덱스 0의 유니 코드 문자 \ uD850을 지정된 코드 페이지로 변환 할 수 없습니다. *

이 문자열을 .Net Framework의 다른 위치에 전달하면 예외입니다 (제 동료 Dan Thompson이했던 것처럼).

이제 괜찮습니다. 전체 UCS-2에서 UTF-16 시리즈 는 많은 사람들이 사용할 수 없습니다.
하지만 그렇지 않습니다. “TextBox.Text가 .Net Framework의 다른 부분을 던지지 않는 System.String 을 생성하지 않을 것이라고 예상하는 것이 합리적이지 않습니까?” 내 말은 “더 스마트 한 유효성 검사를 쉽게 추가 할 수있는 다가오는 잘림을 알려주는 컨트롤에 이벤트 형태의 기회가있는 것 같지 않습니다. 컨트롤 자체가 신경 쓰지 않는 유효성 검사입니다. 이 멍청한 컨트롤은 예기치 않은 예외를 발생시켜 응용 프로그램을 종료하는 클래스가 서비스 거부의 일종 인 경우 보안 문제를 일으킬 수있는 안전 계약을 위반하고 있다고 말할 수 있습니다. WinForms 프로세스 또는 메서드 또는 알고리즘 또는 기술이 잘못된 결과를 생성합니까?

출처 : Michael S.Kaplan MSDN 블로그

감사합니다. 좋은 링크입니다! ' 질문의 문제 목록에 추가했습니다.

답변

UTF-16이 해롭다 고는 말할 필요도 없습니다. 우아하지는 않지만 GB18030이 GB2312와, UTF-8과 마찬가지로 UCS-2와의 하위 호환성을 제공합니다. ASCII.

그러나 마이크로 소프트와 썬이 16 비트 문자를 중심으로 거대한 API를 구축 한 후, 미드 스트림에서 유니 코드 구조를 근본적으로 변경하는 것은 해로 웠습니다. 변경 사항에 대한 인식을 전파하지 못한 것은 더 해로 웠습니다.

UTF-8은 ASCII의 상위 집합입니다. 하지만 UTF-16은 UCS-2의 상위 집합이 아닙니다. 거의 수퍼 세트이지만 UCS-2를 UTF-8로 올바르게 인코딩하면 CESU-8로 알려진 혐오스러운 결과가 나타납니다. UCS-2에는 ' 대리자가없고 일반 코드 포인트 만 있으므로 그대로 번역해야합니다. UTF-16의 진정한 장점은 UTF-8을 완전히 재 작성하는 것보다 UCS-2 코드베이스를 업그레이드하는 것이 ' 더 쉽다는 것입니다. 웃기죠?
물론, 기술적으로 UTF-16은 UCS-2의 상위 집합이 아닙니다. '하지만 U + D800에서 U + DFFF 로의 전환은 언제였습니까? UTF-16 대리자를 제외하고 사용합니까?
' 중요하지 않습니다. 맹목적으로 바이트 스트림을 통과하는 것 이외의 모든 처리를 수행하려면 서로 게이트 쌍을 디코딩해야합니다. UCS-2로 지정됩니다.

Answer

UTF-16은 처리와 공간 사이의 최상의 절충 이 바로 이것이 대부분의 주요 플랫폼 (Win32, Java, .NET)이 문자열의 내부 표현에이를 사용하는 이유입니다.

-1 UTF-8이 더 작거나 크게 다르지 않을 가능성이 있기 때문입니다. 특정 아시아 스크립트의 경우 UTF-8은 글리프 당 3 바이트 인 반면 UTF-16은 2 개에 불과하지만 UTF-8은 ASCII에 대해 단 1 바이트로 균형을 이룹니다 (제품 이름, 명령 등의 아시아 언어 내에서도 자주 표시됨). 또한 상기 언어에서 글리프는 라틴 문자보다 더 많은 정보를 전달하므로 정당화됩니다. 더 많은 공간을 차지합니다.
나는 두 옵션 모두 좋은 절충안입니다.
' UTF-8보다 쉽지 않습니다. '의 가변 길이도 있습니다.
UTF-16의 이점에 대한 논쟁은 제쳐두고 : 당신이 인용 한 것은 아니라 UTF-16을 사용하는 Windows, Java 또는 .NET의 이유. Windows와 Java는 유니 코드가 16 비트 인코딩이었던 시대로 거슬러 올라갑니다. 당시 UCS-2는 합리적인 선택이었습니다. 유니 코드가 21 비트 인코딩이되었을 때 UTF-16으로 마이그레이션하는 것이 기존 플랫폼이 가진 최선의 선택이었습니다. 그것은 취급의 용이성 또는 공간 타협과 관련이 없습니다. ' 레거시 문제 일뿐입니다.
.NET은 여기에서 Windows 레거시를 상속합니다.

답변

나는 UTF-16의 요점을 이해 한 적이 없습니다. 가장 공간 효율적인 표현을 원한다면 UTF-8을 사용하십시오. 텍스트를 고정 길이로 취급하고 UTF-32를 사용하십시오. 둘 다 원하지 않으면 UTF-16을 사용하십시오. 더 나쁜 것은 UTF-16의 모든 일반 (기본 다국어 평면) 문자가 단일 코드 포인트에 맞기 때문에 UTF-16이 고정 길이라는 것은 미묘하고 찾기 어렵지만 UTF-8로이 작업을 시도하면 국제화를 시도하자마자 코드가 빠르고 크게 실패합니다.

답변

_{아직 댓글을 달 수 없기 때문에 utf8everywhere.org. 다른 stackexchanges에서 충분한 평판을 얻었 기 때문에 자동으로 댓글 권한을 얻지 못하는 것이 아쉽습니다.}

이는 의견 : 예, UTF-16은 유해한 답변으로 간주되어야합니다.

조금 수정 :

UTF-8 char*를 ANSI 문자열 버전의 Windows-API 함수에 실수로 전달하는 것을 방지하려면 _UNICODE가 아니라 UNICODE를 정의하십시오. _UNICODE는 MessageBox

와 같은 기능을 wcslen에 매핑합니다.

에서 MessageBoxW로. 대신 UNICODE 정의가 후자를 처리합니다. 증명을 위해 이것은 MS Visual Studio 2005의 WinUser.h 헤더에서 가져온 것입니다.

#ifdef UNICODE #define MessageBox MessageBoxW #else #define MessageBox MessageBoxA #endif // !UNICODE

최소한, 이 오류는 utf8everywhere.org에서 수정해야합니다.

제안 :

아마도 가이드에는 Wide- 데이터 구조의 문자열 버전을 사용하여 놓치고 잊어 버리기 쉽게 만듭니다.Wide-string 버전의 함수를 사용하는 것 외에도 Wide-string 버전의 데이터 구조를 사용하면 이러한 함수의 ANSI 문자열 버전을 실수로 호출 할 가능성이 훨씬 줄어 듭니다.

예제 예 :

WIN32_FIND_DATAW data; // Note the W at the end. HANDLE hSearch = FindFirstFileW(widen("*.txt").c_str(), &data); if (hSearch != INVALID_HANDLE_VALUE) { FindClose(hSearch); MessageBoxW(nullptr, data.cFileName, nullptr, MB_OK); }

동의합니다. 감사! 문서를 업데이트하겠습니다. 문서에는 여전히 더 많은 개발과 데이터베이스에 대한 정보가 필요합니다. 우리는 문구의 기여를 기쁘게 생각합니다.
@PavelRadzivilovsky _UNICODE는 아직 거기에 있습니다 : (
알려 주셔서 감사합니다. cubus, Jelle, SVN의 사용자를 원하십니까?
@Pavel 물론 감사합니다!
@JelleGeerts : 지연에 대해 사과드립니다. 언제든지 이메일 (링크 선언문) 또는 Facebook에서 찾을 수 있습니다. 여기에서 가져온 문제를 해결했다고 믿고 있습니다 (그리고 여기에서 여러분을 인정했습니다). UTF-8 대 UTF-16 논쟁은 여전히 관련이 있습니다. 해당 비공개 채널을 통해 언제든지 문의 해주세요.

답변

누군가 UCS4 및 UTF-32가 아뇨,하지만 무슨 뜻인지 알아요.하지만 그들 중 하나는 다른 하나의 인코딩입니다. 나는 그들이 “처음부터 엔디안을 지정하려고 생각했기 때문에 여기서도 엔디안 전투가 벌어지지 않았 으면합니다.” 그들이 오는 것을 보지 못했습니까? 적어도 UTF-8은 모든면에서 동일합니다. re (누군가가 6 바이트의 원래 사양을 따르지 않는 한)

UTF-16을 사용하는 경우 멀티 바이트 문자 처리를 포함하도록 있어 있습니다. 2N을 바이트 배열로 인덱싱하여 N 번째 문자로 이동할 수 없습니다. 따라 가거나 문자 인덱스를 가져야합니다. 그렇지 않으면 버그를 작성했습니다.

현재 C ++의 초안 사양은 다음과 같습니다. UTF-32 및 UTF-16은 리틀 엔디안, 빅 엔디안 및 지정되지 않은 변형을 가질 수 있습니다. 정말? 유니 코드가 모든 사람이 처음부터 리틀 엔디안을해야한다고 명시했다면 모두 더 간단했을 것입니다. (저도 빅 엔디안으로도 괜찮 았을 것입니다.) 대신 어떤 사람들은이를 한 가지 방식, 다른 방식으로 구현했고 이제는 어리석은 일에 갇혀 있습니다. 때로는 소프트웨어 엔지니어가되는 것이 부끄럽습니다.

주석

지정되지 않은 endianess는 문자열을 읽는 방법을 결정하는 데 사용되는 첫 번째 문자로 BOM을 포함해야합니다. UCS-4와 UTF-32는 오늘날 실제로 동일합니다. 즉, 32 비트 정수에 저장된 0과 0x10FFFF 사이의 숫자 UCS 값입니다.
@Tronic : 기술적으로 이것은 사실이 아닙니다. UCS-4는 32 비트 정수를 저장할 수 있지만 UTF-32는 0xFFFF, 0xFFFE 및 모든 서로 게이트와 같이 교환에 적합하지 않은 비 문자 코드 포인트를 저장하는 것이 금지됩니다. UTF는 내부 인코딩이 아니라 전송 인코딩입니다.
다른 프로세서가 다른 바이트 순서를 계속 사용하는 한 엔디안 문제는 피할 수 없습니다. 그러나 UTF-16의 파일 저장을 위해 " 선호 된 " 바이트 순서가 있다면 좋았을 것입니다.
UTF-32는 코드 포인트 의 경우 고정 너비이지만 문자 의 경우 고정 너비가 아닙니다. (" 문자 결합 "이라는 이름을 들었습니까?) 따라서 ' 단순히 4N을 바이트 배열로 인덱싱하여 N ' 번째 문자 로 변환합니다.

Answer

개발자가 충분히주의하면 해롭다 고 생각하지 않습니다.
그리고 그들도 잘 알고 있다면이 트레이드 오프를 받아 들여야합니다.

일본 소프트웨어 개발자로서 UCS-2가 충분히 크고 공간을 제한하면 논리가 단순화되고 런타임 메모리가 감소하므로 UCS-2 제한 하에서 utf-16을 사용하는 것으로 충분합니다.

코드 포인트와 바이트가 비례한다고 가정하는 파일 시스템 또는 기타 응용 프로그램이 있으므로 원시 코드 포인트 번호가 일부 고정 크기 저장소에 맞도록 보장 할 수 있습니다.

한 가지 예는 UCS-2 를 파일 이름 저장소 인코딩으로 지정하는 NTFS 및 VFAT입니다.

이 예제가 실제로 UCS-4를 지원하도록 확장하려는 경우 어쨌든 모든 것에 utf-8을 사용하는 데 동의 할 수 있지만 고정 길이에는 다음과 같은 좋은 점이 있습니다.

can 길이에 따른 크기 보장 (데이터 크기 및 코드 포인트 길이는 비례)

해시 조회에 인코딩 번호를 사용할 수 있음

압축되지 않은 데이터의 크기가 적당합니다 (utf-32 / UCS-4)

장래에 내장 된 모든 장치에서도 메모리 / 처리 능력이 저렴할 때 추가 캐시 누락 또는 페이지 오류 및 추가 메모리로 인해 장치가 약간 느려질 수 있습니다. 하지만 가까운 시일 내에는 이런 일이 일어나지 않을 것 같습니다 …

댓글

이 댓글을 읽는 사람들에게는 UCS- 2는 UTF-16과 동일하지 않습니다. 이해하기 위해 차이점을 찾아보십시오.

답변

“가장 인기있는 인코딩, UTF-16은 유해한 것으로 간주됩니까? “

상당히 가능하지만 대안이 반드시 훨씬 더 나은 것으로 간주해서는 안됩니다.

근본적인 문제는 글리프, 문자, 코드 포인트 및 바이트 시퀀스에 대한 다양한 개념이 있다는 것입니다. 이들 각각 사이의 매핑은 정규화 라이브러리를 사용하더라도 사소하지 않습니다. (예를 들어, 라틴 기반 스크립트로 작성된 유럽 언어의 일부 문자는 단일 유니 코드 코드 포인트로 작성되지 않습니다. 이는 복잡성의 끝에서 더 간단합니다!) 이것이 의미하는 것은 모든 것을 올바르게 얻는다는 것입니다. 놀랍게도 매우 어렵습니다. 기괴한 버그가 예상됩니다 (여기서 버그에 대해 신음하는 대신 해당 소프트웨어의 관리자에게 알리십시오).

UTF- 예를 들어, UTF-8은 BMP 외부에서 코드 포인트를 인코딩하는 다른 방식 (대리자 쌍으로)이 있다는 것과는 반대로 유해한 것으로 간주 될 수 있습니다. 코드가 코드 포인트별로 액세스하거나 반복하려는 경우, OTOH는 “문자”를 가정하는 기존 코드의 상당 부분이 항상 2 바이트 수량에 맞출 수 있음을 의미합니다. 최소한 모든 것을 재건하지 않고 계속 작업합니다. 즉, 최소한 해당 캐릭터를 보 “올바르게 처리되지 않는 것입니다!

나는 당신의 질문을 머릿속으로 돌리고 유니 코드의 망할 쉿 뱅이 해로운 것으로 간주되어야하며 모든 사람이 8 비트 인코딩을 사용해야한다고 말하고 싶습니다. 나는 (지난 20 년 동안) 그것이 어디로 이끄는지를 보았다 : 다양한 ISO 8859 인코딩에 대한 끔찍한 혼란과 키릴 문자와 EBCDIC 제품군에 사용되는 전체 세트, 그리고… 음, 모든 결함에 대한 유니 코드가 . “다른 나라들 사이에 그렇게 심한 타협”이 아니었다면 오해가 있습니다.

댓글

우리의 행운을 알면서 몇 년 안에 ' UTF-16에서 공간이 부족하다는 것을 알게됩니다. Meh.

근본적인 문제는 텍스트가 믿을 수 없을 정도로 어렵다는 것입니다. 해당 정보를 디지털 방식으로 표현하는 방법은 복잡 할 수 없습니다. '은 날짜가 어렵고, 달력이 어렵고, 시간이 어렵고, 개인 이름이 어렵고, 우편 주소가 어렵다는 것과 동일한 이유입니다. 디지털 기계가 인간의 문화적 구성물과 교차 할 때마다 복잡함 분출. 그것은 삶의 사실입니다. 인간은 디지털 로직에서 작동하지 않습니다.

제안 :

댓글

답변

주석

Answer

댓글

답변

댓글

답글 남기기 답글 취소하기