UTF-16は有害であると見なされるべきですか？

Question

正しくありません。 “שָׁ”と書くと、”שで構成される複合文字について説明します。 “、”ָ”および”ׁ”、vovels、そしてそれらのそれぞれの削除は論理的です、”バックスペースを押すと1つのコードポイントを削除します”を押し、” del “を押すと、vovelを含むすべての文字が削除されます。ただし、違法のテキスト状態（違法なコードポイント）を生成することはありません。したがって、バックスペースキーを押して不正なテキストを取得する状況は正しくありません。
CiscoIPPhone：バグが”報告された場合、多くの異なる人々によって何度か報告されています”、そして数年後、開発者は開発ブログに”信じられないかもしれませんが、動作はほとんど意図的なものです！”では、（控えめに言って）’はおそらくこれまでで最高の設計上の決定ではないと思う傾向があります。 🙂 ‘が意図的であるからといって’それが’ではないという意味ではありませんバグ。
すばらしい投稿です。 UTF-16は確かに”両方の世界で最悪です”：UTF8は可変長で、Unicodeをすべてカバーし、変換アルゴリズムが必要です生のコードポイントとの間で、ASCIIに制限され、エンディアンの問題はありません。 UTF32は固定長であり、変換は必要ありませんが、より多くのスペースを占有し、エンディアンの問題があります。これまでのところ、UTF32を内部的に使用し、UTF8をシリアル化に使用できます。ただし、UTF16には利点がありません。’エンディアンに依存し、’可変長であり、多くのスペースを必要とします。’はASCII互換ではありません。 UTF16を適切に処理するために必要な労力は、UTF8により多く費やすことができます。
@Ian：UTF-8 DOES NOT にはUTF-8と同じ警告があります。 UTF-8にサロゲートを含めることはできません。 UTF-8はそうではないものになりすますことはありませんが、UTF-16を使用しているほとんどのプログラマーはそれを間違って使用しています。知っている。 ‘何度も何度も何度も見ました。
また、UTF-8は’ t誰もがそれを可変幅エンコーディングとして扱うため、問題があります。 UTF-16に問題がある理由は、誰もがそれを固定幅のエンコーディングのように扱うためです。

回答

回答 iに対応します。 h2>

使用するUnicode変換フォーム（UTF）には簡単なルールがあります。-ストレージと通信用のutf-8-データ処理用のutf-16-あなたは行くかもしれません使用するプラットフォームAPIのほとんどがutf-32（UNIXの世界で一般的）である場合はutf-32を使用します。

今日のほとんどのシステムはutf-16（Windows、Mac OS、Java、.NET、ICU）を使用しています。、Qt）。次のドキュメントも参照してください： http://unicode.org/notes/tn12/

「有害なUTF-16」に戻る

サロゲートを恐れている人（Unicodeを可変長エンコーディングに変換すると考えている）は、文字間のマッピングを行う他の（はるかに大きな）複雑さを理解していません。 Unicodeコードポイントは非常に複雑です。文字、合字、異体字セレクター、制御文字などを組み合わせます。

このシリーズをここで読んでください http://www.siao2.com/2009/06/29/9800913.aspx そしてUTF-16がどのように簡単な問題になるかを見てください。

コメント

UNIXの世界でUTF-32が一般的である例をいくつか追加してください！

いいえ、ありません。データ処理にUTF-16を使用したい。 ‘お尻の痛みです。 UTF-8のすべての欠点がありますが、利点はありません。 UTF-8とUTF-32はどちらも、以前はUTF-16と呼ばれていた悪質なハックよりも明らかに優れています。UTF-16の旧姓はUCS-2でした。

昨日、JavaコアのStringクラスにバグが見つかりました。 `equalsIgnoreCase`メソッド（文字列クラスの他のメソッドも）は、JavaがUTF-8またはUTF-32のいずれかを使用していたら存在しなかったでしょう。 UTF-16を使用するコードには、これらの眠っている爆弾が何百万もあり、私はそれらにうんざりしています。 UTF-16は、私たちのソフトウェアをいつまでも陰湿なバグで悩ませている悪質なpoxです。それは明らかに有害であり、非推奨にして禁止する必要があります。

@tchristうわー、サロゲートを認識しない関数です（誰もいなくなったときに書かれ、悲しいことに、おそらくそれを作るような方法で文書化されているため）適応不可能-.toUpperCase（char））が間違った動作を引き起こすことを指定していますか？ ‘古いコードポイントマップを持つUTF-32関数では、これをうまく処理できないことをご存知ですか？’また、Java API全体がサロゲートを特にうまく処理せず、Unicodeに関するより複雑な点はまったく処理されません。後で使用されるエンコーディングは、’まったく問題になりません。

-1：.NETの無条件の`.Substring(1)`は、BMP以外のすべてのUnicodeのサポートを破る簡単な例です。 UTF-16を使用するすべてにはこの問題があります。 ‘は、固定幅のエンコーディングとして扱うのが簡単すぎて、問題が発生することはめったにありません。 Unicodeをサポートしたい場合は、それが積極的に有害なエンコーディングになります。

回答

MSに対する訴訟？）

回答

。

@David：Unicode5.2は107,361個のコードポイントをエンコードします。未使用のコードポイントは867,169個あります。 ” “がばかげている場合。 Unicodeコードポイントは、UTF-16が依存するプロパティである0から0x10FFFFまでの数値として定義されます。（また、64ビットシステムがインターネット全体を’アドレス空間に保持できる場合、2050は128ビットシステムの見積もりを大幅に低くするようです。）

@David：” “が、128ビットスイッチではなく、Unicodeコードポイントの不足を示していた場合。次の数世紀になります。メモリとは異なり、文字が指数関数的に増加することはないため、ユニコードコンソーシアムは特に U+10FFFF divより上のコードポイントを決して割り当てないことを保証しています。 >。これは、21ビットで誰にとっても十分な状況の1つです。

@Simon Buchan：少なくとも最初の連絡まで。 🙂

U + FFFFより上にもコードポイントがないことを保証するために使用されるUnicode。

回答

のような関数をwcslenにマップします。

からMessageBoxW。代わりに、UNICODE定義が後者を処理します。証拠として、これはMS Visual Studio2005のWinUser.hヘッダーからのものです：

#ifdef UNICODE #define MessageBox MessageBoxW #else #define MessageBox MessageBoxA #endif // !UNICODE

少なくとも、このエラーは、utf8everywhere.orgで修正する必要があります。

提案：

ガイドには、Wideの明示的な使用例が含まれている必要があります-データ構造の文字列バージョン。見逃したり忘れたりしにくくします。ワイド文字列バージョンの関数を使用することに加えて、ワイド文字列バージョンのデータ構造を使用すると、そのような関数のANSI文字列バージョンを誤って呼び出す可能性がさらに低くなります。

例の例：

WIN32_FIND_DATAW data; // Note the W at the end. HANDLE hSearch = FindFirstFileW(widen("*.txt").c_str(), &data); if (hSearch != INVALID_HANDLE_VALUE) { FindClose(hSearch); MessageBoxW(nullptr, data.cFileName, nullptr, MB_OK); }

同意しました。ありがとう！ドキュメントを更新します。このドキュメントには、データベースに関するさらなる開発と情報の追加が必要です。言葉遣いの投稿をお待ちしております。
@PavelRadzivilovsky _UNICODEはまだあります：（
思い出させてくれてありがとう。cubus、Jelle、 SVNのユーザーをご希望ですか？
@Pavelよろしくお願いします！
@JelleGeerts：この遅延についてお詫び申し上げます。いつでもメール（リンク先）でお問い合わせいただけます。マニフェストから）またはFacebook。簡単に見つけることができます。ここで提起した問題は修正されたと思いますが（クレジットはありますが）、UTF-8とUTF-16の議論全体が依然として関連しています。貢献これらのプライベートチャネルを通じてお気軽にお問い合わせください。

Answer 1

これは古い回答です。
UTF-8 Everywhere で最新のアップデートを確認できます。

意見：はい、UTF-16は有害であると見なす必要があります。それが存在するまさにその理由は、しばらく前に、widecharが現在のUCS-4になるという誤った信念があったためです。

UTF-8の「角度中心主義」にもかかわらず、それはテキストの唯一の有用なエンコーディングと見なす必要があります。プログラムのソースコード、WebページとXMLファイル、OSファイル名、およびその他のコンピューター間のテキストインターフェイスは存在してはならなかったと主張することができます。しかし、そうする場合、テキストは人間の読者だけのものではありません。

一方、UTF-8のオーバーヘッドは、大きな利点がありますが、支払うべき小さな代償です。 char*で文字列を渡すだけの認識されないコードとの互換性などの利点。これは素晴らしいことです。「UTF-16ではUTF-8よりも短い便利な文字はほとんどありません。

他のすべてのエンコーディングは最終的には機能しなくなると思います。これには、MS-Windows、Java、ICU、pythonが含まれます。長い調査と議論の末、私の会社での開発規則では、OS API呼び出し以外の場所でのUTF-16の使用が禁止されていますが、これは重要ですがアプリケーションのパフォーマンスとWindowsを使用しているという事実。変換関数は、常に想定されるUTF8 std::stringをネイティブUTF-16に変換するために開発されました。ネイティブUTF-16はWindows自体は適切にサポートされていません。

「必要な場所で必要なものを使用する」と言う人には、「どこでも同じエンコーディングを使用することには大きな利点があり、十分な理由がない」と言います。特に、C ++にwchar_tを追加するのは間違いだったと思います。また、C ++ 0xにUnicodeを追加するのも間違いだと思います。ただし、STL実装に要求する必要があるのは、 std::stringまたはchar*パラメータはUnicode互換と見なされます。

「使用」にも反対です。「あなたが望むもの」アプローチ。そのような自由の理由はわかりません。テキストの主題については十分な混乱があり、このすべての壊れたソフトウェアになります。上記のように、プログラマーは1つの適切な方法としてUTF-8について最終的に合意に達する必要があると私は確信しています。（私はASCIIを話さない国から来て、Windowsで育ったので、宗教的な理由に基づいてUTF-16を攻撃することが最後に予想されます。）

詳細情報を共有したいWindowsでテキストを実行する方法、およびコンパイル時にチェックされたUnicodeの正確性、使いやすさ、コードのマルチプラットフォーム性の向上のために他のすべての人に推奨することについて。この提案は、WindowsでUnicodeを使用する適切な方法として通常推奨されているものとは大幅に異なります。しかし、これらの推奨事項を詳細に調査した結果、同じ結論が得られました。

wchar_tまたはstd::wstringを隣接するポイント以外の場所で使用しないでください。 UTF-16を受け入れるAPI。
_T("")またはL"" UTF-16リテラルを使用しないでください（これらはIMOを標準から除外する必要があります、UTF-16非推奨の一部として）。
_UNICODE定数に敏感な型、関数、またはそれらの派生物を使用しないでください。たとえば、LPTSTRまたはCreateWindow()。
ただし、_UNICODEは常に定義されています。 char*文字列をWinAPIに渡してサイレントにコンパイルすることは避けてください
std::stringsおよびchar*プログラム内の任意の場所がUTF-8と見なされます（特に明記されていない場合）
文字列はすべてstd::stringですが、char *または文字列リテラルをに渡すことができます。 convert(const std::string &)。
widechars（LPWSTR）を受け入れるWin32関数のみを使用します。 LPTSTRまたはLPSTRを受け入れるものは絶対に使用しないでください。次の方法でパラメータを渡します：
```
::SetWindowTextW(Utils::convert(someStdString or "string litteral").c_str()) 
```
（ポリシーは以下の変換関数を使用します。）

MFC文字列を使用：

CString someoneElse; // something that arrived from MFC. Converted as soon as possible, before passing any further away from the API call: std::string s = str(boost::format("Hello %s\n") % Convert(someoneElse)); AfxMessageBox(MfcUtils::Convert(s), _T("Error"), MB_OK);

Windowsでのファイル、ファイル名、fstreamの操作：
- パスしないでくださいstd::stringまたはconst char*ファイル名引数をfstreamファミリに追加します。 MSVC STLはUTF-8引数をサポートしていませんが、次のように使用する必要がある非標準の拡張子があります。
- std::string引数をstd::wstringとUtils::Convert：
```
std::ifstream ifs(Utils::Convert("hello"), std::ios_base::in | std::ios_base::binary); 
```
  手動で行う必要がありますfstreamに対するMSVCの態度が変わったら、変換を削除します。
- このコードはマルチプラットフォームではないため、で手動で変更する必要がある場合があります。将来
- 詳細については、fstreamユニコードリサーチ/ディスカッションケース4215を参照してください。
- UTF8以外のコンテンツを含むテキスト出力ファイルを作成しないでください
- RAII / OODの理由から、fopen()の使用は避けてください。必要に応じて、上記の_wfopen()およびWinAPIの規則を使用してください。

// For interface to win32 API functions std::string convert(const std::wstring& str, unsigned int codePage /*= CP_UTF8*/) { // Ask me for implementation.. ... } std::wstring convert(const std::string& str, unsigned int codePage /*= CP_UTF8*/) { // Ask me for implementation.. ... } // Interface to MFC std::string convert(const CString &mfcString) { #ifdef UNICODE return Utils::convert(std::wstring(mfcString.GetString())); #else return mfcString.GetString(); // This branch is deprecated. #endif } CString convert(const std::string &s) { #ifdef UNICODE return CString(Utils::convert(s).c_str()); #else Exceptions::Assert(false, "Unicode policy violation. See W569"); // This branch is deprecated as it does not support unicode return s.c_str(); #endif }

同意できません’。多くのアジア言語でのutf8に対するutf16の利点は、あなたの主張を完全に支配しています。日本人、タイ人、中国人などがこのエンコーディングをあきらめることを期待するのは素朴です。チャーセット間の問題のある衝突は、チャーセットが違いを除いてほとんど類似しているように見える場合です。標準化をお勧めします：固定7ビット：iso-irv-170; 8ビット変数：utf8; 16ビット変数：utf16; 32ビット修正：ucs4。
@Charles：ご入力いただきありがとうございます。確かに、一部のBMP文字はUTF-16よりもUTF-8の方が長くなっています。ただし、’に直面させてください。問題は、BMP漢字が使用するバイト数ではなく、発生するソフトウェア設計の複雑さです。とにかく中国のプログラマーが可変長文字用に設計する必要がある場合、UTF-8は、システム内の他の変数と比較して、まだ支払うべき小さな代償であるように思われます。スペースが非常に重要な場合、彼はUTF-16を圧縮アルゴリズムとして使用する可能性がありますが、それでもLZとは一致せず、LZまたは他の一般的な圧縮の後、両方ともほぼ同じサイズとエントロピーを取ります。
私が基本的に言っているのは、既存のchar *プログラムとも互換性があり、今日すべてで最も人気のあるOneエンコーディングを使用することによって提供される単純化は想像を絶することです。古き良き” plaintext “の時代とほとんど同じです。名前の付いたファイルを開きたいですか？実行しているUnicodeの種類などを気にする必要はありません。開発者は、UTF-16を、わずかなパフォーマンスが数か月の作業に値する厳しい最適化の非常に特殊なケースに限定することをお勧めします。
Linuxには、UTF-8を内部で使用することを選択する際に、Unixとの互換性という特定の要件がありました。 Windowsは’それを必要としなかったため、開発者がUnicodeを実装すると、テキストを処理するほとんどすべての関数のUCS-2バージョンが追加され、マルチバイト関数が単にUCS-2に変換されて他のものを呼び出します。その後、UCS-2をUTF-16に置き換えます。一方、Linuxは8ビットエンコーディングを維持し、その場合は’が適切な選択であるためUTF-8を使用しました。
@Pavel Radzivilovsky ：ところで、 “に関するあなたの文章は他のすべてのエンコーディングが最終的にはなくなると思います。これには、MS-Windows、Java、ICU、pythonがお気に入りとしての使用を停止することが含まれます。” および “特に、C ++へのwchar_tの追加は間違いだったと思います。C++ OxへのUnicodeの追加も間違いでした。” は、非常に素朴であるか、非常に傲慢です。。そしてこれは、自宅でLinuxを使用してコーディングしていて、UTF-8文字に満足している人からのものです。率直に言って、 ‘発生しません。

Answer 2

Unicodeコードポイントは文字ではありません！グリフ（ビジュアルフォーム）でさえない場合があります。

いくつかの例：

「ⅲ」のようなローマ数字のコードポイント。（「iii」のように見える単一の文字。）
「á」のようなアクセント付き文字。これは、単一の結合文字「\ u00e1」または文字と分離された発音区別符号「\ u0061 \」のいずれかとして表すことができます。 u0301 “。
ギリシャ語の小文字シグマのような文字。単語の位置の中央（「σ」）と末尾（「ς」）の形式が異なりますが、検索の同義語と見なす必要があります。
Unicodeの任意のハイフンU + 00AD。コンテキストに応じて視覚的に表示される場合とされない場合があり、セマンティック検索では無視されます。

Unicode編集を取得する唯一の方法権利は、専門家によって作成されたライブラリを使用することです、または専門家になって自分で作成することです。コードポイントを数えているだけなら、罪の状態にあります。

これ。非常にこれ。 UTF-16は問題を引き起こす可能性がありますが、UTF-32を全体で使用しても、問題が発生する可能性があります。
キャラクターとは何ですか？コードポイントを文字として定義し、ほとんど問題なく処理できます。ユーザーに表示されるグリフを意味する場合、それは別のことです。
@tchristスペースを割り当てることは確かですが、その定義は問題ありませんが、他に何かありますか？それほど多くはありません。結合文字を唯一の文字として処理する場合（つまり、削除または”最初のN文字を取得する”操作の場合）’奇妙で間違った動作をします。コードポイントが少なくとも別のコードポイントと組み合わされた場合にのみ意味を持つ場合、’それ自体を適切な方法で処理することはできません。
@Pacerier、これはパーティーに遅れましたが、それについてコメントする必要があります。一部の言語には、発音区別符号の潜在的な組み合わせが非常に多くあります（ベトナム語、つまりmệtđừを参照）。分音記号ごとに1文字ではなく組み合わせを使用すると、非常に役立ちます。
用語に関する注意事項：コードポイント は Unicode文字に対応します i>;ダニエルがここで話しているのは、ユーザーが認識する文字です。これは、ユニコードグラフクラスター

Answer 3

使用するUnicode変換フォーム（UTF）には簡単なルールがあります。-ストレージと通信用のutf-8-データ処理用のutf-16-あなたは行くかもしれません使用するプラットフォームAPIのほとんどがutf-32（UNIXの世界で一般的）である場合はutf-32を使用します。

今日のほとんどのシステムはutf-16（Windows、Mac OS、Java、.NET、ICU）を使用しています。、Qt）。次のドキュメントも参照してください： http://unicode.org/notes/tn12/

「有害なUTF-16」に戻る

サロゲートを恐れている人（Unicodeを可変長エンコーディングに変換すると考えている）は、文字間のマッピングを行う他の（はるかに大きな）複雑さを理解していません。 Unicodeコードポイントは非常に複雑です。文字、合字、異体字セレクター、制御文字などを組み合わせます。

このシリーズをここで読んでください http://www.siao2.com/2009/06/29/9800913.aspx そしてUTF-16がどのように簡単な問題になるかを見てください。

UNIXの世界でUTF-32が一般的である例をいくつか追加してください！
いいえ、ありません。データ処理にUTF-16を使用したい。 ‘お尻の痛みです。 UTF-8のすべての欠点がありますが、利点はありません。 UTF-8とUTF-32はどちらも、以前はUTF-16と呼ばれていた悪質なハックよりも明らかに優れています。UTF-16の旧姓はUCS-2でした。
昨日、JavaコアのStringクラスにバグが見つかりました。 equalsIgnoreCaseメソッド（文字列クラスの他のメソッドも）は、JavaがUTF-8またはUTF-32のいずれかを使用していたら存在しなかったでしょう。 UTF-16を使用するコードには、これらの眠っている爆弾が何百万もあり、私はそれらにうんざりしています。 UTF-16は、私たちのソフトウェアをいつまでも陰湿なバグで悩ませている悪質なpoxです。それは明らかに有害であり、非推奨にして禁止する必要があります。
@tchristうわー、サロゲートを認識しない関数です（誰もいなくなったときに書かれ、悲しいことに、おそらくそれを作るような方法で文書化されているため）適応不可能-.toUpperCase（char））が間違った動作を引き起こすことを指定していますか？ ‘古いコードポイントマップを持つUTF-32関数では、これをうまく処理できないことをご存知ですか？’また、Java API全体がサロゲートを特にうまく処理せず、Unicodeに関するより複雑な点はまったく処理されません。後で使用されるエンコーディングは、’まったく問題になりません。
-1：.NETの無条件の.Substring(1)は、BMP以外のすべてのUnicodeのサポートを破る簡単な例です。 UTF-16を使用するすべてにはこの問題があります。 ‘は、固定幅のエンコーディングとして扱うのが簡単すぎて、問題が発生することはめったにありません。 Unicodeをサポートしたい場合は、それが積極的に有害なエンコーディングになります。

Answer 4

はい、もちろんです。

なぜですか？これは、コードの実行と関係があります。

これらの大規模なコーパスでのコードポイント使用統計を見るとTom Christiansenによると、「非BMPコードポイントよりも大きさが大きい場合、トランス8ビットBMPコードポイントが数桁使用されることがわかります。

 2663710 U+002013 ‹–› GC=Pd EN DASH 1065594 U+0000A0 ‹ › GC=Zs NO-BREAK SPACE 1009762 U+0000B1 ‹±› GC=Sm PLUS-MINUS SIGN 784139 U+002212 ‹−› GC=Sm MINUS SIGN 602377 U+002003 ‹ › GC=Zs EM SPACE 544 U+01D49E ‹𝒞› GC=Lu MATHEMATICAL SCRIPT CAPITAL C 450 U+01D4AF ‹𝒯› GC=Lu MATHEMATICAL SCRIPT CAPITAL T 385 U+01D4AE ‹𝒮› GC=Lu MATHEMATICAL SCRIPT CAPITAL S 292 U+01D49F ‹𝒟› GC=Lu MATHEMATICAL SCRIPT CAPITAL D 285 U+01D4B3 ‹𝒳› GC=Lu MATHEMATICAL SCRIPT CAPITAL X

TDDディクタムを使用します。「テストされていないコードは壊れたコードです」と言い換えて、「実行されていないコードは壊れたコードです」と言い換えて、プログラマーが非BMPコードポイントを処理する頻度を考えます。

UTF-16を可変幅エンコーディングとして扱わないことに関連するバグは、UTF-8 の同等のバグよりも見過ごされがちです。一部のプログラミング言語はまだUCS-2の代わりにUTF-16を提供することを保証しないでください。一部のいわゆる高レベルプログラミング言語は、コードポイントの代わりにコードユニットへのアクセスを提供します（Cを使用すると、コードポイントへのアクセスが提供されるはずです。 wchar_t、いくつかのプラットフォームに関係なくフォームで可能です。

” UTF-16を処理しないことに関連するバグ可変幅エンコーディングは、UTF-8の同等のバグよりも、見過ごされる可能性がはるかに高くなります。”これが問題の核心であり、したがって正解です。
正確に。 UTF-8の処理が中断された場合、’すぐにわかります。 UTF-8の処理が中断された場合、’一般的でない漢字または数学記号を入力した場合にのみ気付くでしょう。
非常に真実ですが、他の場合は一方で、頻度の低いケースでバグを見つけるために運に頼る必要がある場合の単体テストは何ですか？
@musiphil：では、非BMP文字の単体テストを最後に作成したのはいつですか？
以前のステートメントを詳しく説明します。UTF-8を使用しても、いくつかの実用的な例を見ただけでは、すべてのケースをカバーしたとは限りません。 UTF-16と同じです。コードが非サロゲートとサロゲートの両方で機能するかどうかをテストする必要があります。（UTF-8には少なくとも4つの主要なケースがあるのに対し、UTF-16には2つしかないという人もいます。）

Answer 5

UTF-16が有害であると見なされる可能性があると考えると、ユニコードをより深く理解する必要があると言われます。

主観的な質問に対する私の意見を提示することに反対票を投じたので、詳しく説明させてください。UTF-16について気になるのは正確には何ですか？すべてがUTF-8でエンコードされているかどうかを確認しますか？UTF-7？またはUCS-4はどうですか？もちろん、特定のアプリケーションは、そこにあるすべての文字コードを処理するように設計されていませんが、特に今日のグローバル情報ドメインでは、国際的な境界間の通信に必要です。

しかし、実際には、UTF-16が混乱したり、不適切に実装されたりする可能性があるため（ユニコードは確かに可能です）、有害であると見なす必要があると思われる場合、どの文字エンコード方法が無害であると見なされますか？

編集：明確にするために：標準の不適切な実装が標準自体の品質を反映していると考えるのはなぜですか？他の人が後で指摘しているように、アプリケーションがツールを不適切に使用しているという理由だけで、ツールがツールを意味するわけではありませんもしそうなら、「varキーワードは有害だと考えられている」、「スレッドは有害だと考えられている」などと言えるでしょう。この質問は、標準の品質と性質を、多くのプログラマーが実装するのに苦労していることと混同していると思います。正しく使用することは、ユニコード自体ではなく、ユニコードがどのように機能するかを理解していないことに起因していると感じています。

-1： Artyom ‘のオブジェクトのいくつかに対処するのはどうですか
BTW：この記事を書き始めたとき、私はほとんど” UnicodeのSofteare記事のJoelを検討する必要がありますか？ 多くの間違いがあるため、有害な”。例：utf-8エンコーディングは6文字ではなく最大4文字を使用します。また、実際には異なるUCS-2とUTF-16を区別せず、実際に私が話している問題を引き起こします。
また、Joelがその記事を書いたとき、UTF-8標準は4ではなく6バイトだったことにも注意してください。RFC3629は、記事を書いた数か月後に標準を4バイトに変更しました。インターネット上のほとんどのものと同様に、複数の情報源から読んだり、情報源の年齢を知ったりすることにはお金がかかります。リンクは’ “すべて”であることが意図されていませんでしたが、むしろ出発点です。
私は写真を撮ります：utf-8またはutf-32は、ほとんどすべての場合（BMPを含む）の可変長エンコーディングまたは常に固定長エンコーディングです。
@iconiK：ばかげてはいけません。 UTF-16はテキストを処理するための事実上の標準ではありません。 Perlよりもテキスト処理に適したプログラミング言語を見せてください。 10年）内部で基礎となるUTF-8表現を持つ抽象文字を使用しました。このため、すべてのPerlプログラムは、ユーザーがばかげた代理人を絶えず探し回る必要なしに、すべてのUnicodeを自動的に処理します。文字列の長さは、コード単位ではなく、コードポイントでのカウントです。それ以外は、下位互換性を後方互換性に置くまったくの愚かさです。

Answer 6

Utfに問題はありません- 16エンコーディング。しかし、16ビット単位を文字として扱う言語は、おそらく設計が不適切であると見なされるべきです。必ずしも文字を表すとは限らない「char」という名前の型があると、かなり混乱します。ほとんどの開発者はcharタイプがコードポイントまたは文字を表すことを期待しているため、BMPを超える文字にさらされると、多くのコードが破損する可能性があります。

ただし、utf-32を使用しても、各32が意味するわけではありません。ビットコードポイントは常に文字を表します。文字を組み合わせるため、実際の文字は複数のコードポイントで構成される場合があります。 Unicodeは決して些細なことではありません。

BTW。文字が8ビットであると想定し、Utf-8でフィードされるプラットフォームやアプリケーションには、おそらく同じクラスのバグがあります。

Java ‘の場合、タイムライン（ java.com/en/javahistory/timeline.jsp ）、主にStringの開発は、Unicodeが16ビットであったときに発生したことがわかります（1996年に変更されました）。 BMP以外のコードポイントを処理する機能を強化する必要があったため、混乱が生じました。
@Kathy：C＃の言い訳にはなりません。一般的に、単一のコードポイント（21ビット）を保持するCodePointタイプ、保持するCodeUnitタイプが必要であることに同意します。単一のコードユニット（UTF-16の場合は16ビット）とCharacterタイプは、理想的には完全な書記素をサポートする必要があります。ただし、機能的にはString …
この回答はほぼ2年前のものですが、’ tヘルプしますが、コメントします。 “常に文字を表すとは限らない’ char ‘という名前の型を持つことはきれいです紛らわしい。”それでも、1バイトに格納できる整数データを表すためにCなどで常に使用されています。
そして私’文字エンコードを正しく処理しないたくさんのCコードを見てきました。’
C＃には別の言い訳があります。Windows用に設計されており、WindowsはUCS-2上に構築されています（’は、今日でもWindowsAPIでは不可能であるという非常に厄介です。 UTF-8をサポート）。さらに、MicrosoftはJava互換性を望んでいたと思います（.NET 1.0にはJava互換性ライブラリがありましたが、Javaサポートはすぐに削除されました-‘これはSun

Answer 7

私の個人的な選択は常にUTF-8を使用します。これは、ほぼすべてのLinuxの標準です。多くのレガシーアプリとの下位互換性があります。他のUTF形式と比較して、非ラテン文字に使用される余分なスペースに関しては、オーバーヘッドが非常に少なく、ラテン文字のスペースが大幅に節約されます。ウェブ上では、ラテン語が最高の地位を占めており、当面はラテン語になると思います。そして、元の投稿の主な議論の1つに対処するために、ほぼすべてのプログラマーは、UTF-8にマルチバイト文字が含まれる場合があることを認識しています。誰もがこれを正しく処理しているわけではありませんが、通常は認識しています。これは、UTF-16で言えること以上のことです。ただし、もちろん、アプリケーションに最も適したものを選択する必要があります。そもそも複数あるのはそのためです。

UTF-16は、BMP内のあらゆるものに対してより単純です。’がこれほど広く使用されている理由です。しかし、私は’ UTF-8のファンでもあり、バイト順序にも問題がないため、有利に機能します。
理論的には、そうです。実際には、たとえばUTF-16BEのようなものがあります。これは、BOMのないビッグエンディアンのUTF-16を意味します。これは私が作ったものではありません。これはID3v2.4タグで許可されている実際のエンコーディングです（ID3v2タグはひどいですが、残念ながら広く使用されています）。また、このような場合、テキスト自体にBOMが含まれていないため、外部でエンディアンを定義する必要があります。’ UTF-8は常に一方向に記述されており、’そのような問題はありません。
いいえ、UTF-16は単純ではありません。それは難しいです。それはあなたを誤解させ、それが固定幅であると思わせる。手遅れになるまで気付かないので、そのようなコードはすべて壊れています。事例：昨日、Javaコアライブラリでさらに別の愚かなUTF-16バグを見つけました。今回は、UCS-2脳死バグに残されたString.equalsIgnoreCaseで、16/17の有効なUnicodeコードポイントで失敗します。そのコードはどのくらい前から存在していますか？それがバグだらけであるという言い訳はありません。 UTF-16は、まったくの愚かさと、起こるのを待っている事故につながります。 UTF-16から叫んで実行します。
@tchrist UTF-16が固定長ではないことを知らないのは、非常に無知な開発者である必要があります。ウィキペディアから始めると、一番上に次のように表示されます。”コードポイントごとに1つまたは2つの16ビットコード単位の可変長の結果を生成します”。 Unicode FAQにも同じことが書かれています： unicode.org/faq//utf_bom.html#utf16-1 。 ‘ UTF-16が可変長であるとどこにでも書かれている場合、UTF-16がどのようにだれを欺くことができるのかわかりません。メソッドに関しては、UTF-16用に設計されたものではなく、’ Unicodeと見なすべきではありません。それほど単純ではありません。
@tchristあなたの統計のソース？優れたプログラマーが不足しているとしても、私たちの価値が高まるので、これは良いことだと思います。 🙂 Java APIに関しては、charベースのパーツは最終的に非推奨になる可能性がありますが、これはそれらが使用されないことを保証するものではありません。’そして、それらは間違いなく’互換性の理由で削除されません。

Answer 8

まあ、固定サイズのシンボルを使用するエンコーディングがあります。私は確かにUTF-32を意味します。しかし、各シンボルの4バイトは無駄なスペースが多すぎるので、なぜ日常の状況でそれを使用するのでしょうか？

私の考えでは、ほとんどの問題は一部のソフトウェアが落ちたという事実から生じます。 Unicode標準の背後にありますが、状況をすばやく修正することはできませんでした。 Opera、Windows、Python、Qt-これらはすべて、UTF-16が広く知られるようになる前、あるいは存在する前に登場しました。ただし、Opera、Windows Explorer、およびメモ帳では、BMP以外の文字に問題がないことを確認できます（少なくとも私のPCでは）。ただし、とにかく、プログラムがサロゲートペアを認識しない場合、UTF-16は使用されません。このようなプログラムを扱うことで問題が発生しても、UTF-16自体とは関係ありません。

ただし、BMPのみをサポートするレガシーソフトウェアの問題はやや誇張されていると思います。 BMPの外部の文字は、非常に特定のケースと領域でのみ発生します。 Unicodeの公式FAQ によると、「東アジアのテキストでも、代理ペアの発生率は、平均してすべてのテキストストレージの1％未満である必要があります」。もちろん、プログラムはUnicodeに準拠していないため、BMPの外部の文字を無視しないでください。ただし、ほとんどのプログラムは、そのような文字を含むテキストを操作することを目的としていません。それをサポートするのは不快ですが、破局ではありません。

では、別の方法を考えてみましょう。 UTF-16が存在しなかった場合、非ASCIIテキストに適したエンコーディングが得られず、UCS-2用に作成されたすべてのソフトウェアを完全に再設計してUnicode準拠を維持する必要があります。後者はおそらくUnicodeの採用を遅らせるだけでしょう。また、ASCIIに関連してUTF-8のようにUCS-2のテキストとの互換性を維持することはできなかったでしょう。

さて、すべてのレガシー問題は別として、エンコーディングに対する議論は何ですか？それ自体？私は、最近の開発者がUTF-16が可変長であることを知らないことを本当に疑っています。それは、ウィキペディアでどこにでも書かれています。誰かが複雑さを問題の可能性として指摘した場合、UTF-16はUTF-8よりも解析がはるかに難しくありません。また、UTF-16だけで文字列の長さを決定するのは簡単だと考えるのは誤りです。 UTF-8またはUTF-32を使用する場合でも、1つのUnicodeコードポイントが必ずしも1文字を意味するわけではないことに注意する必要があります。それ以外は、エンコーディングに対して実質的なものはないと思います。

したがって、エンコーディング自体が有害であると見なされるべきではないと思います。 UTF-16は、単純さとコンパクトさの間の妥協点であり、必要な場所で必要なものを使用しても害はありません .ASCIIとの互換性を維持する必要があり、UTF-8が必要な場合もあれば、Hanイデオグラフを使用して作業し、UTF-16を使用してスペースを節約したい場合もあります。また、固定を使用する文字のユニバーサル表現が必要な場合もあります。 -長さのエンコード。より適切なものを使用し、適切に実行します。

それは’かなりまばたきした、英語中心のビュー、マルコムです。 ” ASCIIとほぼ同等で、米国には十分です。その他の地域では、”に適合している必要があります。
実際私は’ロシアから来ており、（自分のプログラムを含めて）常にキリル文字に遭遇しているので、’私はアングロ中心の見方をしていると思います。 🙂 ASCIIについて言及することは、’ Unicodeではなく、’特定の文字をサポートしていないため、あまり適切ではありません。 UTF-8、UTF-16、UTF-32は、まったく同じ国際文字セットをサポートしており、特定の領域での使用を目的としています。そして、これがまさに私のポイントです。主に英語を使用する場合はUTF-8を使用し、主にキリル文字を使用する場合はUTF-16を使用し、古代言語を使用する場合はUTF-32を使用します。非常に単純です。
“正しくありません。日本語、中国語、アラビア語などのアジアのスクリプトもBMPに属しています。 BMP自体は実際には非常に大きく、今日使用されているすべてのスクリプトを含めるのに十分な大きさです”これはすべて間違っています。 BMPには0xFFFF文字（65536）が含まれています。中国語だけでもそれ以上のものがあります。中国の規格（GB 18030）にはそれ以上のものがあります。 Unicode5.1にはすでに100,000文字以上が割り当てられています。
@Marcolm：” BMP自体は実際には非常に大きく、現在使用されているすべてのスクリプトを含めるのに十分な大きさです”正しくありません。この時点で、Unicodeはすでに約100K文字を割り当てており、BMPよりもはるかに多くの文字を収容できます。 BMPの外には漢字の大きな塊があります。そしてそれらのいくつかはGB-18030（必須の中国規格）によって要求されています。その他は、（必須ではない）日本と韓国の基準で義務付けられています。したがって、これらの市場で何かを販売しようとすると、BMPサポート以外のものが必要になります。
UTF-16を使用しているが、狭いBMP文字しか処理できないものは、実際にはUTF-16を使用していません。バグがあり壊れています。 OPの前提は健全です。UTF-16は有害です。UTF-16は、ナイーブな人々を壊れたコードの記述に導くためです。ï Unicodeテキストを処理できるか、処理できないかのどちらかです。できない場合は、ASCIIのみのテキスト処理と同じくらい愚かなサブセットを選択しています。

Answer 9

特に東アジア言語での何年にもわたるWindowsの国際化作業は私を堕落させたかもしれませんが、文字列のプログラム内部表現にはUTF-16を、平文のネットワークまたはファイルストレージにはUTF-8を使用しています-ドキュメントのように。ただし、UTF-16は通常Windowsでより高速に処理できるため、「WindowsでUTF-16を使用する主な利点です。

UTF-16に飛躍することで、平均的な製品処理の適切性が劇的に向上しました。国際テキスト。サロゲートペアを考慮する必要がある狭いケースはごくわずかであり（基本的には削除、挿入、改行）、平均的なケースはほとんどストレートパススルーです。また、JISバリアントのような以前のエンコーディングとは異なり、UTF-16はサロゲートペアを非常に狭い範囲に制限するため、チェックは非常に迅速で、前後に機能します。

確かに、正しくはほぼ同じくらい高速です-エンコードされたUTF-8もあります。しかし、代理ペアを2つのUTF-8シーケンスとして誤ってエンコードする壊れたUTF-8アプリケーションも多数あります。したがって、UTF-8も救済を保証しません。

IEは、通常UTF-8ページから内部UTF-16表現に変換しますが、2000年頃からサロゲートペアを適切に処理します。I 「Firefoxでも正しく機能していると確信しているので、Operaの機能はあまり気にしません。

UTF-32（別名UCS4）は、スペースを大量に消費するため、ほとんどのアプリケーションにとって無意味です。だから、それはほとんど初心者ではありません。

私は’あなたを完全に理解しませんでしたUTF-8とサロゲートペアについてコメントします。サロゲートペアは、UTF-16エンコーディングで意味のある概念にすぎません。UTF-16エンコーディングからUTF-8エンコーディングに直接変換するコードは、これが間違っている可能性があります。場合、問題はUTF-8を書き込むのではなく、UTF-16を誤って読み取ることです。そうですか？
Jason ‘が話しているのは、そのように意図的にUTF-8を実装します。サロゲートペアを作成してから、UTF-8 enそれぞれの半分を別々にコーディングします。そのエンコーディングの正しい名前はCESU-8ですが、Oracle（たとえば）はそれをUTF-8と誤って表現しています。 Javaはオブジェクトのシリアル化に同様のスキームを採用していますが、’は”変更されたUTF-8 および内部使用のみ。（今、人々にそのドキュメントを読んでもらい、DataInputStream＃readUTF（）とDataOutputStream＃writeUTF（）の不適切な使用をやめることができれば…）
AFAIK、UTF-32は依然として可変長エンコーディングです。コードポイントの特定の範囲であるUCS4と同じではありません。
@ Eonil、UTF-32は、UCS5以上のような機能を備えたUnicode標準がある場合にのみ、UCS4と区別できます。
@JasonTrueそれでも、結果のみが偶然に等しく、設計によって保証されていません。 32ビットメモリアドレス指定、Y2K、UTF16 / UCS2でも同じことが起こりました。それとも、その平等を保証するものはありますか？もしあれば、喜んでそれを使います。しかし、私は’ 壊れやすいコードを書きたくありません。私は文字レベルのコードを書いていますが、UTF <->コードポイント間でトランスコードする保証された方法がないために多くの問題が発生しています。。

Answer 10

UTF-8は間違いなく進むべき道であり、おそらく内部用のUTF-32が付属しています。高性能のランダムアクセスを必要とするアルゴリズムで使用します（ただし、文字の組み合わせは無視します）。

UTF-16とUTF-32（およびそれらのLE / BEバリアント）はどちらもエンディアネスの問題があるため、外部で使用することはありません。

UTF-8でも一定時間のランダムアクセスが可能で、コードポイントではなくコードユニットを使用するだけです。本当のランダムなコードポイントアクセスが必要かもしれませんが、’ユースケースを見たことがないので、’必要になる可能性があります。代わりにランダムな書記素クラスターアクセス。

Answer 11

UTF-16？間違いなく有害です。ここではほんの一粒ですが、プログラム内のテキストには正確に3つの許容可能なエンコーディングがあります。

ASCII：これ以上の余裕がない低レベルのもの（例：マイクロプロセッサ）を扱う場合
UTF8：ファイルなどの固定幅メディアへの保存
整数コードポイント（ “CP”？）：プログラミング言語に便利な最大の整数の配列およびプラットフォーム（低リソースの制限ではASCIIに減衰します）。古いコンピューターではint32、64ビットアドレス指定の場合はint64にする必要があります。
明らかにレガシーコードの使用へのインターフェイス古いコードを正しく機能させるために必要なエンコーディング。

@simon buchan、U+10ffff maxは、コードポイントが不足した場合（そうでない場合）にウィンドウから消えます。とはいえ、速度を上げるためにp64システムでint32を使用することは、おそらく安全です。’あなたの前にU+ffffffffを超えます 2050年頃に128ビットシステム用のコードを書き直すことを余儀なくされました。（それが”便利な最大のintを使用するポイントですivid =” “利用可能な最大の”（おそらくint256またはbignumなど）とは対照的に、4292634e69 “>

Answer 12

Unicode は、最大0x10FFFF（1,114,112コード）のコードポイントを定義し、すべてのアプリケーションは多言語環境で実行されます。文字列/ファイル名などでそれを正しく処理する必要があります。

Utf-16 ：1,112,064のみをカバーしますコード。 Unicode の最後にあるものは、飛行機15〜16（私用面）のものです。 Utf-16 の概念を破る以外は、今後さらに成長することはできません。

Utf-8 ：理論的には2,216,757,376個のコードをカバーします。 ユニコードコードの現在の範囲は、最大4バイトのシーケンスで表すことができます。 バイトオーダーの問題は発生しません。ASCIIと「互換性があります」。

Utf-32 ：理論的には2 ^ 32 = 4,294,967,296コードをカバーします。現在、可変長でエンコードされておらず、おそらく将来的にはエンコードされないでしょう。

これらの事実は自明です。 Utf-16 の一般的な使用を推奨していることを理解していません。可変長でエンコードされており（インデックスからアクセスできません）、現在でもユニコードの範囲全体をカバーするのに問題があります。バイトオーダーなどを処理する必要があります。Windowsやその他の場所でネイティブに使用されていることを除いて、利点はありません。マルチプラットフォームコードを作成する場合は、 Utf-8 をネイティブに使用し、エンドポイントでのみ変換を行う方がおそらく良いでしょう。プラットフォームに依存する方法で（すでに提案されているように）。インデックスによる直接アクセスが必要で、メモリに問題がない場合は、 Utf-32 を使用する必要があります。

主な問題は、Windows Unicode = Utf-16 を扱う多くのプログラマーがその事実を知らないか無視していないことです。可変長でエンコードされています。

* nix プラットフォームでの通常の方法は、かなり優れています。 Utf-8 として解釈されるc文字列（char *）エンコードされた幅の広いc文字列（wchar_t *） Utf-32 。

注：UTF -16はすべてのUnicodeをカバーします。Unicodeコンソーシアムは10FFFFがUnicodeのTOP範囲であり、UTF-8の最大4バイト長を定義し、有効なコードポイント範囲から範囲0xD800-0xDFFFを明示的に除外し、この範囲が代理の作成に使用されるためです。ペア。したがって、有効なUnicodeテキストは、これらの各エンコーディングで表すことができます。また、将来への成長について。 ‘ 100万のコードポイントでは、遠い将来には十分ではないようです。
@Kerrek：不正解：UCS-2は有効なUnicodeではありませんエンコーディング。定義上、すべてのUTF- *エンコーディングは、交換に合法である任意のUnicodeコードポイントを表すことができます。 UCS-2は、それよりはるかに少ない数に加えて、さらにいくつかを表すことができます。繰り返します。UCS-2は有効なUnicodeエンコーディングではなく、ASCII以上のものです。
” Utf-の一般的な使用を推奨することを理解していません。 8 。可変長エンコードされています（インデックスからはアクセスできません）”
@Ian Boyd、ランダムアクセスパターンで文字列の個々の文字にアクセスする必要があります信じられないほど誇張されています。文字の行列の対角線を計算するのと同じくらい一般的ですが、これは非常にまれです。文字列は事実上常に順番に処理されます。UTF-8文字NがO（1）である場合、UTF-8文字N + 1にアクセスするため、問題はありません。文字列にランダムアクセスする必要はほとんどありません。 UTF-8ではなくUTF-32に移行する価値があると思うかどうかはあなた自身の意見ですが、私にとってはまったく問題ではありません。
@tchrist、許可します”シーケンシャル”として逆反復を含め、文字列の末尾をもう少し比較すると、文字列は事実上常にシーケンシャルに処理されます。文字列から既知の文字列へ。 2つの非常に一般的なシナリオは、文字列の末尾から空白を切り捨てることと、パスの末尾でファイル拡張子を確認することです。

Answer 13

これをリストに追加します：

提示されたシナリオは単純です（ここでは元のシナリオよりもさらに単純です！）：1.WinForms TextBoxは、空のフォーム上にあります。 MaxLengthが 20 に設定されています。

2。ユーザーがTextBoxに入力するか、多分テキストを貼り付けます。

3.TextBoxに何を入力または貼り付けても、20に制限されますが、20を超えるテキストでは同情的にビープ音が鳴ります（ここではYMMV、サウンドスキームを変更しました）

4.次に、テキストの小さなパケットが別の場所に送信され、エキサイティングな冒険が始まります。

これは簡単なシナリオであり、誰でも暇なときにこれを書くことができます。退屈で、これまで試したことがなかったので、WinFormsを使用して複数のプログラミング言語で自分で作成しました。そして、私はそのように配線されており、恐らく恐ろしい宇宙全体の誰よりも多くのキーボードレイアウトを持っているので、複数の実際の言語のテキストを使用します。

退屈を改善するために、フォームにマジックカーペットライドという名前を付けました。

これは、その価値のために機能しませんでした。

代わりに、次の 20 文字をマジックカーペットライドフォームに入力：

0123401234012340123𠀀

うーん。

最後の文字はU + 20000、最初の文字Unicodeの拡張Bイデオグラフ（別名U + d840 U + dc00、前で、いわば脱衣されることを恥じていない親しい友人へ）…

これでボールゲームができました。

TextBoxの場合。 MaxLength は

テキストボックスに手動で入力できる最大文字数を取得または設定します。

実際の意味は

取得または設定UTF-16LEタラの最大数テキストボックスに手動で入力でき、カプランの仲間と同じくらい夢中になっている人だけが不快に感じるという言語キャラクターの概念でかわいいゲームをプレイしようとする文字列から生きているがらくたを容赦なく切り捨てるユニット

ドキュメントの更新について試してみます…
定期的な読者 UCS-2からUTF-16 シリーズは、 TextBox.MaxLengthという単純な概念で私の不幸に気付くでしょう。と、その厳格な動作によって不正なシーケンスが作成される場合、少なくとも.NetFrameworkの他の部分が

System.Text.EncoderFallbackExceptionをスローする可能性がある場合の処理方法：インデックス0のUnicode文字\ uD850を指定されたコードページに変換できません。*

この文字列を.Netフレームワークの他の場所に渡した場合（同僚のDan Thompsonが行っていたように）は例外です。

さて、おそらく完全な UCS-2からUTF-16シリーズは多くの人の手の届かないところにあります。
しかしそうではありません「TextBox.Textが System.String を生成せず、.Net Frameworkの別の部分がスローされないことを期待するのは合理的ですか？つまり、コントロール自体に問題がないという、よりスマートな検証を簡単に追加できる次の切り捨てを通知するイベントの形でのチャンスがあるわけではありません。このパンクコントロールは安全契約を破っていると言っても過言ではありません。予期しない例外を引き起こしてアプリケーションを大雑把なサービス拒否として終了させることができれば、セキュリティの問題につながる可能性さえあります。WinFormsのプロセスやメソッド、またはアルゴリズムまたは手法で無効な結果が生成されますか？

ソース：マイケルS。カプランMSDNブログ

UTF-8はASCIIのスーパーセットです、ただし、UTF-16はUCS-2のスーパーセットではありません。ほとんどスーパーセットですが、UCS-2をUTF-8に正しくエンコードすると、CESU-8として知られる嫌悪感が生じます。 UCS-2には’サロゲートがなく、通常のコードポイントだけなので、そのように変換する必要があります。 UTF-16の本当の利点は、UTF-8を完全に書き直すよりも、UCS-2コードベースをアップグレードする方が’簡単なことです。おかしいですね。
確かに、技術的にはUTF-16はUCS-2のスーパーセットではありませんが’ U + D800からU + DFFFはいつですか UTF-16サロゲート以外に使用しますか？
‘は重要ではありません。バイトストリームを盲目的に通過する以外の処理では、サロゲートペアをデコードする必要があります。これは、’処理している場合は’実行できません。それはUCS-2です。

Answer 15

UTF-16は処理とスペースの間の最良の妥協点。これが、ほとんどの主要なプラットフォーム（Win32、Java、.NET）が文字列の内部表現に使用する理由です。

-1 UTF-8は小さいか、大幅な違いがない可能性が高いため。特定のアジアのスクリプトでは、UTF-8はグリフあたり3バイトですが、UTF-16は2バイトですがこれはUTF-8がASCIIの1バイトしかないことでバランスが取れています（アジアの言語でも製品名やコマンドなどで表示されることがよくあります）。さらに、前述の言語では、グリフはラテン文字よりも多くの情報を伝達するため、正当化されます。より多くのスペースをとるために。
私はワーを組み合わせるとは言いません両方のオプションの側面は適切な妥協点です。
‘はUTF-8よりも簡単ではありません。 ‘可変長もあります。
UTF-16の利点についての議論はさておき、あなたが引用したのはではありません。 UTF-16を使用するWindows、Java、または.NETの理由。 WindowsとJavaは、Unicodeが16ビットエンコーディングであった時代にまでさかのぼります。当時、UCS-2は妥当な選択でした。 Unicodeが21ビットエンコーディングになったとき、UTF-16への移行は既存のプラットフォームが持っていた最良の選択でした。それは扱いやすさやスペースの妥協とは何の関係もありませんでした。 ‘はレガシーの問題です。
.NETはここでWindowsのレガシーを継承します。

Answer 16

UTF-16のポイントを理解したことがありません。最もスペース効率の高い表現が必要な場合は、UTF-8を使用してください。テキストを固定長として扱い、UTF-32を使用します。どちらも必要ない場合は、UTF-16を使用します。さらに悪いことに、UTF-16の一般的な（基本的な多言語平面）文字はすべて単一のコードポイントに収まるため、 UTF-16が固定長であるということは微妙で見つけにくいでしょうが、UTF-8でこれを行おうとすると、国際化しようとするとすぐにコードが速く大音量で失敗します。

Answer 17

_{まだコメントできないので、utf8everywhere.org。他のスタックエクスチェンジで十分な評判があるため、コメント権限が自動的に取得されないのは残念です。}

これは、意見へのコメントを意味します：はい、UTF-16は有害であると見なす必要があります回答。

1つの小さな修正：

UTF-8 char*を誤ってANSI文字列バージョンのWindows-API関数に渡さないようにするには、次のことを行う必要があります。 _UNICODEではなく、UNICODEを定義します。 _UNICODEは、MessageBox

Answer 18

UCS4とUTF-32は同じです。違いますが、意味はわかります。一方はもう一方のエンコーディングです。ただし、ここでもエンディアネスの戦いが繰り広げられないように、最初からエンディアンネスを指定することを考えてほしいと思います。彼らはそれが来るのを見ることができませんでしたか？少なくともUTF-8はどこでも同じですre（誰かが6バイトの元の仕様に従っている場合を除く）。

UTF-16を使用する場合は、マルチバイト文字の処理を含める必要があります。 2Nをバイト配列にインデックス付けしてN番目の文字に移動することはできません。それをウォークするか、文字インデックスを作成する必要があります。そうしないと、バグが発生します。

C ++の現在のドラフト仕様にはUTF-32およびUTF-16には、リトルエンディアン、ビッグエンディアン、および不特定のバリアントを含めることができます。本当に？ Unicodeで、誰もが最初からリトルエンディアンを実行する必要があると指定されていたとしたら、それはすべて簡単だったでしょう。（私もビッグエンディアンで大丈夫だったでしょう。）代わりに、ある方法で実装した人もいれば、別の方法で実装した人もいました。そして今、私たちは「愚かさで立ち往生しています。ソフトウェアエンジニアになるのは恥ずかしいこともあります。

不特定のエンディアンには、文字列の読み取り方法を決定するために使用される最初の文字としてBOMが含まれることになっています。 UCS-4とUTF-32は実際に同じです。つまり、0〜0x10FFFFの数値のUCS値が32ビット整数で格納されます。
@Tronic：技術的には、これは正しくありません。 UCS-4は任意の32ビット整数を格納できますが、UTF-32は、0xFFFF、0xFFFE、およびすべてのサロゲートなど、交換に不正な非文字コードポイントを格納することを禁じられています。 UTFはトランスポートエンコーディングであり、内部エンコーディングではありません。
異なるプロセッサが異なるバイトオーダーを使用し続ける限り、エンディアンの問題は避けられません。ただし、UTF-16のファイルストレージに”優先”バイトオーダーがあれば良かったかもしれません。
UTF-32はコードポイントでは固定幅ですが、文字では固定幅ではありません。（”文字の組み合わせ”と呼ばれるものを聞いたことがありますか？）したがって、’ 4Nをバイト配列にインデックス付けするだけで、N ‘番目の文字に変換されます。

Answer 19

開発者が十分に注意していれば、害はないと思います。
そして、彼らもよく知っているなら、このトレードオフを受け入れるべきです。

日本のソフトウェア開発者として、UCS-2は十分に大きく、スペースを制限するとロジックが単純化され、ランタイムメモリが削減されるため、UCS-2の制限の下でutf-16を使用するだけで十分です。

コードポイントとバイトが比例していると想定するファイルシステムやその他のアプリケーションがあるため、生のコードポイント番号が固定サイズのストレージに収まることが保証されます。

1つの例は、ファイル名ストレージエンコーディングとしてUCS-2 を指定する NTFSおよびVFATです。

これらの例が本当にUCS-4をサポートするように拡張したい場合は、とにかくすべてにutf-8を使用することに同意できますが、固定長には次のような良い点があります。

can長さごとにサイズを保証します（データサイズとコードポイントの長さは比例します）
ハッシュルックアップにエンコード番号を使用できます
非圧縮データは適度なサイズです（utf-32 /と比較して） UCS-4）

将来、埋め込みデバイスでもメモリ/処理能力が安い場合、余分なキャッシュミスやページ障害、余分なメモリのためにデバイスが少し遅いことを受け入れる可能性があります使用法ですが、これは近い将来には起こらないと思います…

基本的な問題は、グリフ、文字、コードポイント、バイトシーケンスなど、さまざまな概念があることです。これらのそれぞれの間のマッピングは、正規化ライブラリを使用しても簡単ではありません。（たとえば、ラテン語ベースのスクリプトで記述されたヨーロッパ言語の一部の文字は、単一のUnicodeコードポイントで記述されていません。これは、複雑さの最も単純な終わりです！）これは、すべてを正しくすることを意味します。非常に驚くほど難しい。奇妙なバグが予想される（そして、ここでそれらについてただうめき声を上げるのではなく、関係するソフトウェアのメンテナに伝える）。

UTF-の唯一の方法16は、たとえばUTF-8とは対照的に、有害であると見なすことができます。UTF-8は、BMPの外部でコードポイントをエンコードする方法が異なります（サロゲートのペアとして）。コードがコードポイントにアクセスまたは反復する場合は、つまり、違いを認識する必要があります。OTOH、つまり、「文字」を想定する既存のコードの実質的な本体は、常に2バイトの量に収まる可能性があります。間違っている場合はかなり一般的な想定です。少なくとも、すべてを再構築せずに作業を続行します。言い換えると、少なくともそれらのキャラクターを見ることができます。正しく処理されていない！

私はあなたの質問に頭を悩ませ、Unicodeのひどいシバン全体が有害であると見なされるべきであり、誰もが8ビットエンコーディングを使用するべきであると言います。私は（過去20年間で）それがつながるところを見てきました：さまざまなISO 8859エンコーディングに関する恐ろしい混乱に加えて、キリル文字とEBCDICスイートに使用されるもののセット全体、そして…まあ、そのすべての欠点に対するUnicodeはそれを打ち負かします。「異なる国間のそのような厄介な妥協」の誤解でなければ。

運を知って、数年で’ UTF-16のスペースが不足していることに気付くでしょう。
根本的な問題は、テキストが一見難しいということです。その情報をデジタルで表現するアプローチは、単純なものではありません。 ‘日付が難しい、カレンダーが難しい、時間が難しい、個人名が難しい、住所が難しいのと同じ理由です。デジタルマシンが人間の文化的構造と交差するときはいつでも、複雑さ噴火します。それは人生の事実です。人間はデジタルロジックでは機能しません。

提案：

コメント

回答

コメント

回答

コメント

回答

コメント

コメントを残す コメントをキャンセル

コメントを残すコメントをキャンセル