■ このスレッドは過去ログ倉庫に格納されています
おい、お前らUNICODEを絶滅させて下ちい。
- 1 :うにこーど:02/02/04 20:12
- UNICODEそれは世界共通文字コード。これ使えば世界中の人たちがみんな幸せじゃん。と思っていたら
従来の文字コードとUNICODE対応の問題
http://euc.jp/i18n/ucsnote.ja.html
Unicodeの知らざる世界
http://www-6.ibm.com/jp/developerworks/unicode/010810/j_u-secret.html
とかみてみた。
ダメじゃん、全くダメじゃん。
なのに何でUNICODE化が進んでるの、早く絶滅させて!! おながいします!!
- 908 :デフォルトの名無しさん:02/06/04 15:59
- UTF-8にBOM(EF BB BF)を付けるとS-JISと区別出来るようになると思ったけど、
EF BB BFはS-JISで1面94区29点の文字(JISX0213で髟の下に會)と半角仮名のソ
と解釈出来てしまうから駄目だな。
- 909 :デフォルトの名無しさん:02/06/05 00:47
- >>903
http://www.fifatickets.com のpageに付いてましたね。
- 910 :デフォルトの名無しさん:02/06/05 17:34
- 無印のUTF-8は「EF BB BF」(BOMではなくシグネチャと呼ぶ)付きで、
シグネチャのないのはUTF-8Nってことになったんじゃねーの?
と思って資料探してみたけど、
公式のドキュメントで「UTF-8N」が出てくるものは発見できず。
知ってたらご指摘きぼんぬ。>UTF-8の偉い人
解説の類ならいろいろある。↓とか。
ttp://www-6.ibm.com/jp/developerworks/unicode/unicode.html
- 911 :デフォルトの名無しさん:02/06/06 06:26
- >解説の類ならいろいろある。↓とか。
>ttp://www-6.ibm.com/jp/developerworks/unicode/unicode.html
資料古いな。1999年9月の資料だし。
これに限らず、割と古い資料が多いので注意した方がいいかも。
>注: イタリック体の名前はまだ登録されていませんが、参照に役立ちます。
もしかしてボツになったんじゃないの? >UTF-8N
UTFとBOMにかんする公式FAQはこちら。
http://www.unicode.org/unicode/faq/utf_bom.html
- 912 :デフォルトの名無しさん:02/06/06 06:43
- ・そもそもUTF-8は、バイトオーダーが固定なのでBOMは必要ない。
・IANAの定義には、UTF-8はあってもUTF-8Nは無い。
・Unicode コンソーシアムでは、
『UTF-8にBOMが含まれても問題無いが、バイトオーダーの変化には影響を与えない。』
としている。
http://www.unicode.org/unicode/faq/utf_bom.html#29
・俗世間では、BOMの無いUTF-8はUTF-8Nと呼ばれている。
(公式にUTF-8Nは定義されない)
ってとこなんじゃネーノ?
- 913 :146タン:02/06/08 07:23
- このスレまだあったんだーね。
僕の闘いの歴史です。
- 914 :デフォルトの名無しさん:02/06/08 10:35
- BOMをエンコーディングによって付けるか付けないかが各エンコーダでマチマチだと、
読んで保存しただけでファイルサイズが増えたり減ったりする罠
- 915 :>>915:02/06/08 12:03
- >>914
さらに、ファイルの比較では別物とみなされる罠
- 916 :デフォルトの名無しさん:02/06/08 13:59
- >>914-915
だからBOMつけるなよ。
- 917 :デフォルトの名無しさん:02/06/10 00:29
- >>916
俺らに言われても。メモ帳はBOM付けやがるし。
- 918 :どうしてもどうしてもどうしても言いたい:02/06/10 02:06
- ボむっ
- 919 :デフォルトの名無しさん:02/06/10 03:49
- O次郎ですか?
- 920 :デフォルトの名無しさん:02/06/10 16:27
- >>917
メモ帳使うなよ。
- 921 :高死魔俊男:02/06/10 17:51
- >>913
ん? >>146ってことは漢字廃止論者か?
わたくしの名著『漢字と日本人』を読んで出直してきなさい。
- 922 :デフォルトの名無しさん:02/06/12 13:55
- 高島ってTRONを持ち上げてたアフォだろ?
- 923 :デフォルトの名無しさん:02/06/14 00:06
- TRON
\○/
|
/ \ 9.8点
- 924 :デフォルトの名無しさん:02/06/16 22:50
- 根本的な疑問なんだが。
文字コードを統一する必要ってあるか?
一つの文書に多国語で文章書く事ってそんなに有るか?
「文字コード識別+切り替え」じゃ、なんでいかんのよ。
つーか、全世界の文字を一つのコードに集約するのは
どう考えても現実的じゃないだろ。無駄も多いし。
誰か説明してくれ。
- 925 :デフォルトの名無しさん:02/06/16 22:51
- >>924
各種アプリケーションのi18nやl10n等、
不毛な作業プロジェクトが大量に発生しているから。
- 926 :924:02/06/16 23:03
- >>925
さっそくありがとう。
だけどよ。それはコードを統一すれば解決する問題なのか?
可変長のコードを扱うようにプログラムを改造するより、
確実に識別出来るコードを作った方が
比較的手間はかからないんじゃないだろうか?
- 927 :デフォルトの名無しさん:02/06/16 23:09
- >>926
ISO2022 をフル実装しろと言ってる? それは議論され尽くしてるような。
- 928 :デフォルトの名無しさん:02/06/16 23:55
- >>926
くだらなすぎ。無意味なカキコキ (´-`).。oO( サンペーです ) せずに
勉強汁!
ISO 2022 使うなら、(使うのか?)
「確実に識別」とか言うのはナンセンスだし、
既存のコードを使うには可変長にしなきゃ不可能だろ (゚д゚)ゴルァ!!
貴様は逆に UTF-16 使えと言いたいのか (´・ω・`)ショボーン
- 929 :デフォルトの名無しさん:02/06/16 23:56
- 文字コード次にロケールが控えてるんだが
最初で躓いてるからねえ
- 930 :デフォルトの名無しさん:02/06/17 00:07
- >>929
ロケールもアレだが、
スクリプトも切り替えたいよな。
カタカナ・ひらがなって
ケースの上下みたいなもんだと思うんだがね。
- 931 :デフォルトの名無しさん:02/06/17 03:10
- >>926 どうせ可変長コードを使う部分はライブラリの中だからいいんだYO!
ライブラリがあるのに、自前でクソな処理ルーチンを書いてしまうのはアフォの証拠です。
- 932 :デフォルトの名無しさん:02/06/17 03:11
- >>926 可変長が嫌ならUTF-32でも使ってろYO!
- 933 :デフォルトの名無しさん:02/06/17 07:46
- 確実に識別て何?よくわからん
- 934 :デフォルトの名無しさん:02/06/17 11:46
- >>933
「確実に識別」を妥当に解釈するなら、「判定ミスを起こさない」ということです。
- 935 :名無しさん@カラアゲうまうま:02/06/17 13:04
- iso-2022かUCS4(with UTF8)でも使いたいってことか。
- 936 :デフォルトの名無しさん:02/06/17 13:50
- >>926
「可変長」ってサロゲートペアのことを言ってるのか?
あんなのは比較的単純な話。
ステートフルであることが問題になるのは、
インド系の結合音節文字とか、
ラテンアルファベットだけでも相当複雑な結合文字の処理だろ。
- 937 :デフォルトの名無しさん:02/06/18 03:40
- 話の筋と関係ないけど、たまに iso-2022 は grep ができないとか逝ってるやつが居るが、
真面目に iso-2022 で grep しようとするやつなんて居るのかな。
普通内部でコード変換すると思うんだが・・・
unicode で言語タグとか出てきたら結局コンテキスト
見ないとダメなのは似たような問題だな。
- 938 :デフォルトの名無しさん:02/06/18 03:42
- lgrepではできるよ。
- 939 :デフォルトの名無しさん:02/06/18 11:13
- >>937
言語タグは無視できる、という点が違うけどな。
- 940 :デフォルトの名無しさん:02/06/18 13:35
- あれだな、ISO-2022-JP でもエスケープシーケンス無視して grep してしまえば
特に問題なさそうな気もする(w
- 941 :きっと無視できる太郎:02/06/20 02:07
- いっそのこと、ch & 0x7f するか(w
- 942 :デフォルトの名無しさん:02/06/29 22:10
- UTF-8
- 943 :デフォルトの名無しさん:02/07/01 03:36
- >>941
よし! UTF-7だ!
- 944 :デフォルトの名無しさん:02/07/01 12:15
- UTF-6
- 945 :デフォルトの名無しさん:02/07/01 12:46
- UTF-1024
- 946 :デフォルトの名無しさん:02/07/04 01:36
- 組み込み用の64Kbyteのメモリに変換テーブル入れられんかな…。
- 947 :946:02/07/04 01:37
- unicode→SJIS 日本語だけでいいんやけど…。
- 948 :SYN ◆mMJ0UaoA :02/07/04 02:05
- >>947
UCS-2→SJIS変換テーブルとプログラム作ったけど、不要な部分削って
表引きさせても、50Kぐらい消費する。ヘボくてよければソース出すよ。
SJIS→UCS-2なら、もっと小さくなるのだけどね。
- 949 :デフォルトの名無しさん:02/07/04 04:43
- >>948
その変換テーブルはunicode.orgの物?
それともWindows互換?
- 950 :名無しさん@カラアゲうまうま:02/07/04 06:43
- サイズに関してはそんなに変わらんと思われ。
- 951 :SYN ◆mMJ0UaoA :02/07/04 17:52
- >>949
Windows用。スマソ。
- 952 :名無し~3.EXE:02/07/04 19:04
- 次スレ立てますか?
- 953 :デフォルトの名無しさん:02/07/04 19:10
- >>952
よろしくー。
- 954 :名無し~3.EXE:02/07/04 21:10
- http://pc.2ch.net/test/read.cgi/tech/1008913670/
↑此れと統合はどうでしょうか?
- 955 :デフォルトの名無しさん:02/07/04 21:22
- 正直2つのスレをチェックするのは面倒。
- 956 :デフォルトの名無しさん:02/07/04 22:08
- >>954
いいんじゃない。
ここの1と、そちらの1で思想は違うみたいだけど。
- 957 :SYN ◆mMJ0UaoA :02/07/04 22:17
- 自分も前から二つのスレを一つにまとめて欲しかったけど、
向うでUTF-8以外の話すると、怒られそうな気がする。
227 KB
■ このスレッドは過去ログ倉庫に格納されています
★スマホ版★
掲示板に戻る
全部
前100
次100
最新50
read.cgi ver 05.04.02 2018/11/22 Walang Kapalit ★
FOX ★ DSO(Dynamic Shared Object)