5ちゃんねる ★スマホ版★ ■掲示板に戻る■ 全部 1- 最新50  

■ このスレッドは過去ログ倉庫に格納されています

おい、お前らUNICODEを絶滅させて下ちい。

1 :うにこーど:02/02/04 20:12
UNICODEそれは世界共通文字コード。これ使えば世界中の人たちがみんな幸せじゃん。と思っていたら

従来の文字コードとUNICODE対応の問題
http://euc.jp/i18n/ucsnote.ja.html
Unicodeの知らざる世界
http://www-6.ibm.com/jp/developerworks/unicode/010810/j_u-secret.html
とかみてみた。

ダメじゃん、全くダメじゃん。
なのに何でUNICODE化が進んでるの、早く絶滅させて!! おながいします!!


908 :デフォルトの名無しさん:02/06/04 15:59
UTF-8にBOM(EF BB BF)を付けるとS-JISと区別出来るようになると思ったけど、
EF BB BFはS-JISで1面94区29点の文字(JISX0213で髟の下に會)と半角仮名のソ
と解釈出来てしまうから駄目だな。

909 :デフォルトの名無しさん:02/06/05 00:47
>>903
http://www.fifatickets.com のpageに付いてましたね。

910 :デフォルトの名無しさん:02/06/05 17:34
無印のUTF-8は「EF BB BF」(BOMではなくシグネチャと呼ぶ)付きで、
シグネチャのないのはUTF-8Nってことになったんじゃねーの?
と思って資料探してみたけど、
公式のドキュメントで「UTF-8N」が出てくるものは発見できず。
知ってたらご指摘きぼんぬ。>UTF-8の偉い人

解説の類ならいろいろある。↓とか。
ttp://www-6.ibm.com/jp/developerworks/unicode/unicode.html

911 :デフォルトの名無しさん:02/06/06 06:26
>解説の類ならいろいろある。↓とか。
>ttp://www-6.ibm.com/jp/developerworks/unicode/unicode.html

資料古いな。1999年9月の資料だし。
これに限らず、割と古い資料が多いので注意した方がいいかも。

>注: イタリック体の名前はまだ登録されていませんが、参照に役立ちます。

もしかしてボツになったんじゃないの? >UTF-8N

UTFとBOMにかんする公式FAQはこちら。
http://www.unicode.org/unicode/faq/utf_bom.html

912 :デフォルトの名無しさん:02/06/06 06:43
・そもそもUTF-8は、バイトオーダーが固定なのでBOMは必要ない。
・IANAの定義には、UTF-8はあってもUTF-8Nは無い。
・Unicode コンソーシアムでは、
 『UTF-8にBOMが含まれても問題無いが、バイトオーダーの変化には影響を与えない。』
 としている。
 http://www.unicode.org/unicode/faq/utf_bom.html#29
・俗世間では、BOMの無いUTF-8はUTF-8Nと呼ばれている。
 (公式にUTF-8Nは定義されない)

ってとこなんじゃネーノ?

913 :146タン:02/06/08 07:23
このスレまだあったんだーね。
僕の闘いの歴史です。

914 :デフォルトの名無しさん:02/06/08 10:35
BOMをエンコーディングによって付けるか付けないかが各エンコーダでマチマチだと、
読んで保存しただけでファイルサイズが増えたり減ったりする罠

915 :>>915:02/06/08 12:03
>>914
さらに、ファイルの比較では別物とみなされる罠


916 :デフォルトの名無しさん:02/06/08 13:59
>>914-915
だからBOMつけるなよ。

917 :デフォルトの名無しさん:02/06/10 00:29
>>916
俺らに言われても。メモ帳はBOM付けやがるし。

918 :どうしてもどうしてもどうしても言いたい:02/06/10 02:06
ボむっ

919 :デフォルトの名無しさん:02/06/10 03:49
O次郎ですか?

920 :デフォルトの名無しさん:02/06/10 16:27
>>917
メモ帳使うなよ。


921 :高死魔俊男:02/06/10 17:51
>>913
ん? >>146ってことは漢字廃止論者か?
わたくしの名著『漢字と日本人』を読んで出直してきなさい。

922 :デフォルトの名無しさん:02/06/12 13:55
高島ってTRONを持ち上げてたアフォだろ?

923 :デフォルトの名無しさん:02/06/14 00:06
TRON
\○/
 |
/ \  9.8点



924 :デフォルトの名無しさん:02/06/16 22:50
根本的な疑問なんだが。
文字コードを統一する必要ってあるか?
一つの文書に多国語で文章書く事ってそんなに有るか?
「文字コード識別+切り替え」じゃ、なんでいかんのよ。
つーか、全世界の文字を一つのコードに集約するのは
どう考えても現実的じゃないだろ。無駄も多いし。
誰か説明してくれ。

925 :デフォルトの名無しさん:02/06/16 22:51
>>924
各種アプリケーションのi18nやl10n等、
不毛な作業プロジェクトが大量に発生しているから。

926 :924:02/06/16 23:03
>>925
さっそくありがとう。
だけどよ。それはコードを統一すれば解決する問題なのか?
可変長のコードを扱うようにプログラムを改造するより、
確実に識別出来るコードを作った方が
比較的手間はかからないんじゃないだろうか?

927 :デフォルトの名無しさん:02/06/16 23:09
>>926
ISO2022 をフル実装しろと言ってる? それは議論され尽くしてるような。

928 :デフォルトの名無しさん:02/06/16 23:55
>>926
くだらなすぎ。無意味なカキコキ (´-`).。oO( サンペーです ) せずに
勉強汁!

ISO 2022 使うなら、(使うのか?)
「確実に識別」とか言うのはナンセンスだし、
既存のコードを使うには可変長にしなきゃ不可能だろ (゚д゚)ゴルァ!!

貴様は逆に UTF-16 使えと言いたいのか (´・ω・`)ショボーン

929 :デフォルトの名無しさん:02/06/16 23:56
文字コード次にロケールが控えてるんだが
最初で躓いてるからねえ

930 :デフォルトの名無しさん:02/06/17 00:07
>>929
ロケールもアレだが、
スクリプトも切り替えたいよな。

カタカナ・ひらがなって
ケースの上下みたいなもんだと思うんだがね。

931 :デフォルトの名無しさん:02/06/17 03:10
>>926 どうせ可変長コードを使う部分はライブラリの中だからいいんだYO!
ライブラリがあるのに、自前でクソな処理ルーチンを書いてしまうのはアフォの証拠です。

932 :デフォルトの名無しさん:02/06/17 03:11
>>926 可変長が嫌ならUTF-32でも使ってろYO!

933 :デフォルトの名無しさん:02/06/17 07:46
確実に識別て何?よくわからん

934 :デフォルトの名無しさん:02/06/17 11:46
>>933
「確実に識別」を妥当に解釈するなら、「判定ミスを起こさない」ということです。


935 :名無しさん@カラアゲうまうま:02/06/17 13:04
iso-2022かUCS4(with UTF8)でも使いたいってことか。

936 :デフォルトの名無しさん:02/06/17 13:50
>>926
「可変長」ってサロゲートペアのことを言ってるのか?
あんなのは比較的単純な話。
ステートフルであることが問題になるのは、
インド系の結合音節文字とか、
ラテンアルファベットだけでも相当複雑な結合文字の処理だろ。

937 :デフォルトの名無しさん:02/06/18 03:40
話の筋と関係ないけど、たまに iso-2022 は grep ができないとか逝ってるやつが居るが、
真面目に iso-2022 で grep しようとするやつなんて居るのかな。
普通内部でコード変換すると思うんだが・・・

unicode で言語タグとか出てきたら結局コンテキスト
見ないとダメなのは似たような問題だな。

938 :デフォルトの名無しさん:02/06/18 03:42
lgrepではできるよ。

939 :デフォルトの名無しさん:02/06/18 11:13
>>937
言語タグは無視できる、という点が違うけどな。

940 :デフォルトの名無しさん:02/06/18 13:35
あれだな、ISO-2022-JP でもエスケープシーケンス無視して grep してしまえば
特に問題なさそうな気もする(w

941 :きっと無視できる太郎:02/06/20 02:07
いっそのこと、ch & 0x7f するか(w

942 :デフォルトの名無しさん:02/06/29 22:10
UTF-8

943 :デフォルトの名無しさん:02/07/01 03:36
>>941
よし! UTF-7だ!

944 :デフォルトの名無しさん:02/07/01 12:15
UTF-6

945 :デフォルトの名無しさん:02/07/01 12:46
UTF-1024


946 :デフォルトの名無しさん:02/07/04 01:36
組み込み用の64Kbyteのメモリに変換テーブル入れられんかな…。

947 :946:02/07/04 01:37
unicode→SJIS 日本語だけでいいんやけど…。

948 :SYN ◆mMJ0UaoA :02/07/04 02:05
>>947
UCS-2→SJIS変換テーブルとプログラム作ったけど、不要な部分削って
表引きさせても、50Kぐらい消費する。ヘボくてよければソース出すよ。
SJIS→UCS-2なら、もっと小さくなるのだけどね。

949 :デフォルトの名無しさん:02/07/04 04:43
>>948
その変換テーブルはunicode.orgの物?
それともWindows互換?

950 :名無しさん@カラアゲうまうま:02/07/04 06:43
サイズに関してはそんなに変わらんと思われ。

951 :SYN ◆mMJ0UaoA :02/07/04 17:52
>>949
Windows用。スマソ。

952 :名無し~3.EXE:02/07/04 19:04
次スレ立てますか?

953 :デフォルトの名無しさん:02/07/04 19:10
>>952
よろしくー。

954 :名無し~3.EXE:02/07/04 21:10
http://pc.2ch.net/test/read.cgi/tech/1008913670/
↑此れと統合はどうでしょうか?

955 :デフォルトの名無しさん:02/07/04 21:22
正直2つのスレをチェックするのは面倒。

956 :デフォルトの名無しさん:02/07/04 22:08
>>954
いいんじゃない。
ここの1と、そちらの1で思想は違うみたいだけど。

957 :SYN ◆mMJ0UaoA :02/07/04 22:17
自分も前から二つのスレを一つにまとめて欲しかったけど、
向うでUTF-8以外の話すると、怒られそうな気がする。

227 KB
■ このスレッドは過去ログ倉庫に格納されています

★スマホ版★ 掲示板に戻る 全部 前100 次100 最新50

read.cgi ver 05.04.02 2018/11/22 Walang Kapalit ★
FOX ★ DSO(Dynamic Shared Object)