migaro_tech2013 By DO!BOOK

82 ある。修正したコード例を、ソース3 として示す。【ソース3】　コード例に示したように、 TStringList クラスのSaveToFile メソッドにパラメーターを追加するだけである。　もし、UTF-8 で保存したければ、50 行目にあるSaveToFile メソッドの第2 パラメーターをTEncoding.UTF8 に変更するだけである。ログ出力例をユニコード対応する　低レベル命令群でユニコードの出力を行うのは若干面倒なことと、TStream 継承クラスを使ったサンプルプログラムも示しておきたいので、こちらのユニコード対応はTFileStream クラスを使用するように変更する。　基本的な処理手順は、前述の低レベル命令群を使ったものと同じである。ただし、ユニコード化の影響として、以下のポイントに気を付ける必要がある。・ UTF-16 のテキストには、BOM（バイトオーダーマーク）が必要となる。・出力データを、バイト配列に変換してから出力する。　TFileStream クラスを使用したコード例をソース4 として示す。【ソース4】　低レベル命令群からのTFileStream への置き換えとユニコード対応を同時に行ったため、大きく変わってしまったが、ボリュームは全体でも50 行未満とそれほどでもないことがわかる。　ポイントとしては、TEncoding を使い、ログファイルを新規作成する場合に BOM を付加することと、出力したいメッセージを予め変換しておくことである。また、網掛けの箇所でメッセージの変換と出力を行っている。　なお、こちらの例をUTF-8 に対応させるには、12 行目のENC 変数への代入をTEncoding.UTF8にするだけである。 5.まとめ　今回は、Windows 上のテキストファイルを取り扱う代表的なパターンを2 つ紹介した。さまざまなシステムが入り乱れる昨今、他システムとの連携役として ※その2 　続いて、文字の取り扱いルールとしてのユニコードだが、厳密にはUTF-8、 UTF-16、UTF-32 といったものがある。これらは本来、ユニコードを取り扱うルールであって、ユニコードそのものではない。ただし、実際のプログラムにはこちらの影響が大きく、開発者サイドには馴染みのあるものになっているだろう。　インターネットでは、アルファベット等でASCII と互換性のあるUTF-8 が主流であるが、漢字や仮名をUTF-8 で取り扱うとほとんどが3 バイト必要になるため、従来のShift_JIS に比べても効率が悪くなってしまうことが多い。　そのためか、ユニコード対応版の Delphi/400 は、文字データを基本的に UTF-16 で取り扱っている。　UTF-16 の場合、かなり特殊な文字以外はすべて2 バイトで表現するようになっている。多バイトデータになるため、これをファイルに保存する際にはCPU アーキテクチャの影響を受けることになる。いわゆるエンディアンの問題である。エンディアンを明示的に指定しなければ、リトルエンディアンとなる。　上記のように、一口にユニコードと言ってもいろいろな種類があり、テキスト保存の際にはどういった形式で保存すればいいのか気を付ける必要がある。しかし、よく使われる形式は、UTF-8 またはUTF-16 のリトルエンディアンであろう。　ちなみに、Windows 標準のメモ帳で Unicode を選択すると、UTF-16 のリトルエンディアンになる。　では、次から、前章のデータ出力例のユニコード対応、具体的にはUTF-16 のリトルエンディアンで保存するケースを示していこう。　なお、ユニコード対応が行われた Delphi/400 2009 以降のバージョンを前提としている。 CSVデータ出力例をユニコード対応する　TStringList は、エンコーディングを指定するだけでユニコード対応が可能で 4. ユニコードテキストの出力　Delphi/400 は2009 以降のバージョンで、ユニコード対応が行われた。しかし、ファイル出力機能は、Delphi/400 のバージョンにかかわらずANSI ベースで行われる。　つまり、前章で紹介した例を使ってファイル出力すると、ユニコードにしか存在しない文字は「?」に変換されてしまう。　IBM i では専用のCCSID を指定する必要があるため、ユニコードが使われない場合もあるが、他システムとの連動等を考慮し、ユニコード対応する例も紹介しておこう。ユニコードテキストの種類　そもそも「ユニコード」とは一体何だろうか。　この問いに正確に答えることは意外と難しい。非常に乱暴な表現となるが、“これまでコンピュータ上で扱えなかったたくさんの文字の集まりとその扱い方をまとめたルール”これを指してユニコードと呼ばれることが多いようである。　しかし、上記したように文字の集まりとその扱い方ルールという2 種類を指しており、また、それぞれが複数の種類に分かれている。UCS-2 やUTF-16 といった用語を聞いたことはないだろうか。それらが、ユニコードと呼ばれるものの正体に近い。　コラム的に少しだけ細かい説明をしたいと思う。プログラムには直接関係がなく、若干複雑な内容であるため、UTF-8 とUTF-16、エンディアンという3 つの用語だけ覚えておけば、以下の2 段落（※）は読み飛ばしてもかまわない。 ※その1 　まず、文字の集まりとしてのユニコードだが、厳密にはUnicode、UCS-2、 UCS-4 といったものがある。このうち Unicode は、2013 年8 月現在でバージョン6.2 まで拡張されている。現時点では、取り扱い可能な文字の多さで並べれば、 UCS-2 ＜ Unicode ＜ UCS-4 となるが、主流はUnicode である。