晴耕雨読の日々: P012-BOMの処理はどうするか

今日の目標→

前回のプログラムで、Unicodeのファイルを読み込むと、ときどき先頭に妙な空白が表示されるのに気がついた。これはBOMだ。何とかしないと。

●BOM（バイトオーダーマーク）について

Unicodeテキストは、その保存形式を見分けやすくするため、最初にUnicode文字の「\uFEFF」を付けることがある。これがBOM（バイトオーダーマーク）である。文字の値としては「\uFEFF」ひとつだが、ファイルへの保存形式によって次の違いが出る。

UTF-16BE
-- 16ビットをビッグエンディアンで保存するため、BOMは(fe, ff)となる。
UTF-16
-- リトルエンディアンで保存するため、BOMは(ff, fe)の順になる。
UTF-8
-- 可変長データに変換するため、BOMは(ef, bb, bf)の3バイトになる。

UTF-16BEとUTF-16は、データ内容からどちらなのか判別するのが原理的に難しいため、BOMの付加が強く推奨されている。いっぽうUTF-8の場合はBOMがなくても判定は容易だし、プログラムによっては未対応だし、あまりBOMを付けるメリットはない。

●いろいろな形式のUnicodeファイルを作る

実際に各種の形式のUnicodeファイルに触れてみるとわかりやすい。せっかくだからC#でいろいろなファイルを作ってみよう。コードは下記。今回はコンソールアプリケーションにしてみた。

「ファイル(F)」→「新しいプロジェクト(P)」で、プロジェクト作成ウィンドウを開く
カテゴリ「Visual C#」で、テンプレート「コンソールアプリケーション」を選ぶ
名前を「EncodeFiles」と入力してプロジェクトを作成する
Program.csを開き、次のコードを入力する

// プロジェクト：EncodeFiles
// ファイル名：Program.cs

using System;
using System.IO;
using System.Text;

namespace EncodeFiles
{
    class Program
    {
        // メイン処理
        static void Main(string[] args)
        {
            // index.htmlの途中まで
            string indexHTML = @"<!DOCTYPE html>
<html>
<head>
<meta charset=""shift_jis"" />
<title>各種エンコードのテスト</title>
</head>
<body>
<h1>各種エンコードのテスト</h1>
<ol>
";
            // file_XXXX.htmlのテンプレート
            string templateHTML = @"<!DOCTYPE html>
<html>
<head>
<meta charset=""$WEB_NAME"" />
<title>$ENC_NAME のテスト</title>
</head>
<body>
<h1>$ENC_NAME のテスト</h1>
<p>このファイルのcharsetは $WEB_NAME です。</p>
<p>半角カナの例： ｱｲｳｴｵｶﾞｷﾞｸﾞｹﾞｺﾞ</p>
<p>拡張文字の例： 﨑（たつさき）、髙（はしごたか）</p>
</html>
";
            // 作業用フォルダをデスクトップに作る
            string workFolder = Environment.GetFolderPath(
                Environment.SpecialFolder.Desktop) + "\\WorkFolder\\";
            Directory.CreateDirectory(workFolder);

// エンコードの一覧
            Encoding[] encList =
            {
                Encoding.GetEncoding(932),      // Shift_JIS + IBM拡張文字
                Encoding.GetEncoding(51932),    // EUC-JP + IBM拡張文字
                Encoding.GetEncoding(50221),    // JIS + 半角カナ + IBM拡張文字
                Encoding.UTF8,                  // UTF-8
                Encoding.Unicode,               // UTF-16LE
                Encoding.BigEndianUnicode,      // UTF-16BE
            };

for (int i = 0; i < 6; ++i)
            {
                // エンコードを得る
                Encoding enc = encList[i];

// エンコードに対応するファイル名とHTMLデータを作る
                string fileName = string.Format("file_{0}.html", enc.WebName);
                string fileHTML = templateHTML
                    .Replace("$WEB_NAME", enc.WebName)
                    .Replace("$ENC_NAME", enc.EncodingName);

// HTMLデータを適切なエンコードで保存する
                File.WriteAllBytes(workFolder + "\\" + fileName, enc.GetBytes(fileHTML));
                Console.WriteLine("{0}を作成しました。", fileName);
                indexHTML += string.Format("<li><a href=\"{0}\">{0}</a></li>\r\n", fileName);

// UTF-8とUTF-16系は、BOM付きのデータも書き込む
                if (i >= 3)
                {
                    const string BOM = "\ufeff";

// データの先頭にBOMを追加する
                    fileHTML = fileHTML.Replace("</html>",
                        "<p style='color:red;'>このファイルはBOM付きです！</p>\r\n</html>");
                    fileHTML = BOM + fileHTML;
                    fileName = fileName.Replace(".html", "_BOM.html");

// HTMLデータを適切なエンコードで保存する
                    File.WriteAllBytes(workFolder + "\\" + fileName, enc.GetBytes(fileHTML));
                    Console.WriteLine("{0}を作成しました。", fileName);
                    indexHTML += string.Format("<li><a href=\"{0}\">{0}</a></li>\r\n", fileName);
                }
            }

indexHTML += "</ol>\r\n</body>\r\n</html>\r\n";

// index.htmlを作る
            File.WriteAllText(workFolder + "\\index.html", indexHTML, Encoding.GetEncoding(932));
            Console.WriteLine("index.htmlを作成しました。");

// コンソールウィンドウがすぐ消えるのを防ぐためキー入力待ち
            Console.WriteLine("Enterキーを押してください");
            Console.ReadLine();
        }

}
}

実行すると、PCのデスクトップに「WorkFolder」というフォルダができ、さらにその中にいろいろなエンコードのHTMLファイルが作られる。

●次回の予告

BOMの処理の続き。

晴耕雨読の日々

2015年12月6日日曜日

P012-BOMの処理はどうするか

●BOM（バイトオーダーマーク）について

●いろいろな形式のUnicodeファイルを作る

●次回の予告

0 件のコメント:

コメントを投稿