.NET 文字列がJIS X 0208 漢字第二水準までで構成されているかをチェックする
- 2015/7/13 06:23
- カテゴリー : .NETチップス
- C# . JIS X 0208 . VB.NET . チェック . テスト . 文字列 . 文字化け . 漢字 . 第一水準 . 第二水準
- コメントを書く
C#、VB.NETで文字列がJIS X 0208 漢字第二水準までで構成されていることをチェックします。
最近のWEBサイトは文字コードをUnicodeで作成するため、文字化けを考慮することは少なくなってきましたが、一昔前までは文字列をWindowsとMac両方で文字化けなく表示させるため、入力できる文字に制限を付けることが一般的でした。
その際よく用いられるのが「JIS漢字第二水準まで許可」という仕様です。これは『半角英数字記号、全角記号・特殊文字、数字、ラテン文字、ひらがな、カタカナ、ギリシャ文字、キリル文字、罫線素片、漢字第1水準、漢字第2水準』で構成された文字列かどうかを判定します。
現在でも基幹系システムとの連携やラベルプリンタへの出力などで、丸付き数字やはしご高が文字化けする例が散見されますので、チェックのやり方は知っておくべきです。
●文字列がJIS X 0208 漢字第二水準までで構成されているかをチェック
/// <summary>
/// 文字列が半角英数字記号かどうかを判定します
/// </summary>
/// <param name="target">対象の文字列</param>
/// <returns>文字列が半角英数字記号の場合はtrue、それ以外はfalse</returns>
public static bool IsASCII(string target)
{
return new Regex("^[\x20-\x7E]+$").IsMatch(target);
}
/// <summary>
/// 文字列が半角カタカナ(句読点~半濁点)かどうかを判定します
/// </summary>
/// <param name="target">対象の文字列</param>
/// <returns>文字列が半角カタカナ(句読点~半濁点)の場合はtrue、それ以外はfalse</returns>
public static bool IsHalfKatakanaPunctuation(string target)
{
return new Regex("^[\uFF61-\uFF9F]+$").IsMatch(target);
}
/// <summary>
/// 文字列がJIS X 0208 漢字第二水準までで構成されているかを判定します
/// </summary>
/// <param name="target">対象の文字列</param>
/// <param name="containsHalfKatakana">漢字第二水準までに半角カタカナを含む場合はtrue、それ以外はfalse</param>
/// <returns>文字列がJIS X 0208 漢字第二水準までで構成されている場合はtrue、それ以外はfalse</returns>
public static bool IsUntilJISKanjiLevel2(string target, bool containsHalfKatakana)
{
// 文字エンコーディングに「iso-2022-jp」を指定
Encoding encoding = Encoding.GetEncoding("iso-2022-jp");
// 文字列長を取得
int length = target.Length;
for (int i = 0; i < length; i++)
{
// 対象の部分文字列を取得
string targetSubString = target.Substring(i, 1);
// 半角英数字記号の場合
if (IsASCII(targetSubString) == true)
{
continue;
}
// 漢字第二水準までに半角カタカナを含まずかつ対象の部分文字列が半角カタカナの場合
if (containsHalfKatakana == false &&
IsHalfKatakanaPunctuation(targetSubString) == true)
{
return false;
}
// 対象部分文字列の文字コードバイト配列を取得
byte[] targetBytes = encoding.GetBytes(targetSubString);
// 要素数が「1」の場合は漢字第三水準以降の漢字が「?」に変換された
if (targetBytes.Length == 1)
{
return false;
}
// 文字コードバイト配列がJIS X 0208 漢字第二水準外の場合
if (IsUntilJISKanjiLevel2(targetBytes) == false)
{
return false;
}
}
return true;
}
/// <summary>
/// 文字列がJIS X 0208 漢字第二水準までで構成されているかを判定します
/// </summary>
/// <param name="target">対象の文字列</param>
/// <returns>文字列がJIS X 0208 漢字第二水準までで構成されている場合はtrue、それ以外はfalse</returns>
/// <remarks>句読点~半濁点の半角カタカナはJIS X 0208 漢字第二水準外と判定します</remarks>
public static bool IsUntilJISKanjiLevel2(string target)
{
return IsUntilJISKanjiLevel2(target, false);
}
/// <summary>
/// 文字コードバイト配列がJIS X 0208 漢字第二水準までであるかを判定します
/// </summary>
/// <param name="targetBytes">文字コードバイト配列</param>
/// <returns>文字コードバイト配列がJIS X 0208 漢字第二水準までである場合はtrue、それ以外はfalse</returns>
private static bool IsUntilJISKanjiLevel2(byte[] targetBytes)
{
// 文字コードバイト配列の要素数が8ではない場合
if (targetBytes.Length != 8)
{
return false;
}
// 区を取得
int row = targetBytes[3] - 0×20;
// 点を取得
int cell = targetBytes[4] - 0×20;
switch (row)
{
case 1: // 1区の場合
if (1 <= cell && cell <= 94)
{
// 1点~94点の場合
return true;
}
break;
case 2: // 2区の場合
if (1 <= cell && cell <= 14)
{
// 1点~14点の場合
return true;
}
else if (26 <= cell && cell <= 33)
{
// 26点~33点の場合
return true;
}
else if (42 <= cell && cell <= 48)
{
// 42点~48点の場合
return true;
}
else if (60 <= cell && cell <= 74)
{
// 60点~74点の場合
return true;
}
else if (82 <= cell && cell <= 89)
{
// 82点~89点の場合
return true;
}
else if (cell == 94)
{
// 94点の場合
return true;
}
break;
case 3: // 3区の場合
if (16 <= cell && cell <= 25)
{
// 16点~25点の場合
return true;
}
else if (33 <= cell && cell <= 58)
{
// 33点~58点の場合
return true;
}
else if (65 <= cell && cell <= 90)
{
// 65点~90点の場合
return true;
}
break;
case 4: // 4区の場合
if (1 <= cell && cell <= 83)
{
// 1点~83点の場合
return true;
}
break;
case 5: // 5区の場合
if (1 <= cell && cell <= 86)
{
// 1点~86点の場合
return true;
}
break;
case 6: // 6区の場合
if (1 <= cell && cell <= 24)
{
// 1点~24点の場合
return true;
}
else if (33 <= cell && cell <= 56)
{
// 33点~56点の場合
return true;
}
break;
case 7: // 7区の場合
if (1 <= cell && cell <= 33)
{
// 1点~33点の場合
return true;
}
else if (49 <= cell && cell <= 81)
{
// 49点~81点の場合
return true;
}
break;
case 8: // 8区の場合
if (1 <= cell && cell <= 32)
{
// 1点~32点の場合
return true;
}
break;
default:
if (16 <= row && row <= 46) // 16区~46区の場合
{
if (1 <= cell && cell <= 94)
{
// 1点~94点の場合
return true;
}
}
else if (row == 47) // 47区の場合
{
if (1 <= cell && cell <= 51)
{
// 1点~51点の場合
return true;
}
}
else if (48 <= row && row <= 83) // 48区~83区の場合
{
if (1 <= cell && cell <= 94)
{
// 1点~94点の場合
return true;
}
}
else if (row == 84) // 84区の場合
{
if (1 <= cell && cell <= 6)
{
// 1点~6点の場合
return true;
}
}
break;
}
return false;
}
Unicodeと日本語(JIS)では漢字の並び順が異なるため、正規表現での範囲指定は利用できません。愚直に一文字ずつ「JIS X 0208」に準拠しているかを判定しています。判定の基準とさせていただいた区・点の情報は、以下のサイトを参考にしております。
以下のエリアでは「IsUntilJISKanjiLevel2」メソッドを実際に動かした時の挙動を確認できます。
●半角カタカナはJIS X 0208 漢字第二水準外
●半角カタカナをJIS X 0208 漢字第二水準に含めるかを選択
コメントはまだありません。