[HSPBC] Tips

	～テキスト～

全角半角文字の判別

Windows版のＨＳＰ標準文字コードはシフトＪＩＳですので、使用文字により半角全角が混合してしまいます。ＨＳＰに標準の文字列操作命令が幾つも用意されていますが、パラメータに指定する文字位置・文字数はいずれもバイト単位であり、利用者に入力してもらったテキスト、またはファイルから読み込んだテキストの一部を操作する時は、判別する必要があります。文字コードには法則があり、コード値が１２９～１５９ビットまたは２２４～２５５ビットになる場合、そのコードを含む文字は必ず全角(２バイト)文字になります。(但し、日本語Windowsの場合) この法則を利用すれば、いずれかを判定することが出来るようになりますが、全角文字の２バイト目は０～２５５ビットのいずれも来る可能性があり、コレだけでは不完全です。対象コードが１バイト文字領域だった場合、１バイト前も１バイト文字領域ならば、対象文字コードは「半角文字」であることが分かりますが、１バイト前が２バイト文字領域なら、対象コードは「半角文字」「全角文字の２バイト目」のいずれかであるため、さらにもう１バイト前を見る必要があります。もし、さらにもう１バイト前が１バイト文字領域なら、対象コードは「全角文字の２バイト目」ですが、逆に１バイト前が２バイト文字領域なら、さらに前を確認しなければ対象コードを特定することは出来ません。一方、対象コードが２バイト領域だった場合に、１バイト前が１バイト文字領域なら、対象の２バイト文字領域コードは「全角文字の１バイト目」になります。１バイト前も２バイト文字領域なら、さらにもう１バイト前を確認する必要があります。もし、さらにもう１バイト前が１バイト文字領域なら、対象コードは「全角文字の２バイト目」ですが、逆に１バイト前が２バイト文字領域なら、さらに前を確認しなければ対象コードを特定することは出来ません。整理すると次の様な法則が成り立ちます。

２バイト前１バイト前対象位置結果

確認不要１バイト文字１バイト文字対象コード＝半角文字

１バイト文字２バイト文字１バイト文字対象コード＝全角文字の２バイト目

２バイト文字２バイト文字１バイト文字ここからは判断できない

確認不要１バイト文字２バイト文字対象コード＝全角文字の１バイト目

１バイト文字２バイト文字２バイト文字対象コード＝全角文字の２バイト目

２バイト文字２バイト文字２バイト文字ここからは判断できない

つまり、対象位置より前の１バイト文字領域コードが出てくるまで確認することでＯＫなわけです。

wordchk 対象変数, 位置

対象変数判別したい文字列の入った変数を指定する。
statに-1(範囲外)、0(半角)、1(全角)のいずれかがセットされる。

位置指定変数の位置をバイト単位で指定する。

bytechk 対象変数, 位置

対象変数判別したい文字列の入った変数を指定する。
statに-1(範囲外)、0(半角)、1(全角１バイト目)、2(全角２バイト目)のいずれかがセットされる。
内部でwordchk命令を使用しているため、bytechk命令の前にwordchk命令を定義すること！

位置指定変数の位置をバイト単位で指定する。

#module
#deffunc wordchk val, int
	mref txt, 24 : mref ichi, 1
	mref stt, 64
	peek chk, txt, ichi
	if chk = 0 : stt = -1 : return // 範囲外
	if (chk > 128 & (chk < 160)) | (chk > 223) : stt = 1 : else : stt = 0 // 1byte=0 2byte=1
	return

#deffunc bytechk val, int
	mref s, 24 : mref p, 1
	mref stt, 64
	// 対象コードをチェックする
	wordchk s, p
	code = stat
	if code = -1 : return // 範囲外
	// 対象コードより前を確認
	repeat , 1
		wordchk s, p - cnt
		// 全てをチェックし終わったか、１バイト文字が来た
		if (stat = -1) || (stat = 0) {
			if code = 0 {
			  // １バイト領域になったのが奇数回なら半角、偶数回なら全角２バイト目
			  if cnt \ 2 = 1 : stt = 0 : else : stt = 2
			} else {
			  // １バイト領域になったのが奇数回なら全角１バイト目、偶数回なら全角２バイト目
			  if cnt \ 2 = 1 : stt = 1 : else : stt = 2
			}
			break
		}
	loop
	return
#global

	sdim type, 24, 3
	string = "abあcdeいfうghえijおklmかnopきqくrsけtuvこwxyz"
	type = "1バイト文字","2バイト文字1バイト目","2バイト文字2バイト目"
	strlen len, string
	randomize
	font "ＭＳ 明朝", 12
	color 255
	pos 30, 20 : mes string
	color , , 255
	pos  30,  5 : mes "01234567890123456789012345678901234567890123456789"
	pos  30, 50 : mes "位置"
	pos  80, 50 : mes "文字"
	pos 150, 50 : mes "タイプ"
	color
	repeat 25
		rnd r, len
		bytechk string, r // 適当な位置のコードをチェックする
		switch stat
			case 0: strmid get, string, r, 1 : swbreak
			case 1: strmid get, string, r, 2 : swbreak
			case 2: strmid get, string, r - 1, 2
		swend
		pos  30, cnt * 15 + 65 : mes r
		pos  80, cnt * 15 + 65 : mes get
		pos 150, cnt * 15 + 65 : mes type.stat
	loop
	stop

結果 = wordchk(対象変数, 位置)

結果 -1(範囲外)、0(半角)、1(全角)のいずれかがセットされる。

対象変数判別したい文字列の入った変数を指定する。

位置指定変数の位置をバイト単位で指定する。

結果 = bytechk(対象変数, 位置)

結果 -1(範囲外)、0(半角)、1(全角１バイト目)、2(全角２バイト目)のいずれかがセットされる。
内部でwordchk命令を使用しているため、bytechk命令の前にwordchk命令を定義すること！

対象変数判別したい文字列の入った変数を指定する。

位置指定変数の位置をバイト単位で指定する。

#module
#defcfunc wordchk var s, int ichi
	if ichi < 0 : return -1 // 範囲外
	chk = peek(s, ichi)
	if (chk > 128 & chk < 160) | chk > 223 : return 1 // 2byte=1
	if chk = 0 : return -1 : else : return 0          // 1byte=0 範囲外=-1

#defcfunc bytechk var txt, int p, local code, local stt
	// 対象コードをチェックする
	code = wordchk(txt, p)
	if code = -1 : return // 範囲外
	// 対象コードより前を確認
	repeat , 1
		stt = wordchk(txt, p - cnt)
		// 全てをチェックし終わったか、１バイト文字が来た
		if (stt = -1) | (stt = 0) {
			if code = 0 {
			  // １バイト領域になったのが奇数回なら半角、偶数回なら全角２バイト目
			  if cnt \ 2 = 1 : stt = 0 : else : stt = 2
			} else {
			  // １バイト領域になったのが奇数回なら全角１バイト目、偶数回なら全角２バイト目
			  if cnt \ 2 = 1 : stt = 1 : else : stt = 2
			}
			break
		}
	loop
	return stt
#global

	sdim type, 24, 3
	string = "abあcdeいうfghえijおklmかnopきqくrsけtuvこwxyz"
	type = "1バイト文字","2バイト文字1バイト目","2バイト文字2バイト目"
	len = strlen(string)
	randomize
	font "ＭＳ 明朝", 12
	color 255
	pos 30, 20 : mes string
	color , , 255
	pos  30,  5 : mes "01234567890123456789012345678901234567890123456789"
	pos  30, 50 : mes "位置"
	pos  80, 50 : mes "文字"
	pos 150, 50 : mes "タイプ"
	color
	repeat 25, 3
		r = rnd(len)
		// 適当な位置のコードをチェックする
		switch bytechk(string, r)
			case 0: get = strmid(string, r, 1) : swbreak
			case 1: get = strmid(string, r, 2) : swbreak
			case 2: get = strmid(string, r - 1, 2)
		swend
		pos  30, cnt * 15 + 20 : mes r
		pos  80, cnt * 15 + 20 : mes get
		pos 150, cnt * 15 + 20 : mes type.stat
	loop