Reply To: Re: 正規表現の仕様（とくに p） – EmEditor (テキストエディタ)

2013年6月18日 2:08 am #11782

参加者

平仮名・片仮名のコード範囲が微妙に間違っていますが，それはともかく，とりあえず漢字についてだけ。

U+3400-U+9FFF は「CJK 統合漢字」と「CJK統合漢字拡張A」を合わせたものですね。
U+F900-U+FA2D ってのは「CJK 互換漢字」の一部分ですが，全体は U+F900-U+FAFF です。
Unicode の漢字領域は，これらの他に CJK 統合漢字拡張B～D および CJK 互換漢字補助の四つがあります。
部首（U+2F00-2FDF）も漢字に含めてほしいですね。
それに，漢数字の〇（U+3007）はこれらの領域にありませんが，れっきとした漢字です。
などなど。

こんなものをいちいち書いてられるか，というのが当初の投稿の意図でした。

「統合漢字，拡張A，互換漢字に含まれない漢字なんて，ごく特殊な字じゃないの？」と思われるかも知れませんが，そうではありません。
人名などに使われる平凡な漢字「𡈽（U+2123D）」「𠀋（U+2000B）」（いずれも JIS 第三水準）はCJK統合漢字拡張Bに入っています。

なので，漢字が p{Han} と書けないと大変困るのです。

で，いま気づきましたが，x{ } の形式って，4 桁までなんですね。となると，基本多言語面（BMP: Basic Multilingual Plane）の文字しか検索できません。
さきほどの「𡈽」「𠀋」を含む CJK 統合漢字拡張 B～D は BMP 外なので，[x{20000}-x{2FFFF}] といった書き方すらできません。

EmEditor では漢字の検索ができない，という話になってしまいます。