#11782

redakt55
参加者

平仮名・片仮名のコード範囲が微妙に間違っていますが,それはともかく,とりあえず漢字についてだけ。

U+3400-U+9FFF は「CJK 統合漢字」と「CJK統合漢字拡張A」を合わせたものですね。
U+F900-U+FA2D ってのは「CJK 互換漢字」の一部分ですが,全体は U+F900-U+FAFF です。
Unicode の漢字領域は,これらの他に CJK 統合漢字拡張B~D および CJK 互換漢字補助の四つがあります。
部首(U+2F00-2FDF)も漢字に含めてほしいですね。
それに,漢数字の〇(U+3007)はこれらの領域にありませんが,れっきとした漢字です。
などなど。

こんなものをいちいち書いてられるか,というのが当初の投稿の意図でした。

「統合漢字,拡張A,互換漢字に含まれない漢字なんて,ごく特殊な字じゃないの?」と思われるかも知れませんが,そうではありません。
人名などに使われる平凡な漢字「𡈽(U+2123D)」「𠀋(U+2000B)」(いずれも JIS 第三水準)はCJK統合漢字拡張Bに入っています。

なので,漢字が p{Han} と書けないと大変困るのです。

で,いま気づきましたが,x{ } の形式って,4 桁までなんですね。となると,基本多言語面(BMP: Basic Multilingual Plane)の文字しか検索できません。
さきほどの「𡈽」「𠀋」を含む CJK 統合漢字拡張 B~D は BMP 外なので,[x{20000}-x{2FFFF}] といった書き方すらできません。

EmEditor では漢字の検索ができない,という話になってしまいます。