ユニコード漢字異体字の曖昧検索機能 – EmEditor (テキストエディタ)

1 件の投稿を表示中 (合計 6 個)

作成者

投稿
2011年7月16日 2:32 pm #10432

ssskyhigh
Participant

いつも古典文献の研究用にEmeditorを重宝させていただいております。ありがとうございます。

是非とも追加していただきたい機能があるのですが、

(1)全てのユニコード漢字(cjk統合漢字、cjk互換用漢字を含む)の、曖昧検索機能があると非常に助かります。つまり、チェックすれば漢字語の異体字やコードの違いを気にせずに検索しても全てヒットするようにするというものです。できれば正規表現とも一緒に使えると非常に助かります。

(2)あわせて、全ての漢字を日本漢字に統一する、中国語簡体字に統一する、旧字体に統一する、といった機能も追加していただけると助かります。

どうかご検討よろしくお願いいたします。

2011年7月16日 9:38 pm #10437

Yutaka Emura
Keymaster

ssskyhigh 様

いつも EmEditor Professional をお使いいただき、誠にありがとうございます。

(2) の漢字変換については、簡体字中国語と繁体字中国語の相互の変換でしたら、以下のプラグインをお使いいただけます。

/modules/mydownloads/singlefile.php?cid=26&lid=26

/modules/mydownloads/singlefile.php?cid=26&lid=28

しかし、これでもすべての漢字が網羅されていない場合には、マクロを使って、特定の漢字を変換することも可能ですが、そのためのデータの入力が膨大な数になる可能性があります。

もし、オンラインでそのような情報が入手できるようでしたら、教えていただければ、(1) についても含めて、検討したいと思います。

どうぞよろしくお願い申し上げます。

2011年7月19日 1:56 pm #10445

ssskyhigh
Participant

わかりました。どうもありがとうございます。

2011年10月13日 6:43 am #10686

ssskyhigh
Participant

こんにちは。遅くなってしまいました。

私としては、(2)は二次的なものであり(データベースさえあればマクロでも簡単にできますので)、「検索」及び「ファイルから検索」における(1)の機能を是非とも検討していただければと望んでおります。

特に古典文献の入力資料においてはユニコード内の微妙な違いの異体字がフルに活用されている場合も多く、
また現代でも日中韓台の間で使用する字体に微妙な違いがある場合が多いのですが、そういった字体の違いのせいでヒットしない場合があるというのは非常に頭が痛い問題です。

異体字に関してWEB上で私が探したものでは、次のようなものを利用できそうです。

https://www.asahi-net.or.jp/~ax2s-kmtn/ref/old_chara.html
常用漢字表の中の新旧字体表が整理されています。

https://www5b.biglobe.ne.jp/~harigaya/yitizi/index.html
中国で1955,1989年に公布された《第一批異体字整理表》に関するデータがあります。

他にもオンラインで利用できる以下のようなものを見つけました。
https://shimapucchi.blog93.fc2.com/blog-category-18.html
https://www.geocities.jp/hgonzaemon/kyuukannji.html
https://ameblo.jp/saglasie/entry-10537406903.html
https://www.arc.ritsumei.ac.jp/archive01/theater/document/hyobanki/kanjisyori.htm
（→最後のものは「~と異音」「~と異音意義」などとなっているものは除外しなければならなそうです。）

CJK統合漢字と互換漢字に関しては、これを参照できそうです。
https://shimapucchi.blog93.fc2.com/blog-entry-339.html

もし可能なら、このようなデータベースに関しても後から微調整できれば理想的かもしれません。

もし何かお助けできることがございましたら喜んでお手伝いさせていただこうと思っています。どうぞよろしくお願いします。

2011年10月17日 2:26 pm #10696

Bohemian
Participant

Unicode漢字異体字すべての曖昧検索は、EmEditorの機能というより、Unicode
での漢字の扱いというUnicode自体の歴史から困難なことは理解できます。

私は、Unicode漢字異体字すべてではなく、EmEditorが今回実装したUnicode
の異字体シーケンス（IVS）に対して、その異体字シーケンスのUnicode
“U+XXXX U+EXXXX”の共通部分の先頭の”U+XXXX”で、異体字シーケンス全体を
検索できる機能を要望したいと思います。

現在、異体字シーケンスがすべて異なる文字として検索されるようになって
おりますが、文章中で、異体字シーケンスの字体となっているか、漏れはな
いか、異体字シーケンスの異なる字体にしてしまっているものはないかのチェ
ックが困難になってしまうからです。

ご検討をお願いします。

2022年9月1日 9:50 am #30692

Yutaka Emura
Keymaster

いつもお世話になっております。江村です。

v21.9.903 以上で、[あいまい一致] オプションを使った検索機能を追加しました。

/forums/topic/emeditor-v22-0-beta-21-9-901/

[検索] ダイアログボックスの中の [あいまい一致] オプションを設定し、その右にある […] ボタンをクリックして表示される [あいまい一致のオプション] ダイアログボックスで、[発音区分符号、濁点、半濁点などの前進を伴わない結合文字を区別しない] を設定すると、同様の異字体シーケンスを同一視するようになります。

お試しいただき、ご意見がございましたらご連絡ください。

よろしくお願いいたします。
作成者

投稿

1 件の投稿を表示中 (合計 6 個)

フォーラム ‘EmEditor 本体への機能追加の要望’ には新しいトピックや返信を追加できません。