5件の投稿を表示中 - 1 - 5件目 (全5件中)
  • 投稿者
    投稿
  • #10432

    ssskyhigh
    Participant

    いつも古典文献の研究用にEmeditorを重宝させていただいております。ありがとうございます。

    是非とも追加していただきたい機能があるのですが、

    (1)全てのユニコード漢字(cjk統合漢字、cjk互換用漢字を含む)の、曖昧検索機能があると非常に助かります。つまり、チェックすれば漢字語の異体字やコードの違いを気にせずに検索しても全てヒットするようにするというものです。できれば正規表現とも一緒に使えると非常に助かります。

    (2)あわせて、全ての漢字を日本漢字に統一する、中国語簡体字に統一する、旧字体に統一する、といった機能も追加していただけると助かります。

    どうかご検討よろしくお願いいたします。

    #10437

    Yutaka Emura
    キーマスター

    ssskyhigh 様

    いつも EmEditor Professional をお使いいただき、誠にありがとうございます。

    (2) の漢字変換については、簡体字中国語と繁体字中国語の相互の変換でしたら、以下のプラグインをお使いいただけます。

    http://jp.emeditor.com/modules/mydownloads/singlefile.php?cid=26&lid=26

    http://jp.emeditor.com/modules/mydownloads/singlefile.php?cid=26&lid=28

    しかし、これでもすべての漢字が網羅されていない場合には、マクロを使って、特定の漢字を変換することも可能ですが、そのためのデータの入力が膨大な数になる可能性があります。

    もし、オンラインでそのような情報が入手できるようでしたら、教えていただければ、(1) についても含めて、検討したいと思います。

    どうぞよろしくお願い申し上げます。

    #10445

    ssskyhigh
    Participant

    わかりました。どうもありがとうございます。

    #10686

    ssskyhigh
    Participant

    こんにちは。遅くなってしまいました。

    私としては、(2)は二次的なものであり(データベースさえあればマクロでも簡単にできますので)、「検索」及び「ファイルから検索」における(1)の機能を是非とも検討していただければと望んでおります。

    特に古典文献の入力資料においてはユニコード内の微妙な違いの異体字がフルに活用されている場合も多く、
    また現代でも日中韓台の間で使用する字体に微妙な違いがある場合が多いのですが、そういった字体の違いのせいでヒットしない場合があるというのは非常に頭が痛い問題です。

    異体字に関してWEB上で私が探したものでは、次のようなものを利用できそうです。

    http://www.asahi-net.or.jp/~ax2s-kmtn/ref/old_chara.html
    常用漢字表の中の新旧字体表が整理されています。

    http://www5b.biglobe.ne.jp/~harigaya/yitizi/index.html
    中国で1955,1989年に公布された《第一批異体字整理表》に関するデータがあります。

    他にもオンラインで利用できる以下のようなものを見つけました。
    http://shimapucchi.blog93.fc2.com/blog-category-18.html
    http://www.geocities.jp/hgonzaemon/kyuukannji.html
    http://ameblo.jp/saglasie/entry-10537406903.html
    http://www.arc.ritsumei.ac.jp/archive01/theater/document/hyobanki/kanjisyori.htm
    (→最後のものは「~と異音」「~と異音意義」などとなっているものは除外しなければならなそうです。)

    CJK統合漢字と互換漢字に関しては、これを参照できそうです。
    http://shimapucchi.blog93.fc2.com/blog-entry-339.html

    もし可能なら、このようなデータベースに関しても後から微調整できれば理想的かもしれません。

    もし何かお助けできることがございましたら喜んでお手伝いさせていただこうと思っています。どうぞよろしくお願いします。

    #10696

    Bohemian
    Participant

    Unicode漢字異体字すべての曖昧検索は、EmEditorの機能というより、Unicode
    での漢字の扱いというUnicode自体の歴史から困難なことは理解できます。

    私は、Unicode漢字異体字すべてではなく、EmEditorが今回実装したUnicode
    の異字体シーケンス (IVS)に対して、その異体字シーケンスのUnicode
    “U+XXXX U+EXXXX”の共通部分の先頭の”U+XXXX”で、異体字シーケンス全体を
    検索できる機能を要望したいと思います。

    現在、異体字シーケンスがすべて異なる文字として検索されるようになって
    おりますが、文章中で、異体字シーケンスの字体となっているか、漏れはな
    いか、異体字シーケンスの異なる字体にしてしまっているものはないかのチェ
    ックが困難になってしまうからです。

    ご検討をお願いします。

5件の投稿を表示中 - 1 - 5件目 (全5件中)

このトピックに返信するにはログインが必要です。

友達に知らせる... Tweet about this on TwitterShare on FacebookShare on Google+Email this to someone