2007年9月8日土曜日

BLOG/フィード/RSSリーダ nDigiReader 0.76 リリース

  • キーワードバーに漢字を含む単語が追加されるようにした
  • その他細かい修正多数

キーワードバーへ追加する単語は次の手順で抽出している
  1. 全ての未読の記事のタイトルを日本語または分かち書きをする言語(例:英語)とみなす
  2. 形態素解析する
  3. 固有名詞以外を排除する
  4. 出現頻度順にソートする
このうち2の形態素解析がまるでできていないので、3も全くできていない。
日本語の形態素解析器開発もそれなりに楽しそうだ。もちろん奥が深い世界なのだろう。フリーソフトのものがいくつかあるので試してみたい。

1 件のコメント:

  1. こんにちは
    nDigiReader 利用させていただいてます
    今後の希望として、cookieの保存か、
    Firefox のアドオンとして利用できると助かります。
    よろしくお願いします

    返信削除