title_parttitle_parttitle_part
静岡県浜松市であれこれソフトを開発している A.K.I Software のブログです。日々の開発日記やサーバー・セキュリティ関連の話題なども掲載。
<< 2024/04 >>123456789101112131415161718192021222324252627282930
《《《 ネットワーク機器の購入は Amazon で! 》》》
Powered by BLOM Version 1.72 Memo
小さくも大きくも閉じたりもしません
08/06/17 20:24 / PMailServer2

ベイジアンフィルタの改良を引き続き行っています。
根幹となるアルゴリズムは変わりませんが、HTMLタグ切り出しの精度や、特別な文字列(URLなど)を主に変更しています。

日本語の解析が相変わらず難しいのですが、日本語の場合「意味的に綺麗に切り出す=精度が上がる訳」では無いので悩みどころです。
ベイジアンフィルタは単語(Token)単位の出現率を過去の出現率にあわせて判定を行うのですが、日本語の場合、言い回しってものがあり「言いましたね?」「言いましたネ?」と同じ意味でも切り出し方によっては判定が変わります。
文章を作成する人固有の言い回しや語句の使い方があるので、その特徴?を捉える意味でも現状の方式がいいかな、と思っています・・・が

一応、アルゴリズム自身も少し改良を考えていまして、改良版の実装を行ってみたのですが精度も上がるパターンもあれば下がるパターンもあり悩ましいです。
大量のspamをキープしてありますので、統計を取って良い方を選択したいと思います。

[更新日付:2008/06/17 20:24:27]
トラックバックを見る(0)
Log Link [https://akisoftware.com/cgi-bin/blom.exe?akisoft+sl+f972c7e99b6c6d2193a7e983ed7a634542a1f01b]
TB Link [https://akisoftware.com/cgi-bin/blom.exe?akisoft+tb+f972c7e99b6c6d2193a7e983ed7a634542a1f01b]

記事へのコメント

コメントはありません

名前
コメントキー
 
コメントする時はキーを正確に入力して下さい
コメント
アドレスを含んだコメントはできません
© 2008-10 A.K.I Software all rights reserved.