アカウント名:
パスワード:
egrep -F は fgrep と同じで、固定文字列を検索する。それで実用的なスパムフィルターを作れるって、すごいことじゃね?
…と思ったら、本家のタレコミ主である hmilz さんが重要なところを間違えている。 hmilz さんのコメント [slashdot.org]によれば、各メールについて「egrep -i -o -f」を実行しているのであって、固定文字列を検索する「egrep -F」は全然関係ない。
-f はパターンが 1 行に 1 個ずつ書かれたファイルを読み込んで、全パターンを検索するためのオプション。大量の正規表現パターンをコンパイルすることもなく何度も繰り返し使うなんて、そりゃ遅いに決まっている。
少なくとも、メールごとにパターンをコンパイルしないで済む仕組みが必要。既存のスパムフィルターならそういうことは当然しているけれど、他の処理もいろいろくっついてくるから運用を変える必要がある。「余計な処理は要らないから、 egrep -f を同じパターンファイルで何度も実行するのを高速化したい」というのがやりたいことだとすると、どういうツールがあるのかわからない。
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
あつくて寝られない時はhackしろ! 386BSD(98)はそうやってつくられましたよ? -- あるハッカー
egrep -F じゃない (スコア:2)
egrep -F は fgrep と同じで、固定文字列を検索する。それで実用的なスパムフィルターを作れるって、すごいことじゃね?
…と思ったら、本家のタレコミ主である hmilz さんが重要なところを間違えている。 hmilz さんのコメント [slashdot.org]によれば、各メールについて「egrep -i -o -f」を実行しているのであって、固定文字列を検索する「egrep -F」は全然関係ない。
-f はパターンが 1 行に 1 個ずつ書かれたファイルを読み込んで、全パターンを検索するためのオプション。大量の正規表現パターンをコンパイルすることもなく何度も繰り返し使うなんて、そりゃ遅いに決まっている。
少なくとも、メールごとにパターンをコンパイルしないで済む仕組みが必要。既存のスパムフィルターならそういうことは当然しているけれど、他の処理もいろいろくっついてくるから運用を変える必要がある。「余計な処理は要らないから、 egrep -f を同じパターンファイルで何度も実行するのを高速化したい」というのがやりたいことだとすると、どういうツールがあるのかわからない。