古いバックアップ用のメールアカウントを復活させる事に成功して中身をすべてダウンロードしたわけですが、その数15万通とか・・・orz 秀丸メールでローカルにダウンロードしましたが、 大変長い時間(半日近く?)かかりましたが、なんとかダウンロード完了。 12年分くらいで15万通、サーバーの使用量はそれでお2G強、テキストだけですからそんなもんですかね。 バックアップなのでこれで完了でもよかったのですが、しかし、どうやら中身の7割くらいはスパムメールのようです。 ディスク容量を圧迫するのでスパムメールは削除したい。 スパムフィルターによって識別されているので別フォルダに振り分けましたが、ちょっと中を見てみたら、結構スパムではないメールがご判定されて混ざってしまっている模様。(特に古いメールほどご判定が多い) とりあえず、アドレス帳に登録されている差出人からのはすべて除外 さらに、外国語でメールのやりとりをする事は99%くらいないので、これをまとめてばっさり削除してしまいたい。 (まれにSNSや各種WEBサービスの登録メールが英文しか用意されていない場合がありますが、そういうのは削除してしまっても問題ないと判断) というわけで、英文のメールを識別して抜き出したい。 が、これが意外と難しい。 以前は簡単だったんですが・・・ヘッダ内の文字コードで日本語でないものを除外すればよかったので。 具体的には Date: に JST または +0900 が含まれない Content-Type: または X-Body-Content-Type: に 2022 が含まれない これで大部分の英文メールが排除できました。 さらに、2022 だけでなく、Shift-JIS Shift_JIS などが含まれないものも指定してもよいかも。 ところが、近年、文字コードがUTFが標準になって、多言語混在が可能になってしまったため、文字コードによる識別ができなくなってしまったようです。 さて、ヘッダから日本語の含まれないメールを識別する方法はないか・・・と思ったら、秀丸メール限定の機能ですが、発信元を識別するヘッダ 「 X-TuruKame-SenderCountry: 」 というのが追加されていたようです。 デフォルトではオフになっているようなので、 全般的な設定 ↓ 上級者向け ↓ デコード の中にある 「メールの発信国をX-TuruKame-SenderCountry:ヘッダに記録する」 のチェックボックスをオンにすると記録されるようになります。 日本国内のサーバーから発信されているものは「JP~」と記録されるようなので、このヘッダが「"JP"で始まらない」という指定にすれば、外国から発信されたメールが選別できますね。 これは助かります。 ただ、人によって状況は違うと思いますが、USとTWは別フォルダに振分されるようにしました。 US(アメリカ)からのメールにはスパムでないメールが結構含まれている確率が高かったので = ※FacebookやTwitter、AMAZONなど、アメリカに会社があるサービスが結構あるためですね。TW(台湾)はパソコンメーカーで台湾にある会社が多く、台湾のメーカーのパソコンをユーザー登録したりしていたので。 日本語でないメールを排除というのは、日本語以外で、海外の国の人とやり取りがある人には使えない技ですね。
コメント