古いバックアップ用のメールアカウントを復活させる事に成功して中身をすべてダウンロードしたわけですが、その数15万通とか・・・orz
秀丸メールでローカルにダウンロードしましたが、
大変長い時間(半日近く?)かかりましたが、なんとかダウンロード完了。
12年分くらいで15万通、サーバーの使用量はそれでお2G強、テキストだけですからそんなもんですかね。
バックアップなのでこれで完了でもよかったのですが、しかし、どうやら中身の7割くらいはスパムメールのようです。
ディスク容量を圧迫するのでスパムメールは削除したい。
スパムフィルターによって識別されているので別フォルダに振り分けましたが、ちょっと中を見てみたら、結構スパムではないメールがご判定されて混ざってしまっている模様。(特に古いメールほどご判定が多い)
とりあえず、アドレス帳に登録されている差出人からのはすべて除外
さらに、外国語でメールのやりとりをする事は99%くらいないので、これをまとめてばっさり削除してしまいたい。
(まれにSNSや各種WEBサービスの登録メールが英文しか用意されていない場合がありますが、そういうのは削除してしまっても問題ないと判断)
というわけで、英文のメールを識別して抜き出したい。
が、これが意外と難しい。
以前は簡単だったんですが・・・ヘッダ内の文字コードで日本語でないものを除外すればよかったので。
具体的には
Date: に JST または +0900 が含まれない
Content-Type: または X-Body-Content-Type: に 2022 が含まれない
これで大部分の英文メールが排除できました。
さらに、2022 だけでなく、Shift-JIS Shift_JIS などが含まれないものも指定してもよいかも。
ところが、近年、文字コードがUTFが標準になって、多言語混在が可能になってしまったため、文字コードによる識別ができなくなってしまったようです。
さて、ヘッダから日本語の含まれないメールを識別する方法はないか・・・と思ったら、秀丸メール限定の機能ですが、発信元を識別するヘッダ
「 X-TuruKame-SenderCountry: 」
というのが追加されていたようです。
デフォルトではオフになっているようなので、
全般的な設定
↓
上級者向け
↓
デコード
の中にある
「メールの発信国をX-TuruKame-SenderCountry:ヘッダに記録する」
のチェックボックスをオンにすると記録されるようになります。
日本国内のサーバーから発信されているものは「JP~」と記録されるようなので、このヘッダが「"JP"で始まらない」という指定にすれば、外国から発信されたメールが選別できますね。
これは助かります。
ただ、人によって状況は違うと思いますが、USとTWは別フォルダに振分されるようにしました。
US(アメリカ)からのメールにはスパムでないメールが結構含まれている確率が高かったので = ※FacebookやTwitter、AMAZONなど、アメリカに会社があるサービスが結構あるためですね。TW(台湾)はパソコンメーカーで台湾にある会社が多く、台湾のメーカーのパソコンをユーザー登録したりしていたので。
日本語でないメールを排除というのは、日本語以外で、海外の国の人とやり取りがある人には使えない技ですね。
コメント