お品書き
書き直し中…
とりあえず、中へどうぞ
↓↓↓
スポンサーリンク

外国語のメールを識別する方法

便利ツール/ソフトウェア
古いバックアップ用のメールアカウントを復活させる事に成功して中身をすべてダウンロードしたわけですが、その数15万通とか・・・orz

秀丸メールでローカルにダウンロードしましたが、

大変長い時間(半日近く?)かかりましたが、なんとかダウンロード完了。

12年分くらいで15万通、サーバーの使用量はそれでお2G強、テキストだけですからそんなもんですかね。

バックアップなのでこれで完了でもよかったのですが、しかし、どうやら中身の7割くらいはスパムメールのようです。

ディスク容量を圧迫するのでスパムメールは削除したい。

スパムフィルターによって識別されているので別フォルダに振り分けましたが、ちょっと中を見てみたら、結構スパムではないメールがご判定されて混ざってしまっている模様。(特に古いメールほどご判定が多い)

とりあえず、アドレス帳に登録されている差出人からのはすべて除外

さらに、外国語でメールのやりとりをする事は99%くらいないので、これをまとめてばっさり削除してしまいたい。
(まれにSNSや各種WEBサービスの登録メールが英文しか用意されていない場合がありますが、そういうのは削除してしまっても問題ないと判断)

というわけで、英文のメールを識別して抜き出したい。

が、これが意外と難しい。

以前は簡単だったんですが・・・ヘッダ内の文字コードで日本語でないものを除外すればよかったので。

具体的には

Date: に JST または +0900 が含まれない
Content-Type: または X-Body-Content-Type: に 2022 が含まれない

これで大部分の英文メールが排除できました。

さらに、2022 だけでなく、Shift-JIS Shift_JIS などが含まれないものも指定してもよいかも。

ところが、近年、文字コードがUTFが標準になって、多言語混在が可能になってしまったため、文字コードによる識別ができなくなってしまったようです。

さて、ヘッダから日本語の含まれないメールを識別する方法はないか・・・と思ったら、秀丸メール限定の機能ですが、発信元を識別するヘッダ

「 X-TuruKame-SenderCountry: 」

というのが追加されていたようです。

デフォルトではオフになっているようなので、

全般的な設定
 ↓
上級者向け
 ↓
デコード

の中にある

「メールの発信国をX-TuruKame-SenderCountry:ヘッダに記録する」

のチェックボックスをオンにすると記録されるようになります。



日本国内のサーバーから発信されているものは「JP~」と記録されるようなので、このヘッダが「"JP"で始まらない」という指定にすれば、外国から発信されたメールが選別できますね。

これは助かります。

ただ、人によって状況は違うと思いますが、USとTWは別フォルダに振分されるようにしました。
US(アメリカ)からのメールにはスパムでないメールが結構含まれている確率が高かったので = ※FacebookやTwitter、AMAZONなど、アメリカに会社があるサービスが結構あるためですね。TW(台湾)はパソコンメーカーで台湾にある会社が多く、台湾のメーカーのパソコンをユーザー登録したりしていたので。

日本語でないメールを排除というのは、日本語以外で、海外の国の人とやり取りがある人には使えない技ですね。

コメント