Microsoft Translator API+++ 文章を文に切り分けるAPI便利だよ

Microsoft Translator APIBreakSentences Method(HTTP版)がとても便利。Ajax版SOAP版もあります。

「。」(句点)や「.」(ピリオド)で切ればいいじゃん!…いやいやなかなかそうはいかないのです。単純にピリオドで切り分けると、下の文章は「9.0」の間の変なところで切れちゃいます。

It was the most powerful tremor since the 9.0-magnitude quake that triggered a devastating tsunami four weeks ago.
Japan: Powerful aftershock leaves three dead - BBC News

Microsoft Translator APIのBreak Sentences Methodだと、ちゃんと一文として認識されます。えらい!

ただ、パラメータで明示的に言語を指定しなければいけないのがイマイチ。言語を推定するDetect Method(HTTP版)があるので、いいといえばいいのですが、2度外部のサーバーにアクセスすることになり、応答時間がちょっと心配。言語を明示的に指定しなかったらMSのサーバーサイドでやってくれるといいのにな。

そんなこんなです。多言語での自然言語処理をしてみたい人は、Microsoft Translator APIを覗いてみるとよいかもしれません(^^)例も豊富でMS+++です。