コーパスとは?種類やメリット、機械翻訳に役立つコーパスを紹介!

コーパスとは?種類やメリット、機械翻訳に役立つコーパスを紹介

「コーパス」とは、機械翻訳を行う際に、翻訳の質を高める重要な役割を果たしてくれるものです。

本稿ではコーパスの種類やメリットについて説明します。

また、おすすめのコーパスも紹介しますので、機械翻訳の利用を考えている方は参考にしてください。

コーパスとは

コーパスとは

コーパスとは簡単に言うと「言葉のデータベース」のことです。

新聞、雑誌、映画やテレビなど、さまざまなメディアで実際に使われている言葉の用例を集めたもので、実際にある単語や文章がどのように使われているかを知ることができます。

コーパスの必要性

翻訳にコーパスが必要な理由は、機械翻訳の精度を高めるためです。

統計ベースやニューラル機械翻訳のエンジンを利用する場合、言語が対訳になったコーパスを読み込んで機械翻訳をカスタマイズすることが可能です。

対訳の精度が良ければ、一般的にはエンジンに読み込ませるコーパスが多いほど精度は上がると言えます。

逆に読み込ませるコーパスの量が少ない場合や、コーパスの精度が低い場合は、訳文が不自然な仕上がりになるだけでなく、誤訳をしてしまうといった問題が起きる可能性があります。

主なコーパスの種類

翻訳に使われるコーパスを「対訳コーパス」と呼びますが、その中にもいくつか種類があります。

  • 2言語パラレルコーパス(原文と他1言語の翻訳)
  • 多言語パラレルコーパス(原文と複数言語の翻訳)
  • 2言語多翻訳コーパス(原文と他1言語の複数翻訳) 
  • 2言語比較可能コーパス(同じジャンルである言語と別の言語を比較)

この中で最も一般的なものが「2言語パラレルコーパス」です。

コーパスの分量

検索エンジンに読み込ませるコーパスの分量は、一般的には20万ワードから100万ワード程度のコーパスが必要とされています。

一方、専門性の高い対訳データを10万ワードほど集めることで多くのコーパスを読み込ませた場合と同様の品質の訳文が得られる場合もあります。

精度の高い翻訳のために分量はもちろん大事ですが、専門性も重要な要素となります。

コーパスのメリット

コーパスのメリット

コーパスのメリットには、下記の3つが挙げられます。

  • 単語の使用頻度がわかる
  • 正しい表現がわかる
  • 単語を適切に使い分けられる

それぞれのメリットについて見ていきましょう。

単語の使用頻度がわかる

単語をコーパスで検索したときに、用例が多いものは使用頻度が高いものとなります。

例えば、同じ検索エンジンで「お金持ち」を指す”rich people”は約 1,160,000,000 件、同じく「お金持ち」を指す”wealthy people”は 約 268,000,000件となり、圧倒的に”rich people”の使用頻度が高いことがわかります。

正しい表現がわかる

「アポイントを取る」と表現したい場合、 “make an appointment” か “take an appointment”どちらが正しいのでしょう。

“take an appointment”で検索をしてもあまり検索結果が出てこず、 “make an appointment”が正しい表現で検索すると多くの用例が見つかります。

このことから、「アポイントを取る」の正しい表現は  “make an appointment”であることがわかります。

単語を適切に使い分けられる

「晩ごはんを作る」というとき、「make dinner」が正しいか、それとも「cook dinner」が正しいのかどちらでしょう。

同じ検索エンジンでそれぞれを検索してみると、”make dinner”は8,300,000件に対し、

”cook dinner”は13,900,000件と”cook dinner”の使用が多いことがわかります。

調べてみると、cookは火を使って調理するものに使い、makeは火を入れなかったり簡単な料理(サラダなど)に使うことが多いようです。

代表的なコーパス4つ

代表的なコーパス4つ

一般的に知られているコーパスを4つ紹介します。

  • 小学館コーパスネットワーク
  • British National Corpus (BNC)
  • The Corpus of Contemporary American English
  • 検索エンジン

小学館コーパスネットワーク

小学館コーパスネットワークは、一部を除き有料のサービスです。

しかし、説明が日本語のため、他のコーパスに比べて使いやすいでしょう。

All-in Packageの会員になると5つのコーパスを利用することができます。

  • BNC Online
  • WordbanksOnline
  • JEFLL Corpus(無料)
  • CJEC
  • PERC Corpus

British National Corpus (BNC)

British National Corpus (BNC) はイギリスの口語、新聞、書籍、論文、広告などで使われる言葉を幅広く集めた、無料で利用できるコーパスです。

The Corpus of Contemporary American English (COCA)

The Copus of Contemporary American English (COCA)はアメリカの小説、新聞、雑誌、論文、テレビや映画、ブログなどで使われている言葉を集めた、無料のコーパスです。

検索エンジン

最も気軽に使えるといっても過言ではないのが、Googleなどの検索エンジンです。

検索エンジンでまとまった文章を調べたいときには ” ”で囲って調べましょう。

そのまま検索をかけると、文ではなく単語を順不同に含む結果が出てきてしまうため注意が必要です。

精度が高い機械翻訳ならアイ・ディー・エー

精度が高い機械翻訳ならアイ・ディー・エー

コーパスが翻訳エンジンにあらかじめ組み込まれている場合もありますが、分野や言語が自社に適合していなければ、その効果は望めません。

また、自社の過去の翻訳データをコーパスとして利用したい場合は、十分な分量があるかどうかや、対訳の精度を翻訳会社に確認してもらうべきです。

将来的に自社のコーパスを所有するためには、過去の翻訳データを精査した上で、今後の翻訳データを蓄積していくことが必要です。

アイ・ディー・エー株式会社は20年以上の翻訳・制作実績があるため、翻訳データをコーパスに活用する方法についても、相談が可能です。

まとめ

今回はコーパスの種類とメリット、また機械翻訳をする際におすすめのコーパスについて説明しました。

自社の翻訳データを利用する場合には専門性の高いデータが手に入るというメリットもありますが、精度の高い訳文を求めるなら、十分なコーパス量になっているかを翻訳会社に確認してもらう方が良いでしょう。

自社の翻訳したい内容に沿った、適切なコーパスの利用をしていきましょう。

翻訳を依頼するなら、多⾔語翻訳と制作で20年以上の実績があるアイ・ディー・エー株式会社がおすすめです。

翻訳言語のネイティブによる翻訳は、80以上の言語と幅広い専門分野に対応しており、翻訳サービスの品質とプロセス管理の国際規格ISO 17100認証を取得しています。
また、翻訳からウェブサイト/印刷物の制作までを⾃社内で⾏うワンストップ体制のため、短納期と低コストを実現しています。

アイ・ディー・エー株式会社サービス一覧

多言語翻訳/多言語ドキュメント制作/多言語ウェブサイト制作
翻訳ソリューション/Author-it / Madcap
動画・YouTube翻訳サービス/インバウンド対策支援