前回は、QA担当者による評価結果から次の改善の方向性を見出したときのお話をしました。今回は、評価結果をシステムに反映して改善した際のお話です。
大掛かりな修正へ
2011年6月後半は、第3回目のMosesのデコード結果の評価を行なうための準備に追われていました。実際の評価は7月に行なったのですが、日頃から取引のある翻訳会社や翻訳者の方を対象に、計24名の方々が参加してくださり、実に様々な意見をいただくことができました。
機械翻訳の訳文を修正した経験の有無によらず、多くの方が「想像していた以上に機械翻訳の訳文を利用できた」という感想をくださいました。中には、「前回ルールベース機械翻訳のプロジェクトで体験した機械翻訳よりも、ずっと品質が高いと感じました。ビックリ翻訳が全然なくて、ちょっと淋しいぐらいでした。」という感想を漏らす方もいたくらいです。
一方、まだ品質に対する課題も多く、人間翻訳なら絶対にお目にかかれないおかしな訳文に対し、厳しいご指摘も多くいただきました。前回お話した、統計的な手法だけに頼らないという手段で解決できることも多く、システムの改善を、以下のように処理フローの変更が少ないものから順に対応していくことにしました。
- 丸括弧の固定 (Specifying Reordering Constraintsの利用)
- 統計的機械翻訳だと括弧も翻訳対象の言葉として扱われ、デコード結果の括弧の位置がおかしなところに移動することが多い。
- そこで、デコード時の語順の移動に適切な制限を加え、括弧の始まりから括弧の終わりまでは連続した塊だと指定する。
- HTMLタグ付きのセンテンスへの対応
- デコード対象がプレーン・テキストにしか対応できていなかったので、HTMLのタグ付きテキストもデコードできるような処理を加える。
- デコード対象の英ママ部分の訳文指定 (XML Markupの利用)
- デコード対象の中に含まれる、明らかに英語のままで残す(英ママ)部分を特定し、確率100%の訳語を指定する。
- パス、URL、サーバ名、変数名、英語の製品名などを想定。
デコード前後のプロセス変更を伴う大掛かりな修正となったため、これらすべての改良が完了したのは、10月上旬でした。HTMLタグへの対応については、デコード結果の適切な位置にHTMLタグを戻すのが非常に難しく、現在も改良を続けています。
現在の実力
2011年10月からは、実際のお客様の案件で統計的機械翻訳の訳文を候補訳として活用し始めました。従来であれば新規翻訳として扱っていた案件でも、統計的機械翻訳の訳文を付加することで、新規翻訳するよりもワークロードが削減できそうだという見通しも立ってきました。
10月の案件では、デコード結果に対して5段階での評価を付けてもらいましたが、その結果のごく一部をご紹介いたします。
評価5の例 | 原文 | You can check the memory by running the following command: |
---|---|---|
機械翻訳 | 次のコマンドを実行してメモリーを確認できます。 | |
人による修正後 | (修正なし) | |
評価4の例 | 原文 | This feature enables you to pinpoint the source of the internet-based attack. |
機械翻訳 | この機能によって、インターネット・ベースの原因を特定するのに役立ちます。 | |
人による修正後 | この機能によって、インターネット・ベースの攻撃のソースを特定できます。 | |
評価3の例 | 原文 | An alert of this type is given to display a full SQL statement and associated details. |
機械翻訳 | このタイプのアラートを表示するには、完全なSQL文および関連する詳細を示します。 | |
人による修正後 | このタイプのアラートは、完全なSQL文および関連する詳細を表示するために指定します。 | |
評価2の例 | 原文 | User role auditing enables users to audit and approve changes to user roles in the databases on a specified database server. |
機械翻訳 | ユーザー・ロールは、指定されたデータベースを使用すると、ユーザーは、ユーザー・ロールを変更および承認の監査を監査するようにデータベース・サーバーです。 | |
人による修正後 | ユーザー・ロール監査を使用すると、ユーザーは、指定したデータベース・サーバーにあるデータベースのユーザー・ロールに対する変更を監査および承認できます。 |
第6回で、初めて自分たちのパラレル・コーパスを使ってデコードしたときの話を書きましたが、あれから僅か1年間で、充分に実用的な訳文も出せるようになりました。2012年も引き続き、品質向上と機能拡充に努めたいと思います。
これにて終了
さて、Moses奮闘記と題して、半年あまり連載を続けてきましたが、今回をもって最終回といたします。
第1回の冒頭で書いたとおり、某I社が試行錯誤した過程を飾ることなく、ありのまま日記のように綴ってきましたが、見えない答えを探し続け、時に遠回りしながらも地道に努力している姿はお伝えできたのではないかと思っています。
一方、時系列で話を進めていったため、情報がわかりやすい形に整理されておらず、みなさんにとって有意義ではなかったかもしれないという点は反省しております。来年(2012年)は、きちんと情報を整理してお伝えできるようにしたいと考えております。
最後までお付き合いくださった読者のみなさまには、感謝の気持ちでいっぱいです。本当にありがとうございました。(また、筆者を支えてくださった某I社の社員のみなさんにも、この場を借りてお礼を申し上げます。)
[注] この回顧録は、かつて勤めていた会社で書いた連載を復元したもので、某I社の現在の状況を反映している訳ではありません。