日本特許情報機構(Japio)のAI翻訳(独日)のデモを試した
(最終チェック・修正日 2019年11月18日)
最近の翻訳業界では、機械翻訳(MT)を導入するかどうか、経営者だけではなく、翻訳者も決断する時期が近いと感じているかもしれない。
ニューラル機械翻訳(NMT)の精度が向上したと言われていて、翻訳・通訳のアプリも販売されるなど、実用段階に既に入ったという印象を持つ人もいる。
しかし、Google 翻訳にいろいろ入力してみて、おかしな訳文が出たと騒いでいる人もまだいる。
NMTの精度が99%だとか、TOEICスコア960相当だなどと強調していることもあるが、では実際に仕事で使ってみてどうだったのかという話が少ない。
私は翻訳会社の社内翻訳者として、主に特許の英日・独日翻訳をしていて、英日に関してはNMT+ポストエディット(PE)という作業フローが標準になっている。
英日でNMT+PEに取り組み始めた2年くらい前は、まだPEでの修正量が多くて苦労した。
特に化学の特許で、化合物名の和訳が崩れてしまい、位置番号などが離れて文末にまとめて出現したり、長い名称だと途中で和訳をやめてしまうなど、PEが面倒だった。
独日翻訳については、現時点でも英語を仲介言語とするリレー翻訳になってしまい、誤訳などのエラーの割合が増幅されてしまうおそれがある。
ドイツ語特許原文から直接日本語に翻訳するために、日本特許情報機構(Japio)では、統計翻訳(SMT)を提供していた。
ただし、私の勤務先がNMTに取り組みたいということで、このSMTは導入することはなかった。
そして、11月6日から開催されている2019特許・情報フェア&コンファレンスで、Japioの展示ブースで新しい翻訳システム、AI翻訳のデモを見て、検討に値するのではないかと感じている。
特許・情報フェア&コンファレンスについては次のリンクから。
pifc.jp/2019/
JapioのAI翻訳に関するリリースは次のリンクから。
gpgfx.japio.or.jp/notice_20191101.pdf
従来のSMTにNMTを加えて、高精度の翻訳を実現しているという。
ということで、実際に展示ブースで試してみた。
まずは公報を検索するために、キーワードとしてある化合物名を入れ、出願人にはドイツ企業の名称を入れた。
検索結果のうち、有機EL材料の特許を選んで表示し、AI翻訳のボタンを押してみた。
すると、セグメント化された対訳フォームが表示され、一番上からセグメントごとに和訳が自動的に始まった。
たいていのセグメントは1秒以内に和訳が出力され、長い文でも5秒以内に和訳が出力された。
和訳結果をざっと見たところ、PE修正量は30%程度と思われた。
修正に時間はかかるかもしれないが、ドイツ語特許翻訳者を手配して、納品まで3日も待つよりは、その日のうちにPEを始められるので、生産性は向上すると思われる。
ドイツ語翻訳者の仕事を奪うことになるかもしれないが、人手不足の現状では、NMT+PEで対応するしかない。
ただ、ポストエディターもできるドイツ語翻訳者を同時に育成することも必要なことは確かだ。
今回は、化合物名について特にチェックしてみた。
以前は崩れることの多かった位置番号などは、原文ママの位置に出力され、1つのまとまりとして化合物名を認識しているようだ。
ただ、錯体の配位子の名称で、笑ってしまうエラーが出現した。
化合物名の一部のみ示すが、..phenylisochinolinato.. は、カタカナ表記で「..フェニルイソキノリナト..」と字訳してほしかったが、なぜか「..フェニルisochinoli北大西洋条約組織..」になってしまった。
これはJapioの営業にフィードバックしたので、原文ママで残して出力するか、それともカタカナ表記を学習することになるだろう。
(追記(11月18日):本日11時半頃に再度試したところ、「-フェニルイソキノリナト-」と正しく字訳された名称が出力された。)
ちなみに Google 翻訳で試したところ、「..フェニルイソ..」と、後半部分が消失してしまった。
もう1つ、化合物名の列挙のところで、複合語の共通する後半部分を省略してハイフンにしている場合を取り上げよう。
Aluminium-, Titan- oder Zirkoniumoxid では、oxid をハイフン部分に補足して和訳するため、「酸化アルミニウム、酸化チタンまたは酸化ジルコニウム」とするが、JapioのAI翻訳では、「アルミニウム-、チタン-又はジルコニウムオキシド」と、原文ママでハイフンを残してあった。
技術内容を把握していない人がPEをしたとき、このハイフンを単に削除してしまうと、権利範囲が変わってしまう。
酸化アルミニウムで特許を取ろうとしているのに、金属のアルミニウムになってしまうからだ。
これも Google 翻訳を試したところ、なんと、「酸化アルミニウム、酸化チタンまたは酸化ジルコニウム」と、期待した和訳になった。
ただし、Google 翻訳で独英をやると、aluminium, titanium or zirconium oxide となってしまい、誤訳だ。
うまく出力されたり、全然だめだったり、期待通りでないかもしれないが、自分が扱う分野の文書で試してみて、PEの負担について検討したり、NMTの精度向上のためにフィードバックをなど、生産的な活動に尽力した方がよいと思う。
最近の翻訳業界では、機械翻訳(MT)を導入するかどうか、経営者だけではなく、翻訳者も決断する時期が近いと感じているかもしれない。
ニューラル機械翻訳(NMT)の精度が向上したと言われていて、翻訳・通訳のアプリも販売されるなど、実用段階に既に入ったという印象を持つ人もいる。
しかし、Google 翻訳にいろいろ入力してみて、おかしな訳文が出たと騒いでいる人もまだいる。
NMTの精度が99%だとか、TOEICスコア960相当だなどと強調していることもあるが、では実際に仕事で使ってみてどうだったのかという話が少ない。
私は翻訳会社の社内翻訳者として、主に特許の英日・独日翻訳をしていて、英日に関してはNMT+ポストエディット(PE)という作業フローが標準になっている。
英日でNMT+PEに取り組み始めた2年くらい前は、まだPEでの修正量が多くて苦労した。
特に化学の特許で、化合物名の和訳が崩れてしまい、位置番号などが離れて文末にまとめて出現したり、長い名称だと途中で和訳をやめてしまうなど、PEが面倒だった。
独日翻訳については、現時点でも英語を仲介言語とするリレー翻訳になってしまい、誤訳などのエラーの割合が増幅されてしまうおそれがある。
ドイツ語特許原文から直接日本語に翻訳するために、日本特許情報機構(Japio)では、統計翻訳(SMT)を提供していた。
ただし、私の勤務先がNMTに取り組みたいということで、このSMTは導入することはなかった。
そして、11月6日から開催されている2019特許・情報フェア&コンファレンスで、Japioの展示ブースで新しい翻訳システム、AI翻訳のデモを見て、検討に値するのではないかと感じている。
特許・情報フェア&コンファレンスについては次のリンクから。
pifc.jp/2019/
JapioのAI翻訳に関するリリースは次のリンクから。
gpgfx.japio.or.jp/notice_20191101.pdf
従来のSMTにNMTを加えて、高精度の翻訳を実現しているという。
ということで、実際に展示ブースで試してみた。
まずは公報を検索するために、キーワードとしてある化合物名を入れ、出願人にはドイツ企業の名称を入れた。
検索結果のうち、有機EL材料の特許を選んで表示し、AI翻訳のボタンを押してみた。
すると、セグメント化された対訳フォームが表示され、一番上からセグメントごとに和訳が自動的に始まった。
たいていのセグメントは1秒以内に和訳が出力され、長い文でも5秒以内に和訳が出力された。
和訳結果をざっと見たところ、PE修正量は30%程度と思われた。
修正に時間はかかるかもしれないが、ドイツ語特許翻訳者を手配して、納品まで3日も待つよりは、その日のうちにPEを始められるので、生産性は向上すると思われる。
ドイツ語翻訳者の仕事を奪うことになるかもしれないが、人手不足の現状では、NMT+PEで対応するしかない。
ただ、ポストエディターもできるドイツ語翻訳者を同時に育成することも必要なことは確かだ。
今回は、化合物名について特にチェックしてみた。
以前は崩れることの多かった位置番号などは、原文ママの位置に出力され、1つのまとまりとして化合物名を認識しているようだ。
ただ、錯体の配位子の名称で、笑ってしまうエラーが出現した。
化合物名の一部のみ示すが、..phenylisochinolinato.. は、カタカナ表記で「..フェニルイソキノリナト..」と字訳してほしかったが、なぜか「..フェニルisochinoli北大西洋条約組織..」になってしまった。
これはJapioの営業にフィードバックしたので、原文ママで残して出力するか、それともカタカナ表記を学習することになるだろう。
(追記(11月18日):本日11時半頃に再度試したところ、「-フェニルイソキノリナト-」と正しく字訳された名称が出力された。)
ちなみに Google 翻訳で試したところ、「..フェニルイソ..」と、後半部分が消失してしまった。
もう1つ、化合物名の列挙のところで、複合語の共通する後半部分を省略してハイフンにしている場合を取り上げよう。
Aluminium-, Titan- oder Zirkoniumoxid では、oxid をハイフン部分に補足して和訳するため、「酸化アルミニウム、酸化チタンまたは酸化ジルコニウム」とするが、JapioのAI翻訳では、「アルミニウム-、チタン-又はジルコニウムオキシド」と、原文ママでハイフンを残してあった。
技術内容を把握していない人がPEをしたとき、このハイフンを単に削除してしまうと、権利範囲が変わってしまう。
酸化アルミニウムで特許を取ろうとしているのに、金属のアルミニウムになってしまうからだ。
これも Google 翻訳を試したところ、なんと、「酸化アルミニウム、酸化チタンまたは酸化ジルコニウム」と、期待した和訳になった。
ただし、Google 翻訳で独英をやると、aluminium, titanium or zirconium oxide となってしまい、誤訳だ。
うまく出力されたり、全然だめだったり、期待通りでないかもしれないが、自分が扱う分野の文書で試してみて、PEの負担について検討したり、NMTの精度向上のためにフィードバックをなど、生産的な活動に尽力した方がよいと思う。