論文・特許ならば機械翻訳を使って読んでもよいのではないか
最近の翻訳業務では、ニューラル機械翻訳(NMT)が発展しているため、その出力を用いたポストエディット(PE)を行うことがある。
技術の進歩は驚くほどであるが、NMTの精度がいかに向上しても、翻訳文を読むのは人間なのだから、必ず人間がPEをして完成品とすべきである。
しかし、NMTの出力をそのまま例示して、これでは使えないなどと言う人もいる。
確かに、原文を読解するための語学知識がない人は、NMTの誤訳・訳抜けに気づかないため、100%の精度が求められるだろう。
それでも、業務効率化のために、NMTの癖を知った上で、積極的に導入する翻訳者も存在する。
例えば、化学系の場合、長い化合物名や数値の入力は面倒なので、自動的に和訳に反映される方が楽だ。
PEは意外と疲れる作業ではあるが、人間に翻訳を依頼しても、完成度が60~90%と、機械翻訳と同程度のこともあるので、これまでのチェッカーの仕事と同じものだと割り切っている。
翻訳の仕事で使うだけではなく、例えば、研究者が論文を読むときに活用できるのではないだろうか。
以前、大学の研究室で、ドイツ語論文が読めないという学生が質問に来たことがある。
概要を和訳しながら説明したところ、数分経ってから、ある化合物の融点だけを知りたいと言い出した。
それなら最初から言ってくれ、と文句を言いたくなるが、ドイツ語を知らない学生でも、機械翻訳で和訳して「融点」の個所を探せばよい。
そのようにキーワードを基にして情報をスキャンしてから、詳しい実験内容や論文中の説明を知りたければ、その部分の和訳を依頼すればよい。
では実際に、化合物名を含むドイツ語文について、機械翻訳はどのような和訳を出力するのか例示しておこう。
例文1(Organische Chemie, p. 35)
So ist 3-Methylpentan aus 1-Brom-3-methylpentan über 3-Methylpentylmagnesiumbromid zugänglich.
したがって、3-メチルペンタンは、1-ブロモ-3-メチルペンタンから3-メチルペンチルブロミドを介して得られる。
DeepL (2020.03.25)
したがって、1-ブロモ-3-メチルペンタンからの3-メチルペンタンは、3-メチルペンチルマグネシウムブロマイドを介してアクセス可能である。
Google (2020.03.25)
したがって、1-ブロモ-3-メチルペンタンからの3-メチルペンタンは、3-メチルペンチルマグネシウムブロミドを介してアクセスできます。
いずれもPEで修正が必要になるが、そのままでも理解可能だ。
以前は、化合物名に位置番号やハイフンが複数あると、出力が崩れることがあったが、ここ2年くらいで大幅に改善されている。
もう少し複雑な化合物名を含む実験の部を試してみよう。
例文2(DE10 2017 008 794 A1, p. 18, Beispiel 1)
4,4,5,5-Tetramethyl-2-[5"-n-octyl-(2,2':5',2"-terthiophen)-5-yl]-1,3,2-dioxaborolan (2,27 g, 4,665 mmol), 1,7,8-Trifluornaphthalen-2-yltrifluormethansulfonat (1,69 g, 5,132 mmol), Pd(PPh3)4 (270 mg, 0,233 mmol) und K2CO3 (2,58 g, 18,66 mmol) in 23 ml eines Lösungsmittelsystems von 5:5:2 Toluol/THF/H2O werden unter Rückfluss erhitzt und 18 h lang gerührt.
23 mL の 5:5:2 トルエン/THF/H2O の溶媒系中の 4,4,5,5-テトラメチル-2-[5''-n-オクチル-(2,2':5',2''-テルチオフェン)-5-イル]-1,3,2-ジオキサボロラン (2.27 g, 4.665 mmol)、1,7,8-トリフルオロナフタレン-2-イル=トリフルオロメタンスルホナート (1.69 g, 5.132 mmol)、Pd(PPh3)4 (270 mg, 0.233 mmol) および K2CO3 (2.58 g, 18.66 mmol) を還流下で加熱し、18時間撹拌する。
DeepL (2020.03.25)
4,4,5,5-テトラメチル-2-[5"-N-オクチル-(2,2'. 5',2"-テルチオフェン)-5-イル]-1,3,2-ジオキサボロラン(2.27g, 4.665mmol)、1,7,8-トリフルオロメタンスルホン酸(1.69g, 5.132mmol)、Pd(PPh3)4(270mg, 0.233mmol)、およびK2CO3(2.58g, 18.66mmol)を、5の溶媒系23mlに溶解した。 5:2トルエン/THF/H2Oを還流下で加熱し、18時間撹拌する。
改善前のNMTと同様に、なぜか「トリフルオロナフタレン」が消失し、溶媒の組成のところも崩れてしまった。
ちなみに、1,7,8-Trifluornaphthalen-2-yltrifluormethansulfonat のみを和訳させると、正しい出力になる。
まあ、化合物名などは英語と綴りが近いので、ドイツ語文法を知らなくても、修正はできるだろう。
Google (2020.03.25)
4,4,5,5-テトラメチル-2- [5 "-n-オクチル-(2,2 ':5'、2"-ターチオフェン)-5-イル] -1,3,2-ジオキサボロラン(2、 27 g、4.665 mmol)、1,7,8-トリフルオロナフタレン-2-イルトリフルオロメタンスルホナート(1.69 g、5.132 mmol)、Pd(PPh3)4(270 mg、0.233 mmol)およびK2CO3(2.58 g、18 66ミリモル)の5:5:2のトルエン/ THF / H 2 Oの23mlの溶媒系中、還流下で加熱し、18時間撹拌する。
厳密には、主に化合物名や数値でのPEが必要だが、ドイツ語原文が理解できなくても、この和訳だけで実験はできそうだ。
ドイツ語の論文・特許を読みたいという研究者がどれくらいいるのか不明だが、PEを原文ワード単価3~5円で受注すれば、需要はあるだろうか。
技術の進歩は驚くほどであるが、NMTの精度がいかに向上しても、翻訳文を読むのは人間なのだから、必ず人間がPEをして完成品とすべきである。
しかし、NMTの出力をそのまま例示して、これでは使えないなどと言う人もいる。
確かに、原文を読解するための語学知識がない人は、NMTの誤訳・訳抜けに気づかないため、100%の精度が求められるだろう。
それでも、業務効率化のために、NMTの癖を知った上で、積極的に導入する翻訳者も存在する。
例えば、化学系の場合、長い化合物名や数値の入力は面倒なので、自動的に和訳に反映される方が楽だ。
PEは意外と疲れる作業ではあるが、人間に翻訳を依頼しても、完成度が60~90%と、機械翻訳と同程度のこともあるので、これまでのチェッカーの仕事と同じものだと割り切っている。
翻訳の仕事で使うだけではなく、例えば、研究者が論文を読むときに活用できるのではないだろうか。
以前、大学の研究室で、ドイツ語論文が読めないという学生が質問に来たことがある。
概要を和訳しながら説明したところ、数分経ってから、ある化合物の融点だけを知りたいと言い出した。
それなら最初から言ってくれ、と文句を言いたくなるが、ドイツ語を知らない学生でも、機械翻訳で和訳して「融点」の個所を探せばよい。
そのようにキーワードを基にして情報をスキャンしてから、詳しい実験内容や論文中の説明を知りたければ、その部分の和訳を依頼すればよい。
では実際に、化合物名を含むドイツ語文について、機械翻訳はどのような和訳を出力するのか例示しておこう。
例文1(Organische Chemie, p. 35)
So ist 3-Methylpentan aus 1-Brom-3-methylpentan über 3-Methylpentylmagnesiumbromid zugänglich.
したがって、3-メチルペンタンは、1-ブロモ-3-メチルペンタンから3-メチルペンチルブロミドを介して得られる。
DeepL (2020.03.25)
したがって、1-ブロモ-3-メチルペンタンからの3-メチルペンタンは、3-メチルペンチルマグネシウムブロマイドを介してアクセス可能である。
Google (2020.03.25)
したがって、1-ブロモ-3-メチルペンタンからの3-メチルペンタンは、3-メチルペンチルマグネシウムブロミドを介してアクセスできます。
いずれもPEで修正が必要になるが、そのままでも理解可能だ。
以前は、化合物名に位置番号やハイフンが複数あると、出力が崩れることがあったが、ここ2年くらいで大幅に改善されている。
もう少し複雑な化合物名を含む実験の部を試してみよう。
例文2(DE10 2017 008 794 A1, p. 18, Beispiel 1)
4,4,5,5-Tetramethyl-2-[5"-n-octyl-(2,2':5',2"-terthiophen)-5-yl]-1,3,2-dioxaborolan (2,27 g, 4,665 mmol), 1,7,8-Trifluornaphthalen-2-yltrifluormethansulfonat (1,69 g, 5,132 mmol), Pd(PPh3)4 (270 mg, 0,233 mmol) und K2CO3 (2,58 g, 18,66 mmol) in 23 ml eines Lösungsmittelsystems von 5:5:2 Toluol/THF/H2O werden unter Rückfluss erhitzt und 18 h lang gerührt.
23 mL の 5:5:2 トルエン/THF/H2O の溶媒系中の 4,4,5,5-テトラメチル-2-[5''-n-オクチル-(2,2':5',2''-テルチオフェン)-5-イル]-1,3,2-ジオキサボロラン (2.27 g, 4.665 mmol)、1,7,8-トリフルオロナフタレン-2-イル=トリフルオロメタンスルホナート (1.69 g, 5.132 mmol)、Pd(PPh3)4 (270 mg, 0.233 mmol) および K2CO3 (2.58 g, 18.66 mmol) を還流下で加熱し、18時間撹拌する。
DeepL (2020.03.25)
4,4,5,5-テトラメチル-2-[5"-N-オクチル-(2,2'. 5',2"-テルチオフェン)-5-イル]-1,3,2-ジオキサボロラン(2.27g, 4.665mmol)、1,7,8-トリフルオロメタンスルホン酸(1.69g, 5.132mmol)、Pd(PPh3)4(270mg, 0.233mmol)、およびK2CO3(2.58g, 18.66mmol)を、5の溶媒系23mlに溶解した。 5:2トルエン/THF/H2Oを還流下で加熱し、18時間撹拌する。
改善前のNMTと同様に、なぜか「トリフルオロナフタレン」が消失し、溶媒の組成のところも崩れてしまった。
ちなみに、1,7,8-Trifluornaphthalen-2-yltrifluormethansulfonat のみを和訳させると、正しい出力になる。
まあ、化合物名などは英語と綴りが近いので、ドイツ語文法を知らなくても、修正はできるだろう。
Google (2020.03.25)
4,4,5,5-テトラメチル-2- [5 "-n-オクチル-(2,2 ':5'、2"-ターチオフェン)-5-イル] -1,3,2-ジオキサボロラン(2、 27 g、4.665 mmol)、1,7,8-トリフルオロナフタレン-2-イルトリフルオロメタンスルホナート(1.69 g、5.132 mmol)、Pd(PPh3)4(270 mg、0.233 mmol)およびK2CO3(2.58 g、18 66ミリモル)の5:5:2のトルエン/ THF / H 2 Oの23mlの溶媒系中、還流下で加熱し、18時間撹拌する。
厳密には、主に化合物名や数値でのPEが必要だが、ドイツ語原文が理解できなくても、この和訳だけで実験はできそうだ。
ドイツ語の論文・特許を読みたいという研究者がどれくらいいるのか不明だが、PEを原文ワード単価3~5円で受注すれば、需要はあるだろうか。