研究社 会社案内 採用情報 サイトマップ 書店様向け 教育現場向け

研究社 WEB マガジン Lingua リンガ

 

 

リレー連載

 実践で学ぶ  コーパス活用術

11

仁科 恭徳

パラレルコーパスの可能性

© (WT-shared) Matthew 6476

 

 

 1  パラレルコーパスとは

 パラレルコーパスとは、ある言語のテクスト(source texts)と翻訳されたテクスト(target texts)を、文単位もしくは段落単位で対応させて構築した2言語以上から構成されるコーパスです。パラレルコーパスの出発点は、ヨーロッパ諸国間における、政府・技術関連文書などの共通理解です。特に、専門用語(technical terms)を初めとする翻訳調査の目的で考案・構築されたのが始まりです。パラレルコーパスを活用することで、複数の言語間における恣意的な翻訳実態を量的に解析することが可能になります。また、そのような研究成果を公開することで、翻訳者間の言語知識の共有にもつながります。

 分野別にパラレルコーパスの活用可能性を見ていきますと、研究分野では翻訳研究や対照言語研究、意味論研究、教育分野では翻訳教育や外国語教育、教材開発、実践・実用分野では翻訳ツールや二言語辞書の編纂に活用することが期待されています。

 

 2  『英辞郎』とパラレルコーパス

 現在、いくつかの点でパラレルコーパスの考え方に近い学習参考資料の一つに、アルク社の『英辞郎』があります。第7版まで刊行されており、特に『英辞郎 on the WEB』は iPhone などで使える無料アプリとして人気があります。『英辞郎』は、翻訳家がストックした翻訳例をそのままデータベース化しており、日英・英日間において語・句・文の翻訳例を瞬時に検索することができます。

 一般的な語学関連の辞書では不可能であった句・文単位の翻訳例検索を可能にした点で、『英辞郎』は注目されています。しかしながら、少なからず問題点もあります。その一つが、収録されている翻訳例の信頼性です。少数の翻訳家が個人的にストックした翻訳例をそのままデータベースとして収録していることから、質の点で翻訳に誤りや不自然性が伴うこともしばしばあります。

 このような問題を解決する方法の一つが、(複数の翻訳家による作品を収録した)パラレルコーパスを活用して、翻訳データベースを量的観点から再調査することです。例えば、翻訳家が10人いたとして、ある文脈におけるAという単語を8人がBと訳し、2人がCと訳した場合、多数が訳したBという訳語が翻訳者間の共通理解、つまり質の高い翻訳とみなすことができます。将来的にこのような処理も施せば、『英辞郎』のような翻訳データベースに収録されている言語情報の質や信頼性も著しく向上するものと思われます。ただし、翻訳家が原著者から許諾を得た上で使用しているかどうか不明なデータが含まれている可能性があり、『英辞郎』には著作権上の問題もあることから、「翻訳の質」さえ向上すれば問題がなくなるというわけではありません。

 

 3  パラレルコーパスの種類

 2言語以上からなるコーパスの名称には、その特徴にともない、翻訳コーパス、対訳コーパス、コンパラブルコーパスなどがありますが、便宜上、本稿ではパラレルコーパスと呼ぶことにします。パラレルコーパスはいくつかの種類に分類することができます。

(1) 原文と他の単一言語の翻訳版から構成される2言語パラレルコーパス

(2) 原文と他の複数言語の翻訳版から構成される多言語パラレルコーパス

(3) 原文と他の単一言語の複数の翻訳版(複数の翻訳家による同一言語の翻訳版)から構成される2言語多翻訳コーパス

(4) 同ジャンルにおいて、ある言語のテクストと他の言語のテクストを収録した2言語比較可能コーパス(コンパラブルコーパス)

(1) が典型的なパラレルコーパスです。(2) は『ハリーポッター』など世界各国で翻訳されている作品に限り構築可能です。(3) は古典文学など同一言語においても現在までに複数の翻訳家によって翻訳された作品であれば構築可能です。(4) は厳密にはパラレルコーパスではありませんが、最近注目されている2言語コーパスです。特に、アラインメント処理をする必要がない分、構築作業が容易で構築時間が短縮できる点が特徴です。[1]

 また、パラレルコーパスを詳細に分類する場合は、(1) 翻訳方向(片方向(uni-directional)、双方向(bi-directional)、多方向(multi-directional)) / (2) 言語数(2言語(bilingual)、多言語(multilingual)) / (3) 特殊性(汎用(general)、特殊(specialized))の観点を加味する必要があります。[2]

 

 4  翻訳方向

 単一言語コーパスと異なり、パラレルコーパスを構築・分析する際には収録テクストの翻訳方向に留意する必要があります。あるパラレルコーパスが言語Aの原文テクストと言語Bの翻訳版から構成される場合、原則として、このコーパスを用いた分析はA → Bの翻訳方向のみに従う必要があるのです。例えば、英日パラレルコーパス(翻訳方向が英 → 日)では、「orange → オレンジ」と訳されたデータの抽出には質的な信頼性が保持されますが、「オレンジ → orange」のデータを抽出しても収録テクストの翻訳方向が逆なので、あまり意味がない場合があります。ParaConc[3] や CasualPConc[4] などのパラレルコーパス専用コンコーダンサー(分析ソフト)では、英 → 日・日 → 英の両方向から検索することが可能ですが、分析時にはパラレルコーパスの翻訳方向に従った検索が必要となるのです。

 二言語間における双方向の交換翻訳が認められない理由として、バーミンガム大学の Wolfgang Teubert 教授は私信で以下のように述べています。「ある特定の概念があり、それを英語で表すとA、日本語で表すとBとする。各言語の背景に通底する文化や歴史、慣習には違いがあることから、Aで表された概念とBで表された概念は重複する部分はあっても合致はしない。つまり、A → Bと訳出できたとしても、訳出されたBはAとは意味的・語用的・文化的・慣習的にいくばくか異なっており、再度 B → Aとは訳出できず、別のCやDに訳出する必要がある」と指摘します。この考えに基づけば、いつも1対1の関係でA → B → A → B . . . と翻訳されるわけではないことになります。

 例えば、日本語の「不況」は、『ウィズダム和英辞典』(第2版)や『英辞郎』(第7版)を参照すると、表1に示すように、recession, stagnation, depression, slump, slowdown, downturn などに訳出されます。これらの語は、文脈によってはその直前に business を置くこともありますが(例えば、business slump など)、単体でも「不況」の意味で使われます。しかしながら、英語の各訳語から日本語に再度訳出する場合、同様に英和辞典の掲載訳語を参照すると、「不況」という訳語が全く当てはまらなくなるというわけではないものの、それ以外の意味も顕著となることが分かります。

 

表 1. 翻訳間のズレ
日本語        日本語
depression
downturn 悪化、沈滞
recession 景気後退
slowdown 後退、低迷、減速
slump 下落、下降
stagnation  →  不振、低迷

 

 これら「不況」の英訳語を再度日本語に訳出した場合の異なりこそが、部分的に意味が異なる英訳語間(シノニム間)の違いと言えます。パラレルコーパスを見ることで、訳語そのものが自ずとその違いを記述的に示していることが分かります。つまり、翻訳の違いこそがシノニムの違いを可視化しているのです。

  このような翻訳間のズレが見られることから、日英パラレルコーパスを用いて精緻な翻訳分析を実施する場合には、日 → 英方向の検索に限ったほうが望ましいのですが、現時点では大規模な英日パラレルコーパスが公開されていないため、便宜的に英 → 日方向の検索も実施せざるをえないのが現状です。翻訳方向にとらわれず、まずは気軽に Web 上でパラレルコーパスを検索してみてください。

 

図1. 日英パラレルコーパス(WebParaNews)[5]の画面

 

 

 5  パラレルコーパスを使えば
 5.1 condition とコンディション

 ここでは、パラレルコーパスを用いた分析の一例を紹介します。日本語の外来語(カタカナ語)は、元の語と類似した用法で使うものもあれば、原義からかけ離れていたり、ややずれていることがあります。例えば、日本語の「コンディション」は、「昨夜は雨が降ったので、芝のコンディションが良くない。」のように、物などの状態を指して使ったり、「けがが治ったばかりでコンディションが悪かった。」のように、「(試合や本番など、実力を発揮すべき状況における)人の体や心の調子」または単に「体調、調子、具合」といった意味でも使われます。

  それでは、英語の condition はどのように使われるのでしょうか。人の体の調子を表す例として、one's condition の用例を見てみましょう。以下は、BNC(British National Corpus)から得た、英語母語話者の his condition の使用例です。

 

  • Edmunds, aged 19, has undergone emergency surgery for chest injuries at Leicester 's Groby Hospital where his condition was described as serious but stable;
  • Pneumonia had followed pneumonia. Despite his crippling disease, he had still managed to practise psychiatry with some success; but finally, the progressive nature of his condition meant that he needed treatment in an intensive care unit with 24-hour-a-day supervision, breathing only with the aid of a respirator.
  • Here, the patient, though chronically dependent on the ventilator is a conscious, sentient person. Although his condition is in one sense hopeless, in that he will not recover, it is not hopeless in the sense that he is in imminent danger of dying.

 

英語母語話者の one's condition の用例では、「身体的に深刻な病気」を表していることが分かります。

 この推測が正しいかを詳しく調べるために、JENAAD(読売新聞とその翻訳版 Daily Yomiuri の記事から構成されるパラレルコーパス)[6] から、condition の例を抽出してみました。人の状態を示す condition は大きく分けて「状態」と「容体」に訳されていました。以下は、各訳語(当該表現の英語と日本語訳)のコンコーダンスラインをランダムにピックアップしたものです。なお、パラレルコーパスの検索には ParaConc を使用しています。

 

condition ― 状態】
suffered a brain hemorrhage and her  [[condition]] became critical around 2 p.m. on July 19
ir villages under armed threat. As a [[condition]] for halting treatment to prolong life,
his real name. He fell into critical [[condition]] on the 10th night after being hospitali
han 1 percent end up in a brain-dead [[condition.]] Tokyo now faces the substantial danger
rming stage. Falling into a critical [[condition]] with the lower half of the body having
platelet. After being in a critical  [[condition]] for a month, she died. A total of 181 .
o encourage the economy. The woman's [[condition]] gradually worsened, and she died of org
...  、 翌 十九 日 午後 から 危険 な [[状態]] に 陥っ た 後 は 、 小康 状態  ...
...    医学 的 に 見 て 回復 不能 の [[状態]] に 陥っ て いる こと 」 を 挙げ  ...
...      入院 十 日 目 の 夜 、 危篤 [[状態]] に 陥っ た 。 警視庁 で この 口座  ...
. り組む べき だ 。 そのうち 脳死 の [[状態]] に なる の は 一 % 以下 と  ...
. 心臓 ショック を 起こし 危機 的 な [[状態]] に … … 。 ◇ … 国際 ルール  ...
... かかり 、 約 一 か月 間 の 危篤 [[状態]] の あと 、 八月 十六 日 に 死亡  ...
...て くる 。 その後 、 女性 患者 の [[状態]] は 徐々に 悪化 し 、 今月 十 日  ...

 

condition ― 容体】
rsonnel said they noticed the girl's [[condition]] was deteriorating shortly before 7 p.m.
orarily recovered consciousness, his [[condition]] took a sudden turn for the worse on May 10
t Germany. About a minute later, her [[condition]] worsened. Doctors did not notice the er
in blood samples from patients whose [[conditions]] were known to have worsened after Mori
Sendai, the number of patients whose [[condition]] suddenly deteriorated after they receiv
as with her at the time, the woman's [[condition]] took a sudden turn for the worse two or
be moderate this year. The patient's [[condition]] became worse because the concentration
oing an operation last year, but her [[condition]] suddenly worsened a few days ago. But .
 bacteria. Two days later, the boy's [[condition]] deteriorated and he stopped breathing,
...    で 逮捕 ) の 点滴 で 女児 の [[容体]] が 急変 し た の に 気づい た  ...
...      戻っ た が 、 五月 十 日 に [[容体]] が 急変 、 十四 日 に 死亡 し  ...
...        。 約 一 分 後 、 女性 の [[容体]] が 悪化 し た ため 、 付き添い の  ...
...      者 の 点滴 を 受け た 後 に [[容体]] が 急変 し 、 別 の 病院 に  ...
...、 同 クリニック で の 点滴 後 、 [[容体]] が 急変 し た 患者 は 判明 分  ...
...    楽観 的 な 予測 を 語っ た 。 [[容体]] が 急変 し た の は 二 、  ...
..中 の アルコール 濃度 が 高まっ て [[容体]] が 悪く なっ た が 、 看護 婦  ...
...        い た が 、 数 日 前 から [[容体]] が 急変 し た 。 だが 、 世界  ...
.十七 日 に 突然 呼吸 が 止まる など [[容体]] が 悪化 し た ため 、 人工 呼吸  ...

 

「状態」の例では「危機的な」や「危篤」などの修飾語句が共起しています。また、「容体」の例では「急変した」や「悪化した」などの動詞が共起しています。また、検索時には指定しておりませんが、自然と[所有格+condition]の形式が多いことも目立ちます。この例から、condition を用いて人の状態を描写する場合、one's conditioncritical condition の形を用いて、取り返しのつかない重病や身体的状況を表していることが分かります。

  一方、日本人英語学習者による one's condition の使用例には、そのような深刻な意味合いのものは見られません。以下は、約200万語の日本人英語学習者話し言葉コーパスである NICT JLE コーパス[7] から抽出した my condition のコンコーダンスラインです。NICT JLE コーパスに収録されたデータの性質上、one's condition の用例は自分の描写に限定した my condition が大半を占めていました。

 

              no so so.So so. Yeah. Er. My condition is mm not good because
         today is mm little cold but mm my condition is not not so bad. Mm Ur
                 ke sk spring mm but mm my condition is very bad. Hm. Ahm. I
                    uh er ago ah-huh er my condition was too bad err to take 
               But uhm rece recently my my condition not bad. But today uhm special on
will go home at er six o'clock. Because my condition is er bad. No no no. 
           in fact uum yester yesterday my condition is not so good. So I I l
                       it show it shows my condition .Um.  So um  I  umm 
                          time erm yeah my condition was very bad . 

 

これらの my condition の例から、日本語の「コンディション」の使い方が英語の condition の使用に転移されていると推測できます。バーミンガム大学の Nicholas Groom 博士の私信では、身体的な意味で condition を用いる場合、英語では生死に関わるような(否定的で)深刻な身体状況の描写こそが最も典型的である、と指摘されています。

 このような語の連なりが文脈中で示す肯定/(特に)否定などの意味や、話者が示す特定の態度のことを、コーパス言語学や談話分析の分野では、semantic prosody(意味的韻律)と呼びます。例えば、true feeling(s) という句は、. . . will never reveal true feeling や . . . prevents me from expressing true feeling, . . . less open about showing true feeling のように用いられ、(日本語で「本当の気持ち」を用いる場合も類似していますが)true feeling をさらけ出すことは、あまり気が進まない否定的な行為であることが文脈状況から分かります。上で見た one's condition の例も、このような semantic prosody の一種であると言えるでしょう。

 5.2 辞書の記述を見直す

 一言語コーパスを活用して編纂された『ウィズダム和英辞典』(第2版)には、「円高不況」の英訳として endaka (yen appreciation) recession が掲載されています。そこで、実際にパラレルコーパス(JENAAD)で「円高不況」を検索してみると、全28例中13例(46%)が recession / slumpcaused / triggered / marked / brought on bythe yen's (sharp) rise / appreciation . . . のパタンで出現していました。

 

Shock" (1973) and subsequent "high-yen recession," caused by a sudden appreciati
ped build the momentum to overcome the recession caused by the high yen. Order m
g the viral invasion. To avoid another recession caused by the yen's rise, the g
the Japanese economy was hard hit by a recession caused by the yen's sharp appre
Saturday. He said he survived the last recession caused by the high appreciation
as different from the situation in the recession caused by the yen's appreciation
hen the industry was severely hit by a recession marked by a high appreciation o
87, when the nation was experiencing a recession triggered by a sharp rise in th
rently suffering from a policy-induced recession brought on by politicians who l
period, and even more serious than the recession in 1986, which was caused by th
employment is less serious than in the recession of the late 1980s caused by the
y responsible for allowing the current recession, which was caused by the strong
16 furnaces have been closed since the recession of the late 1980s which was triggered by

 

他にも strong yen-caused recessionsthe economy slumped due to the yen's appreciation against the dollar といった例が見られました。これらの結果から、「円高不況」の訳としては、和英辞典に載っていた yen appreciation recession よりも、recession caused by the yen's appreciation のような言い方が適切であることが分かります。辞書の編纂に携わる執筆者がプロの翻訳家であることは稀であり、この例に見られるように、特に和英辞典の編纂時にはパラレルコーパスを活用することで質の高い翻訳を得ることが可能となるでしょう。

 5.3 パラレルコーパス分析の最前線

 最近構築された日英パラレルコーパスに、Wikipedia 日英京都関連文書対訳コーパス[8] があります。Wikipedia の日本語記事(京都関連)とその英訳が収録されており、人手翻訳による約50万の対訳文のペア(日本語の語数は約1000万語)を収録しています。染谷・赤瀬川・山岡(2011)では、LWP(LagoWordProfiler)と呼ばれるコーパス検索ツールに同コーパスを実装し分析した研究事例を紹介しています。[9] 例えば、日本語の「〜 切る」という表現は、completely becoming NP itself(〜 になり切る)や played NP excellently(見事に演じ切って)のように翻訳されており、各英語翻訳を分析した結果、大きく分けて (1) confidently(自信満々)、(2) strongly, clearly(強調)、(3) completely(完全・完遂)、(4) extremely, fully(極度・限度いっぱい)、(5) excellently(称賛)などの副詞的意味が内包されていることを明らかにしています。実際にはさらに深く考察されていますが、特に新たな検索ツールが開発されたことで、パラレルコーパス分析の新たな局面を迎えたことは注目に値するでしょう。

 

 
図3. 複合動詞の後項にくる「切る」のコロケーションと用例(日英)の検索例[10]

 

 6  まと

 このように、パラレルコーパスは手近で信頼のできる電子翻訳家として活用することができます。特に、パラレルコーパスを活用すれば、現行の英和・和英辞典には掲載されていないような特殊・複雑な翻訳情報も獲得することが可能です。現在までに刊行されているコーパス準拠の辞書や教材は全て単一言語コーパスのデータに基づいています。今後、二言語間における翻訳ユニット(translation unit)の存在を量的に解明することで、辞書の編纂や教材開発の新たな扉が開かれることでしょう。[11]

 

〈参考文献〉

プラシャント・パルデシ、赤瀬川史朗(2011)「BCCWJ を活用した基本動詞ハンドブック作成――コーパスブラウジングシステム NINJAL-LWP の特長と機能」 『現代日本語書き言葉均衡コーパス』完成記念講演会予稿集

染谷泰正、赤瀬川史朗、山岡洋一(2011)「大規模翻訳コーパスの構築とその研究および教育上の可能性」日本メディア英語学会第1回年次大会 発表ハンドアウト

 

 

〈著者紹介〉

仁科 恭徳(にしな やすのり)

明治学院大学教養教育センター専任講師。2010年に英国バーミンガム大学大学院にて応用言語学博士号を取得(PhD in Applied Linguistics)。専門はコーパス言語学、辞書学、教材開発、ESP など。主に、日英対照や談話分析などに興味・関心がある。単著に Evaluative Meanings and Disciplinary Values: A Corpus-Study of Adjective Patterns in Research Articles in Applied Linguistics and Business Studies(LAMBERT Academic Publishing)、共著に『ウィズダム英和辞典 第3版』(三省堂)、『アカデミック・プレゼンテーション』(三修社)、『連想バブルで覚えるボキャブラリー』(英潮社フェニックス)など。

 

 


〈注〉

[1] アラインメント処理とは、原文の各センテンスとそれに対応する翻訳版の各センテンスを、それぞれのテキストファイルにおいて同一の行番号に配置する一連の処理を指す。

[2] 染谷・赤瀬川・山岡(2011)参照。

[5] 早稲田大学の Laurence Anthony 氏と日本大学の中條清美氏が公開したオンラインコンコーダンサー(http://www.antlab.sci.waseda.ac.jp/webparanews/)。v.001では、JENAAD(読売新聞と Daily Yomiuri の記事を収録したパラレルコーパス。詳しくは後述)が実装されている。

[6] 正式名称は the Japanese-English News Articles Database. 日本語テクストが形態素換算で6,118,083語、英語テクストが4,866,299語と、現存する最大規模の日英パラレルコーパス。前述のとおり、JENAAD を用いて精緻な翻訳分析を実施する場合には日 → 英方向の検索に限ったほうが望ましいが、現状では大規模な英日パラレルコーパスが存在しないため、今回は便宜上、JENAAD を用いて英日方向の検索も行う。

[9] LWP とは、パルデシ・赤瀬川(2011)によって開発されたブラウザベースのコーパス検索ツール。見出し語単位での検索や、コロケーションなどを文法項目に分類して表示することが可能。

[10] 染谷・赤瀬川・山岡(2011), p.4から引用。

[11] 翻訳ユニットとは、多言語間翻訳における語・句などの意味単位。精緻な翻訳ユニットの抽出には、翻訳方向を加味する必要がある。


 

 

関連書籍
『<コーパス活用> 英語基本語を使いこなす ――[形容詞・副詞編]』
『<コーパス活用> 英語基本語を使いこなす ――[動詞・助動詞編]』

キーワードで書籍検索
コーパス corpus 言語学 辞書学

▲ページトップに戻る

複写について プライバシーポリシー お問い合わせ

Copyright(C)Kenkyusha Co., Ltd. All Rights Reserved.