研究社

研究社 WEB マガジン Lingua リンガ

 

 

リレー連載

 実践で学ぶ  コーパス活用術

15

内田 諭

COCA を使った類義語の検証

© (WT-shared) Matthew 6476

 

 

 1  はじめに

 前回は「活用形を含めた検索」、「品詞の指定」、「コロケーションの検索」など COCA の基本的な操作方法について紹介しました。今回は、これらのテクニックをベースに、「COCA で類義語を検証する」ということをテーマにします。

 high と tall はどちらも日本語では「高い」と訳されます。非常に基本的な語ですが、その違いを説明するとなると、言葉に窮するかもしれません。また、accomplish と attain はともに「達成する」という訳になりますが、違いを説明することはできるでしょうか。

 コーパスを使えば、これらの質問に明確に答えることができます。まずは前回紹介した方法を使って、high と tall のコロケーションを調べてみましょう。なお、データはすべて執筆時(2014年8月)のものですのでご留意ください。[1]

 

 2  high と tall のコロケーション

 単語の意味の違いは、2つの単語のコロケーションを見れば明らかになることがあります。A man is known by the company he keeps.(人は交わる友によって知られる)ということわざがありますが、単語も同様、というわけです。

 ここでは high と tall のコロケーションを比べてみましょう。これらは形容詞ですので、「直後にくる名詞」を比較してみます。以下はすべて前回紹介したテクニックですので、忘れた部分やわからないところがあれば、こちらの記事 をまずはご覧ください。

(a) まず、検索対象語はそれぞれ比較級・最上級の変化形がありますので、[high], [tall] とします。

(b) 次に品詞を指定して、[high].[j*], [tall].[j*] とします。スペースは不要であることに注意してください。

(c) COLLOCATES をクリックし、名詞を [nn*] で指定します。また、スパンは前:0 ▼ , 後:1 ▼とします。

(d) 最後に OPTIONSGROUP BYLEMMAS ▼ を指定します。

 次の図は、それぞれの設定画面です。

 

 検索結果は次の通りです。

[high のコロケーション]
[tall のコロケーション]

 high のコロケーションとしては school, level, education, rate, price, risk, quality, standard, degree, cost などが、tall のコロケーションとしては man, building, grass, tree, order, tale, woman, glass, window, pine などがリストされています。これらを見ると、コロケーションの顔ぶれが全く違うことがわかります。これは、high と tall に意味の違いがはっきりとあることの裏返しです。

 それぞれのコロケーションを少し検証してみましょう。まず、単語そのものの意味的な性質を明らかにするため、慣用的な表現(イディオム)は検証の対象から外します。ここでは、tall のコロケーションである tall order(無茶な注文)と tall tale(大ぼら)を、high のコロケーションである high school(高等学校)を除外しておきます。

 そうすると、high のコロケーションには具体的な形をもたない抽象的な語が多いことが見て取れます。このことから high は「何かに対して相対的な高さ」を表していると考えることができるでしょう。例えば、high level はある尺度(level)の中で上位のものを、また high+education は higher education で「(初等教育に対しての)高等教育」を表していると言えます。これに対して tall は man(男性), building(建物), grass(草), tree(木)など「具体的で細長いものの高さ」を示しているように読み取れます。

 high も tall も「高い状態」を表しますが、コロケーションを見ることで「どのような高さか」が明確になることがわかります。

 

 3  COCA のモード

 前述の方法では high と tall の意味を比較するのに2度検索を行いましたが、実は COCA では単語の比較を簡単に行うモードが搭載されていて、1度の検索でより高精度な比較が可能となります。その前に一度 COCA の DISPLAY モードの種類について簡単に見てみましょう。

 1  LIST モード

 LIST モードは、「検索結果を集計してリストで表示する」ものです。前回と今回の上記の検証はすべてこのモードで行っています。

 WORD(S) のみを指定すると、その単語の COCA における頻度が集計されます。[high] などのように見出し語形で指定した場合、それが展開されて high, higher, highest などの頻度が提示されます。[2]

 COLLOCATES を指定すると、これまで見てきた通り、入力した条件に該当するものが集計されて表示されます。リストされた単語をクリックすると、それぞれの文脈を見ることができます。

 2 CHART モード

 このモードは主に「ジャンルごとの単語の分布を明らかにする」場合に有効です。例えば、evident を CHART モードで比較すると、次のような結果が表れます。ACADEMIC のジャンルで相対的に多く使われることが一目瞭然でわかります。

 3 KWIC モード

 文脈を見るために最適なモードで、キーワードを中心に、前後のコロケーションなどを確認することができます。また、右上のオプションで指定した位置にくる語のアルファベット順に並び替えることができます。ここでは中心語を evident とし、その直前の語を第 1 キーに、直後の語を第 2 キーに、2つ後ろの語を第 3 キーに指定しています(この順番は、それぞれの位置を第1キーから順にクリックすることで指定できます。指定を変えた場合は RE-SORT をクリックします)。

 4 COMPARE モード

 そしてこの COMPARE モードが、2つの語句を比較するときに最適なものです。さきほどの high と tall の比較を、このモードを使って検証してみましょう。

(a) まず、DISPLAYCOMPARE を選択します。

(b) 次に WORD(S) に入力欄が2つ表示されますので、それぞれに [high].[j*], [tall].[j*] を入力します。

(c)  COLLOCATES では名詞([nn*])を指定し、スパンは前:0 ▼ , 後:1 ▼ とします。このモードではコロケーションを指定しないとエラーになりますので注意してください。[3]

(d) 最後に OPTIONSGROUP BYLEMMAS ▼ を指定します。

 それでは結果を見てみましょう。SEARCH ボタンを押すと次のような結果が表示されます。

 さきほどの検索と似た結果になっていますが、リストされる基準が異なりますので、注意してください(さきほどは単に「直後にくる名詞」を集計して出現頻度順に並べたものでしたが、この表は SCORE(後述)順です[4] )。

 数字について説明します。WORD 1 (W1): HIGH (10.15) の10.15は、WORD 2 (W2): TALL に対する相対頻度を表します。ここでは [tall] 1つあたり [high] は10.15回出現する(つまりコーパス内に約10倍のデータがある)ことを示します。逆に WORD 2 (W2): TALL (0.10) は、[tall] が [high] の1/10であることを示します。

 W1 , W2 はそれぞれ [high] および [tall] の指定範囲内での共起語の出現頻度を指します。右側の表では W1W2 の表示位置が逆になっています。

 W1/W2 は、W1W2 の頻度で割った数値です。W2 が0の場合(0では割れませんので)、0.5で割る(=2倍する)計算になっています。W2/W1 も同様に、W2W1 の頻度で割った数値です。

 SCORE は、左右の表の値を標準化するために、W1/W2 および W2/W1 の値をターゲットの単語の相対頻度で割った数値です。例えば、high+school は、54388÷0.5÷10.15≒10,715.4となります。逆に右側の表では0.1で割りますので、約10倍した値が SCORE に表示されています。この数字が大きければ、そのコロケーションは2つの語を比較したときにより特徴的であるということを示し、リストの上位の単語は、W1W2 の頻度差が大きいものが集中しています。例えば、high+school という組み合わせは COCA 中54388回ありますが、tall+school は1例もありません。そのため、SCORE は10,715.4と非常に大きな値になっています。逆に tall+tale は308例ありますが、high+tale の例は0で、SCORE は6,253.2となっています。

 LIST モードでコロケーションを集計したときとの結果の違いは、high では順位に変動があるものの、トップ10の顔ぶれは同じです。tall では tall fescue(植物名)や11位だった guy が3位にくるなどしていますが、high は「何かに対して相対的な高さ」、tall は「具体的で細長いものの高さ」という結論は変えなくても良さそうです。

 このように、COMPARE モードを使うことで、2つの語のコロケーションで際立って異なるものを簡単に見つけることができます。気になる類義語があれば、是非検索してみてください。この検索方法の注意点としては、「極端な例」が抽出されやすいということが挙げられます。LIST モードでのコロケーションの検索では、その語を単体で見たときの一般的な傾向を調べることができますので、両方の検索方法を併用するとよいでしょう。

 

 4  accomplish と attain の違い

 最後に、少し単語のレベルを上げて accomplish と attain の違いについて検証してみましょう。これらの単語はともに「成し遂げる、達成する」などと訳されることがありますが、目的語のコロケーションからその違いに迫ってみます。

 まず、COMPARE モードを使って検索してみます。

(a) まず、DISPLAYCOMPARE を選択します。

(b) 次に WORD(S) で、それぞれに [accomplish].[v*], [attain].[v*] を入力します。

(c) COLLOCATES では名詞([nn*])を指定し、スパンは前:0 ▼ , 冠詞や形容詞などが入ることも考えて、後:4 ▼ とします。

(d) 最後に OPTIONSGROUP BYLEMMAS ▼ を指定します。

 結果は次の通りです。[5]

 まず、左の accomplish の特徴的なコロケーションを示した表を見ると、task(課題), feat(偉業), mission(使命), thing(ものごと)など、課されたことや願っていたことなどを成し遂げるという意味合いがあることが読み取れます。[6] これらは一回的な動作であることも特徴と言えるかもしれません。一方、attain のほうは status(地位), height(高さ), fame(名声), rank(位)など、accomplish のコロケーションと比べると静的な状態を表す語が多く、ある一定の水準に達するという意味を表すことが多いと言えるでしょう。

 このように COMPARE モードを使うことで、簡単に2つの単語を比較することができますが、前述の通り特徴的な語をリストするという性質上、見逃してしまう現象もある可能性があります。ここでは、それぞれの名詞のコロケーション(スパン4までの共起語)を単に出現頻度順にリストしたものも見てみたいと思います。

 最初に説明したようにそれぞれの単語のコロケーションを個別に検索することもできますが、ここでは COMPARE モードの SORT BYFREQUENCY ▼ にして検索してみたいと思います。この設定にすることで、2つの単語を同時に検索できますし、特徴的なコロケーションが色分けされて表示され、視覚的にもわかりやすくなります。さきほどの検索画面から、SORT BYFREQUENCY ▼ に変更して検索すれば次の結果を得ることができます。

 この表を見て気がつくことは、goal, objective, end など共通するコロケーションがあることです。これらは「目標、目的」という意味を表す単語です。つまり、「目標[目的]を達成する」という意味では、accomplish, attain どちらの単語も使用できる、ということになります。

 

 5  まと

 本稿では、COCA を使って類義語を比較する方法を見ました。類義語のそれぞれのコロケーションを検索して比較する方法に加えて、COMPARE モードという便利な機能があることを紹介しました。これらの方法を用いることで、類義語のコロケーションの「違い」と「共通点」を明らかにすることができることを示しました。

 COCA は言葉の意味や用法を検証するために非常に有用なツールです。一方、その簡便さのあまり、提示される集計結果だけで結論を出してしまうのは早計です。KWIC を確認したり、異なる検索方法を試すなど、多角的な検証を忘れないようにしたいところです。

 

 

〈著者紹介〉

内田 諭(うちだ さとる)

九州大学大学院言語文化研究院准教授。専門は認知意味論、語用論、辞書学。フレーム意味論に足場を置き、特に接続語についての意味記述を中心に研究をしている。また、英語学の成果を英語教育へ応用することも研究テーマの1つとしている。共著書に『連関式英単語 Linkage』(Z会)、『Vision Quest English Expression I Advanced/Standard』(検定教科書:啓林館)、『英語教師のためのコーパス活用ガイド』(大修館書店)などがある。その他、『リーダーズ英和辞典』(研究社)、『オーレックス英和辞典』(旺文社)、『コアレックス英和辞典』(旺文社)などの辞書の執筆に参加している。

 

 


〈注〉

[1] 前回述べた通り COCA は新しいデータが追加になるモニターコーパスですので、この記事の検索結果は将来的に同じものにはなりません。

[2] OPTIONSGROUP BYWORDS ▼ になっている必要があります。LEMMAS ▼ の場合は、[HIGH] としてすべての活用形を集約した形で表示されます。

[3] 比較部分をワイルドカードで指定する方法もありますが、本稿では詳細に立ち入りません。

[4] SORT BY はデフォルトでは RELEVANCE ▼ になっており、SCORE の大きい順に表示されます。

[5]   濃い緑  は SCORE が10以上であることを示します。 薄い緑  は2以上10未満を表します。

[6] すべての名詞が目的語として機能しているわけではありませんので注意が必要です。W1 および W2 の列の数字をクリックすると KWIC が表示されるので実際の用例を確かめてみてください。例えば、day の W1数字をクリックすると:The template, then in current use, was successfully modified to be accomplished in a day and one-half. などの用例が表示され、この day は目的語ではないことがわかります。


 

 

関連書籍
『研究社 日本語口語表現辞典〈第2版〉』
『研究社 日本語コロケーション辞典』

キーワードで書籍検索
コーパス corpus コロケーション リーダーズ英和辞典

▲ページトップに戻る

複写について プライバシーポリシー お問い合わせ

Copyright(C)Kenkyusha Co., Ltd. All Rights Reserved.