今回から2回にわたって、COCA(Corpus of Contemporary American English)の操作方法と活用法について取り上げます。これまでの連載でも COCA は何度か出てきていますが、基本的な操作方法についてあまり詳しく扱われていませんでしたので、ここで改めて確認したいと思います。 今回は、「活用形を含めて検索する」、「品詞を指定する」などの基本的なテクニックを紹介し、その後、これらのテクニックを使ってコロケーションを検索する方法を示します。 COCA (http://corpus.byu.edu/coca/)
COCA とは、Corpus of Contemporary American English という名前が表す通り、「アメリカ現代英語」を検証するために作られた汎用コーパスです。spoken, fiction, popular magazines, newspapers, academic journals の5つのジャンルから形成され、2014年7月現在、約4億5000万語のデータが含まれています。コーパスデータは毎年2000万語ずつ追加される計画になっていて、サイズが漸次的に大きくなるモニターコーパスです(詳細は http://corpus.byu.edu/coca/help/texts_e.asp)。 COCA の特徴は、大規模コーパスでありながら、登録すれば誰でも無料で使用できることと、使いやすいインターフェイスです。活用形を含めた検索や品詞の指定も簡単に行うことができます。
検索を実行する前に、登録したアドレスとパスワードでログインすることを忘れないようにしましょう(画面右上に入力フォームがあります)。
COCA の基本的な検索画面の構成は以下のようになっています。 (1)のパネルでは、検索の対象となる語(句)を入力し、検索の条件などを指定します。コロケーションを検索する場合は、DISPLAY は LIST モードが最適です(他のモードについては次回説明します)。SEARCH STRING の WORD(S) には検索対象語句を入力します(ここでは corpus)。SECTIONS ではジャンルの指定なども可能です(デフォルトでは IGNORE になっていてすべてのジャンルが検索の対象となります)。 この状態で SEARCH ボタンを押すと、右側の(2)のパネルに、検索結果が表示されます。COCA には2234回 corpus が出現することがわかります(2014年7月現在)。検索結果に表示された単語をクリックすると、直下の(3)のパネルに KWIC 形式で文が表示されます。この画面を詳しく見ることで、どのような文脈で使われているかを検証することができます。
英語の動詞や名詞には活用があります。例えば、動詞の go は go-went-gone と変化し、名詞の dog は単数形の dog と複数形の dogs があります。 これらの活用形を含めて検索するには、検索対象の語を [ ] で囲むことで可能になります。次の画面は [corpus] で検索した結果です。 単数形の corpus と複数形の corpora が同時に検索されていることがわかります。
単語によっては同じ形で別の品詞になることがあります。例えば、cause は、名詞では「原因、理由」、動詞では「 〜 の原因になる」という意味を表します。また、causes は名詞の複数形の場合と3人称単数現在の動詞の場合が考えられます。 COCA では、品詞を指定した検索が可能です。指定の方法は、「単語.[品詞タグ]」という形になります。例えば、動詞の cause だけを検索する場合は、cause.[v*] となります。 品詞タグについては、POS LIST というボタンを押すと、ドロップダウンリストが出てきますので、それで確認することができます。 ここでは verb.ALL ▼(すべての動詞)を選択してみましょう。カーソルのある WORD(S) のところにスペースとともに [v*] というタグが自動で入力され、すべての動詞は [v*] で表すことがわかります。ただし、検索語の品詞指定をするには、スペースを削除して単語と品詞タグの間にピリオドが必要ですので注意してください(「cause␣[v*]」ではなく「cause.[v*]」とします)。 品詞の指定は、活用形を含んだ検索と組み合わせて使うこともできます。[cause].[v*] で検索すると、次の画面のように、動詞の caused, cause, causing, causes が一括で検索されていることがわかります。cause, causes は名詞形でもありますが、品詞タグを指定することで、動詞だけが抽出されます。
それでは COCA でコロケーションを検索する方法を見ていきましょう。「活用形を含めた検索」、「品詞の指定」の2つのテクニックと組み合わせることで、柔軟な検索が可能になります。ここでは「名詞の cause の直前に用いられる形容詞」を検索してみます。
(a) 単語の入力
(b) 活用形を含む設定をする
(c) 品詞の指定をする これでコロケーションの「中心語」の設定が完了です。
共起語の設定項目は COLLOCATES という部分をクリックすることで出現します。
(a) 共起語の品詞を指定する COLLOCATES のインプットボックスを選択した状態で、POS LIST をクリックし、adj.ALL ▼(すべての形容詞)を選んでください。 次のように [j*](すべての形容詞という意味のタグ)が入力されたことを確認しましょう。
(b) スパンを指定する 「名詞の cause の直前に用いられる形容詞」を検索することが目的ですので、「cause の直前」という位置を指定する必要があります。 位置の指定は、COLLOCATES をクリックすると表示される数字で行うことができます。左側の 数字 ▼ が指定の単語の前、右側の 数字 ▼ が指定の単語の後を指します。この数字はコロケーションの集計で「どの位置まで含めるか」という指定です。例えば、左側に 3 ▼ を指定すると、次の図の左の1〜3に出現するすべての形容詞を集計に含めます。
現在の目的は「cause の直前」ですので、左側を 1 ▼ 、右側を 0 ▼ にします。[1] これで「共起語」の設定も完了です。
では、SEARCH ボタンを押してみましょう。 この検索の結果、「形容詞+[cause].[nn*]」では common, leading, probable, good, natural, major などの単語との共起が多いことが読み取れます。
これまで紹介したテクニックを使って、具体的な検証実験をしてみましょう。 動詞の cause について、Stubbs (1995)[2] はネガティブな単語と共起する傾向にあることを指摘しています。このことを COCA の検索で検証してみましょう。
中心語は、動詞の cause です。品詞の指定は「.[v*]」となります。また、時制によって形が変化しますので、活用形を含めて [cause] で検索します。WORD(S) には [cause].[v*] を入力します。
次に共起語の設定をします。目的語は動詞の後にくる名詞が該当しますので、まず COLLOCATES に [nn*] で名詞を指定します。スパンは左側を 0 ▼ 、右側は冠詞や形容詞を伴う可能性がありますので(例: cause a problem)、ここでは 3 ▼ を指定します。 以上で中心語・共起語ともに設定は完了です。この検索結果が次の画面です。
検索画面を見ると、problems と problem など、同じ単語の活用形が、別々に表示されていることに気がつきます。単複の差が意味を持つこともありますが、これらをまとめて集計することもできます。 まず、設定パネルの一番下の CLICK TO SEE OPTIONS をクリックします。すると、いくつかの設定項目が表れます。その中の GROUP BY のところで LEMMAS ▼ (レマ、見出し語)を選択し、再度 SEARCH を押してください。 検索結果が [ ] で囲まれ、見出し語形で集約されていることがわかります。 このリストを見ると、problem, damage, death, pain, trouble, cancer など、確かにネガティブな意味を持つ単語と共起していることがわかります。この結果は、Stubbs の主張を支持するものであると言えるでしょう。
コロケーションの検索方法がわかると、言いたいことを英語で表現する際にどういう語を使ったらよいか、コーパスを使って調べることができるようになります。その一例として、「気持ちを伝える」は英語でどう表現するのかを、コーパスから調べてみましょう。 「気持ち」は英語で feeling です。しかし、「伝える」はすぐには出てこないかもしれません。そこで「動詞+feeling」をコーパスで検索し、そこからこの意味で使えそうな単語を絞り込んでみます。この方法では、コーパスで実際の用例にあたることができますので、単に辞書を引くよりも多くの情報を得られる可能性があります。 まず、中心語は単数形・複数形の両方を検索するため [feeling] とします。動詞の feel の現在進行形も含まれてしまう可能性があるので、[feeling].[nn*] で検索します。 次に共起語に動詞([v*])を指定します。名詞の左側に共起しますので、右は 0 ▼ とします。冠詞などが入ることを考えて左は 3 ▼ として検索します。また、GROUP BY で LEMMAS ▼ を指定します。 検索結果は次の通りです。 この表を見ると、express が「気持ちを表現する」≒「気持ちを伝える」という意味で使えそうです。[express] をクリックすると、expressed my feelings, expressed their feelings など、(a) feeling が所有格とともに用いられる傾向があること、また、(b) 複数形で用いられることが多いこと、などがわかります。このような構文に関する情報をすぐに見ることができるのはコーパスならではだと言えるでしょう。さらに動詞のリストを見ると、share という単語が目を引きます。これは文字通りには「気持ちを共有する」という意味ですが、文脈によっては「気持ちを伝える」という意味でも使うことができるでしょう(例えば COCA の用例では . . . thank you for sharing your feelings. などがあります)。また、動詞のリストのさらに下のほうを見ていくと、describe も、「気持ちを伝える」という意味で使うことができる動詞として候補になりそうです(例えば COCA の用例では I'm trying to describe my feelings. などが見つかります)。これらの表現は、「気持ちを伝える」という日本語からスタートするとなかなかたどり着けないものですが、コーパスを使うことで発見することができます。[3] 本稿ではこれ以上詳細には立ち入りませんが、それぞれの単語が使える文脈が異なる可能性もありますので、そういった「違い」についても検証が必要です。[4] コロケーションのリストはあくまでも情報の「要約」ですので、それぞれの「中身」を見ることを忘れないようにしましょう。
本稿では、活用形を含めた検索、品詞の指定、コロケーションの検索などについて、COCA の基本的な使い方を概観しました。紹介したテクニックを組み合わせることで、非常に柔軟な検索ができます。使えば使うほど、思い通りの検索ができるようになりますので、気になる単語のコロケーションを自分で調べてみてください。 次回は、COCA を使って類義語の検証方法を紹介する予定です。high と tall の違いを説明することはできるでしょうか。これらの違いは、コロケーションを検証することではっきりと出てきます。ご関心のある方は、本稿でのテクニックを使って、この2つの語のコロケーション(形容詞+名詞)を事前に調べてみてください。
〈注〉 [1] 「直後」の場合は、左が 0 ▼ 、右が 1 ▼ となります。なお、「動詞+名詞(中心語)」のようなコロケーションを検索する場合、冠詞や形容詞が入ることが多いですので、左に3〜5程度スパンに余裕を持たせるのが一般的です。 [2] Stubbs, Michael (1995) ‘Collocations and Semantic Profiles: On the Cause of the Trouble with Quantitative Studies,’ Functions of Language, 2(1), 23-55. [3] なお、feeling と共起する動詞の中には「伝える」という日本語から連想しやすいものもあり、例えば、convey は37位(98件)に出てきます。I would also like to convey my feelings to . . . などのような用例があります。 [4] 例えば、share は I have now shared such feelings with my students. のように with 句を伴い、伝える相手を明示する傾向があることが見て取れます。また、スパンを広げたり狭めたりすることでコロケーションの顔ぶれが変わってきますので、いろいろと試してみるとよいでしょう。
|