研究社 会社案内 採用情報 サイトマップ 書店様向け 教育現場向け

研究社 WEB マガジン Lingua リンガ

 

 

リレー連載

 実践で学ぶ  コーパス活用術

  4  

 

仁科 恭徳

Google をコーパスに見立てる

 

©(WT-shared) Matthew 6476

 

 

 

 1  Google でできることとできないこと  

 英語教育分野におけるコーパスの活用法は無限大にあります。中でも、ノンネイティブスピーカーが執筆した英語の正しさを調査する際にはコーパスを是非とも活用したいものです。自作した英文の文法をチェックしたり、共起語の選択を確認したりする場合にもコーパスを活用することができます。ただし、一般に公開されている既存のコーパスでは未だサイズが限られていることから、自分が調査したい言語項目のヒット数が少ないことも多く、検索結果が妥当かどうか判断できないこともしばしばです。

 そこで、今回は Google を活用して、Web 上にある膨大な言語情報の集積を一種のコーパスに見立てる検索術をご紹介します。そばにネイティブスピーカーがいない場合や、辞書や学習参考書に掲載されていない情報でも、検索エンジンを活用することで気軽に無料で英語のチェックができるのです。

 

 2  Google を活用して手軽に英文をチェックしよう  

 以下の方法を組み合わせることで、Google を活用して効果的な英文チェックが可能になります。

(1) ドメインの指定(信頼性のある英語サイトの指定)
(2) フレーズ検索(検索語句の限定)
(3) アスタリスク検索(挿入すべき語の確認)
(4) OR/パイプ検索(候補からの断定)
(5) Google Fight の活用など(件数比較)

(1) は検索前に留意すべき項目です。(2)、(3)、(4) は検索時に勘案すべき項目で、(5) は検索結果として注目すべき項目です。

 表1 は、各方法で用いる検索コマンドと検索記号の簡単なまとめです。なお、検索コマンドのコロンの前後には半角スペースを入れないことに注意しましょう。

表 1. 検索コマンドと検索記号
検索コマンド 使用
site: サイト指定 site:uk (イギリスのサイト)
filetype: ファイルの種類を指定 filetype:pdf (PDF ファイル)
検索記号 検索 使用
"  " (ダブルクォート) フレーズ検索 "wonderful opportunity"
* (アスタリスク) アスタリスク検索 "a number of *"
| (パイプ) パイプ検索 "made from|of"
OR (OR) OR 検索 "made (from OR of)"

例えば、検索コマンド filetype を用いれば、PDF やワードなどファイルの種類を指定することができます。PDF ファイルに含まれる email という語を検索したい場合は email filetype:pdf と検索します。

 

 3  ドメインの指定(信頼性のある英語サイトの指定)  

 Web 上には、世界中の情報が日々無造作にアップされています。Web は一般的なコーパスと異なり「計画性がなく、偶然集められたテクスト」の集合体です。

 Web 上の英語には、書き手が英語母語話者であったとしても、推敲を重ねず直感的に書かれたものが多く、非文法的な表現も多々含まれます。したがって、できるだけ標準的な英語で書かれたサイトが多く集まっているドメインを指定し、英語の質をある程度均質化することが検索時には必要となります。英語の精度を上げるためには、アメリカやイギリスなどのサイトに限定して検索しましょう。また、個人のホームページやブログ、Twitter, Facebook, ウィキペディアの英語の信頼性は低いので、正しい英語を調査する際には避けたほうがよいでしょう。

 Google では、検索設定で「サイト」または「ドメイン」を指定することができます。表2は、国別と機関別の主要なドメインのまとめです。

表 2. 国別・機関別ドメイン
国別ドメイン 機関別ドメイン
.uk 英国 .ac.uk 英国教育機関
.au オーストラリア .edu 米国教育機関
.ca カナダ .com 商業組織
.nz ニュージーランド .net ネットワーク
.jp 日本 .org 非営利組織

アメリカ英語を検索する場合には .us というドメインの登録数が多くはないことから、機関別ドメインで教育機関(.edu)等を指定するのが一般的です。    の商業組織(.com)、ネットワーク(.net)、非営利組織(.org)はある特定の国を指定するわけではなく英語圏以外の国も含まれますので、英語表現の検索時には指定しないほうがよいでしょう。

 

 4  Google を活用した実際の検索  

 Google 検索で重要となるのは、フレーズ検索(検索語句の限定)、アスタリスク検索(挿入すべき語の確認)、OR/パイプ検索(候補からの断定)です。

 まず、検索の基本となるのがフレーズ検索です。検索したい語・句をダブルクォテーションで括って限定することで、完全に一致した用例だけが返されます。例えば、Google から at last の用例を獲得したい場合には、"at last" と検索します。

 次に、フレーズ内や文中の適切な選択語を判断したい場合にアスタリスク( * )検索を活用します。Google の検索機能では、アスタリスク( * )は任意の1語以上を示します。例えば、in the end of the month と at the end of the month のどちらが正しいか判断できない場合、句頭の前置詞部分をアスタリスクにして "* the end of the month" と検索します。その結果、at のほうが自然な選択であることが分かります。複雑な英文を検索にかけるとヒット件数が少なくなるので、アスタリスク検索では主語や目的語をあえて指定しない工夫も必要です。

 また、語の共起関係を調査する際など、いくつかの候補の中から適切なものを確認したい場合は、OR/パイプ検索を試してください。パイプとは、検索時に使用する縦棒( | )のことを指します。例えば、「プレゼンテーションをする」と言う際に 〜 a presentation の「〜」にどの動詞が入るのかを確認したい場合、OR 検索では "(make OR give OR do) a presentation", パイプ検索では "make|give|do a presentation" のように指定します。結果、give と make の例が多数ヒットすることから、これらが最も自然であろうと予測できます。実際に候補の中から適切なものを断定したい場合には、次節で紹介する件数比較を実行します。

 

 5  表現の件数比較(Google Fight などを用いて)  

 件数比較は、Google Fight というサイト(www.googlefight.com )を活用することで容易に実行できます。特に、類似した2つの表現がどちらも Google 検索である程度ヒットした場合には試す価値があります。当サイトでは、比較したい2つのキーワード、つまり検索したい語・句を入力すると、Google 検索のヒット件数を瞬時に比較し結果を表示してくれます。

 例えば、「闘う」の意味で make a fight と make a battle のどちらが頻繁に使用されているかを調査したい場合、同サイト内の Keyword #1 に "make a fight" を、Keyword #2 に "make a battle" を入力して、Fight! をクリックします。すると、結果が件数付きの棒グラフで表示され、make a fight のほうが多く使われていることが分かります。


図 1. Google Fight の検索画面

 


図 2. Google Fight の検索結果画面

ドメインを指定して検索したい場合は、検索コマンドでキーワードの前か後に site:uk, site:edu のように入力します。結果、いずれの場合も make a fight のほうが多く使われていることが分かります。

 

 6  品詞別検索例  

 本節では、前節までに挙げた検索例に基づき、いくつかの品詞に注目して実際の検索例をお見せします。

 6.1   動詞の場合 

課題 1. The birth rate (  ) XX percent last year. (昨年、出生率は XX パーセント 〜 した。)の括弧にあてはまる動詞は何でしょうか。

検索方法 [アスタリスク検索で "birth rate * percent" を実行します。]

検索結果 [declined(減少した), fell by(〜まで下がった), has fallen(下がった), was(〜であった), increased(増加した), rose(上昇した)などの動詞が入ることが分かります。]

課題 2. 「環境汚染を食い止める」を英語で言い表したいとします。下線部にはどのような動詞を用いればよいでしょうか。

検索方法 [アスタリスク検索で "to * environmental pollution" を実行します。]

検索結果 [prevent(妨げる), reduce(減らす), minimise(最小限に抑える), control(抑制する), solve(解決する), avoid(避ける)などが見つかり、どれもニュアンスとして日本語の意味に相当することが分かります。ここでは * の前に to を置いて検索していますが、これは to 不定詞の形式にすることで、* 部分に動詞が現れやすくするというテクニックです。同様に、should などの助動詞を直前に入れても * 部分に動詞が出てきやすくなります。]

課題 3. 「データを DVD に保存する」を英語で表現したいとします。「保存する」という動詞をある和英辞書で調べると、preserve, conserve, keep などが掲載されていました。しかし、site:uk に限定して "preserve|conserve|keep data * DVD" で検索してみると、ヒット件数が非常に少ないことが分かります。では、この場合の「保存する」にはどのような動詞が適当なのでしょうか。

検索方法 [アスタリスク検索で "* data to DVD" を実行します。]

検索結果 [burn(焼く), back up(バックアップをとる), copy(コピーする), transfer(移動させる), write(書く), add(加える)など多種多様な動詞が見つかります。なお、DVD の前に来る前置詞は、上では仮に to を入れて検索していますが、実際にそれぞれの動詞で検索してみると、動詞によっては to のほかに on や onto も使われることが分かります。]

 6.2   前置詞の場合 

課題 4. 「その犯罪の背後にある動機」を表す名詞句では、どの前置詞を用いればよいでしょうか。動機を the motives, 犯罪を the crime とします。

検索方法 [アスタリスク検索で "the motives * the crime" を実行します。]

検索結果 [for や behind が入ることが分かります。]

課題 5. 「この小説は 〜 の名義で出版された」と言う場合、「この小説は出版された」は This novel is published, 「〜 の名義」は the name of 〜 であることは予想がつきました。それでは、この2つをつなげる場合、どのような前置詞を使えばよいでしょうか。

検索方法 [アスタリスク検索で "published * the name of" を実行します。]

検索結果 [under が最も多くヒットし、* を under に変えて再検索した結果からも、under が適切であることが分かります。]

課題 6. 「高い死亡率の理由は…」の意味で、the reason of the high mortality rate is . . . と生徒が訳していました。この of the は正しいでしょうか。

検索方法 [アスタリスク検索で "the reason * high mortality rate" と指定します。]

検索結果 [the reason for the high mortality rate is のほうが一般的であることが分かります。]

 6.3   形容詞等の場合 

課題 7. 市販の和英辞書には「多くの」の項に a lot, many, much が、「豊富な」の項に rich, affluent, abundant, plentiful, ample などが掲載されています。「科学技術について多くの知識がある」の意で have (  ) knowledge of technology を用いる場合、括弧には何が入るでしょうか。

検索方法 [アスタリスク検索で "have|has|had|having * knowledge of technology" を実行します。]

検索結果 [extensive(広範な), considerable(相当の), broad(幅広い), sufficient(十分な)などの形容詞がヒットします。ほかの意味を示す形容詞には、specialist(専門的な), excellent(素晴らしい), advanced(高度な), detailed(詳細な)などもヒットします。これらの形容詞は、of のあとの technology を除いて個別に再検索した場合にも、ある程度のヒット件数が認められたことから妥当な表現であることが分かります。なお、動詞 have の部分については、パイプ検索の方法を用いて、have|has|had|having のように活用形も含めて検索する点に気をつけましょう。]

 

 7  Google で最新の英語を調べる  

 1988年に公刊された『日本人の英語』(マーク・ピーターセン著)には、「冷凍庫」という語は she put it in the freezer のように定冠詞 the を用いるのが普通で、「電子レンジ」は she put it in her microwave と所有格を用いるほうが普通であることが記されています。この理由に、冷凍庫はどの家庭にも存在するという意識が働くので the が自然であるけれども、電子レンジは当時それほど普及していなかったために単に所有関係を表す her が好まれて使われた、と説明しています。25年以上経った現在、各家庭内における電子レンジの普及度が大きく変わったため、この言語使用に関しても大きく変化していることが予想されます。つまり、「電子レンジ」においても the を使うほうが一般的になっているかもしれません。

 そこで、実際に Google を使って検証してみました。表3は、ドメインを site:uk に限定し、2013年9月7日に "in the microwave", "in the freezer", "in my|your|his|her|their microwave", "in my|your|his|her|their freezer" とフレーズ検索した結果です。

表 3. microwave と freezer の Google 検索結果
  microwave freezer
in the + 3,180,000 4,840,000
in my|your|his|her|their + 166,000 432,000

 現在では、freezer も microwave も定冠詞と共起するほうが一般的であり、調査前の予測と合致しています。この結果から、現代社会では冷凍庫と同様、電子レンジが広く一般に普及しているということが考えられます。

 

 8  最後に: 検索時の注意点  

 最後に、より信頼性のある言語情報を獲得するために、Google 検索時の注意事項を挙げます。今回は、紙幅の都合上、以下の項目は具体的に例示していませんが、いずれも Google を活用して正しい英語を抽出する上でとても重要です。

ドメインを指定しない場合は、必ず獲得した用例の URL の国を確認する。
使いたい表現が見つかったら、単体で再度検索し件数を確認する。
冠詞の有無で検索結果を確かめる。
単数形と複数形でも検索してみる。
ヒット件数が多くても、必ず後続する語句を確認する。

特に、冠詞の有無や前置詞の種類は後続する名詞で変わります。例えば、「電話で」は on the phone が正解ですが、"in the phone" と検索しても多数ヒットします。実は、"in the phone" でヒットした例は in the phone booth や in the phone book, in the phone number など、in が phone の後続名詞にかかっています。検索した箇所にだけ注目していると重大なミスを犯しかねないので、必ず目視で確認しましょう。

 以上、今回は Google をコーパスに見立てることで可能となる英文チェック術を紹介しました。既存のコーパスでは調査が不可能である微妙な表現においても、Google はその膨大な情報量から「答え」を返してくれます。Google が皆さんのベスト・ティーチャーになることを切に願っています。

 

 

〈著者紹介〉

仁科 恭徳(にしな やすのり)

明治学院大学教養教育センター専任講師。2010年に英国バーミンガム大学大学院にて応用言語学博士号を取得(PhD in Applied Linguistics)。専門はコーパス言語学、辞書学、教材開発、ESP など。主に、日英対照や談話分析などに興味・関心がある。単著に Evaluative Meanings and Disciplinary Values: A Corpus-Study of Adjective Patterns in Research Articles in Applied Linguistics and Business Studies(LAMBERT Academic Publishing)、共著に『ウィズダム英和辞典 第3版』(三省堂)、『アカデミック・プレゼンテーション』(三修社)、『連想バブルで覚えるボキャブラリー』(英潮社フェニックス)など。

 

 

次回は「言語統計の基礎(前編)――頻度差の検定」です。コーパスなどの検索ヒット数について“使用頻度が高い/低い”あるいは“使用頻度に差がある/ない”と言われますが、それはどんなふうにして客観的に線引きができるのか、統計学の考え方を徹底的にやさしく解説します。

 

 


 

 

関連書籍
『<コーパス活用> 英語基本語を使いこなす ――[形容詞・副詞編]』
『<コーパス活用> 英語基本語を使いこなす ――[動詞・助動詞編]』

キーワードで書籍検索
コーパス corpus 言語学 辞書学

▲ページトップに戻る

複写について プライバシーポリシー お問い合わせ

Copyright(C)Kenkyusha Co., Ltd. All Rights Reserved.