、British National Corpus(BNC)を無料で検索できる BNCweb というインターフェイスを使って、コーパスを検索する具体的なプロセスを紹介します。単にキーワードでコーパスを検索するというのは簡単なのですが、実際に具体的な目的を持ってコーパスを検索しようとすると、多くの問題に直面します。この体験ツアーでは、「こうすればいい」という最終的な答えだけでなく、コーパスを使うときに経験しがちな問題や回り道をあえて取り上げ、それを解決するための考え方や手順を紹介します。ご自身でコーパスを使っていろいろなことを調べる際に、この疑似体験が役に立つと思いますので、読むだけでなく、ぜひ実際に検索してみてください。
BNCweb は、ウェブブラウザー上で BNC のデータを検索できるインターフェイスのひとつです。BNC はイギリス英語の書き言葉約9,000万語、話し言葉約1,000万語の計約1億語を集めたコーパスで、各単語には品詞の情報が付いています。BNC のデータを検索する方法はいくつかあり、第1回で紹介された BNC simple search もそのひとつですが、BNCweb は BNC simple search よりもはるかに高機能で、使い方をマスターすれば、極めて多様な情報が得られます。BNCweb はコンピューターにかなり詳しい人であれば自分のコンピューターにインストールして使うことも可能です[1] が、英国ランカスター大学で BNCweb を無料で利用できるサービスが提供されていて、これが一番手軽な方法なので、今回はこのサービスを使います。ただし、ランカスター大学で提供されているこのサービスでは BNCweb の本来の機能のうちの一部が制限されています。例えば、5,000件を超える検索結果があった場合には、そのうちの5,000件のみが無作為抽出されて表示されます。 BNCweb を利用するには、最初に一度だけ、次の URL にアクセスして簡単なユーザー登録をする必要があります。 http://bncweb.lancs.ac.uk/bncwebSignup/user/register.php 氏名・所属・メールアドレス・国・ユーザー名・パスワードを入力すると、アカウントがすぐに発行され、指定したメールアドレス宛に確認のメールが届きます。 アカウントを作成したら、次の URL にアクセスして、自分で決めたユーザー名とパスワードを入力します。 正しく認証されると、次の画面が表示されます。 これで、BNCweb を使って BNC を検索するための準備が整いました。
「〜するのが好きだ」という意味で like の後に使う動詞の形としては、to 不定詞と動名詞の両方があり得ます。今回は、その使い分けに何らかの傾向があるのかを調べるという試みを通して、コーパス検索がどういう分析を得意としているかを見ていきます。 まずは単純に like の一般的な使い方を見るために、like をキーワードとして検索してみます。(検索のキーワードは必ず半角(直接入力・英語モード)で入力する必要があります。) BNCweb の初期画面右上にある大きな検索ボックスに like と入力して、[2] ボタンをクリックすると、検索したキーワードが中央に揃って表示されます。これはコーパス検索ではおなじみの表示形式で、見たことがある方もいると思います。用例の表示順は、標準では出典のファイル ID 順ですが、特定の使い方がまとまって表示されることがあるため、 ボタンをクリックして、表示順をランダムにするとよいでしょう[3]。ここまでの手順を行うと、次のような画面になります。 ボタンをクリックします。すると、BNC で like が使われている全ての用例(147,567件)のうちから無作為抽出された5,000件を見ることができます。結果表示画面で、動詞 like の使い方を見たかったのですが、検索結果を見ていくと、前置詞の like が非常に多いということが分かります。前置詞の like の用例は、今回の目的である動詞の like の傾向を見る際には邪魔なので、動詞の like に絞って検索をしたいところです。このような場合には、BNC のデータに付いている品詞の情報を利用します。単語の後に _(アンダースコア・下線)を付けて、品詞を表す記号(品詞タグ)を続けることで、品詞を指定した検索を行うことができます。BNC の品詞タグ[4] も指定できますが、比較的簡単な品詞指定方法もあります。主な品詞は、次の表の記号で指定できます[5]。
今回は動詞の like を検索したいので、
で検索します。最初の検索画面[6]で、like_{V} を検索ボックスに入れて ボタンをクリックしてみましょう。すると、動詞の like の用例だけが表示されます。(ただし BNC の品詞タグは専用のプログラムで自動的に付けられたものなので、品詞情報が間違っている場合もあります。) 次の画面は like_{V} で検索して、KWIC 表示・ランダム順表示にしたものです。
次に、動詞の like の後にどのような語が使われることが多いのかを見てみましょう。用例をひとつずつ見ていくことは丁寧な分析には必要ですが、時間がかかりますし、大きな傾向を見落としてしまう恐れもあります。このような場合には、並べ替え(ソート)の機能が有効です。BNCweb では検索キーワードからの位置、例えば1語右や2語左といった位置を指定して、ソートすることができます。検索結果画面の右上にあるドロップダウンリスト(初期値は New Query が表示されています)で Sort を選択し、 ボタンをクリックします。 これで、1語右がアルファベットの昇順(ABC 順)でソートされた状態になりました。[7] この状態から、位置や品詞を指定してソートし直すこともできます。例えばキーワードの直後の単語が動詞である例だけを選び、アルファベットの昇順でソートする場合は、[Position:] に 1 Right を選び、[Tag restriction:] に any verb を選んで、 ボタンをクリックします。 これで、動詞の like の直後に動詞(多くは -ing 形の動名詞)が来る例のみを見ることができます。 like の次の語には品詞タグが表示されていますが、これは品詞の指定をしてソートしたためです。3文字の品詞タグの最後が G であるものが動詞の -ing 形[8]です。 この検索結果の件数は193です。1億語の中で193例しかないというのはあまりにも少ないと思うでしょうし、193例から傾向を導き出すのは現実的でないと感じるかもしれません。しかし実はこの193件という数字は、BNC の中で使われている「動詞 like+動名詞」の全ての用例の数ではありません。最初に説明したように、このランカスター大学で提供されているサービスでは全検索結果が5,000件を超える場合には、そのうちの5,000件しか表示されません。つまり、like_{V} の検索時に本来32,975件あった用例のうち、5,000件のみが表示され、その5,000件の中で動詞が後続するものが193件しかなかったということなのです。
「動詞 like+動名詞」は、実際には BNC 中に全部で902件あります。その902件を全部見るためには、最初から「動詞の like+動名詞」として検索する必要があります。 では、それはどうやって検索するのでしょうか。「like+to+動詞」の方は「like_{V} to」で検索すれば、ほとんどの用例が動詞(の原形)が後続するものになりますが、「like_{V} doing」で検索すると、like の後に動詞 do の -ing 形が続くもののみが検索されます。つまり、do 以外の動詞は検索対象外となるのです。このような場合には、単語を指定せずに品詞タグのみを指定するという検索を行います。「like+to+動詞」と「like+動名詞」で、動(名)詞の部分はどのような語でもよいという条件で検索するには、次のように検索します。実際に入力する文字が分かりやすいように、半角スペースで入力すべき部分を ␣ で示します。
具体的な語を書かずに品詞タグのみを書いた _{V} は「動詞であればどの語でもよい」ということを表しています。同様に、_V?G は「動詞の -ing 形であればどの語でもよい」ということを表します[9]。 実際に like_{V}␣_V?G で検索すると、目的のパターンのみを表示することができます。
これで「動詞の like+to+動詞」と「動詞の like+動名詞」の用例が検索できましたが、ひとつ見落としていることがあります。like は当然 likes や liked という形で使われることもあるのですが、これまでの検索では like という形だけしか検索されていなかったのです。BNCweb ではこのような場合に変化形をまとめて検索する方法が用意されています。単語の原形を { } に入れることで、複数形、過去形、比較級など、その単語の全ての変化形をまとめて検索することができるのです。そのため、「like またはその変化形」は、
で表すことができます。前の検索キーワードと組み合わせて、
で検索すると、「動詞の like(変化形を含む)+to+動詞」の例が検索でき、13,034件(のうちから無作為抽出された5,000件)の検索結果が得られます。 同様に、
で「動詞の like(変化形を含む)+動名詞」の例が検索でき、1,182件の検索結果が得られます。
前編はここまでです。基本的な検索から始まり、品詞を指定した検索、ソート、そして変化形をまとめて検索する方法までを見てきました。 後編では引き続き「like+to+動詞」と「like+動名詞」を題材として、BNCweb の各種機能を使いながらコーパスデータを様々な観点で分析する方法を紹介します。具体的には、コロケーションを調べたり、前後に出現する単語の条件を指定した高度な検索をしたり、使われた場面やテキストのタイプなどの情報を調べたり、といった内容を取り上げます。 後編でも前編で紹介した各種の検索方法を使いますので、ぜひ、前編の内容を実際にご自分の手を使って試してみてください。
〈注〉 [1] その場合は、BNCweb 自体は無料で入手できますが、BNC のデータについては DVD-ROM を購入する必要があります。 [2] KWIC とは KeyWord In Context の略で、検索結果が文脈の中で表示される方式を指します。キーワードが中央に揃っていなくても、文脈の中で表示されていれば KWICなのですが(広義の KWIC)、コーパスの分野では、キーワードが中央に揃って表示される方式を特に KWIC と呼ぶことが多くあります(狭義の KWIC)。ここでの KWIC は後者の狭義の方式を指しています。 [3] 毎回 ボタンと ボタンを押すのは面倒だという場合は、設定を変更することで、自動的に KWIC・ランダムな順番で表示されるようにすることができます。方法は、初期画面左側のメニューにある [User settings] をクリックし、[Display options] 内の [Default view:] を [KWIC-view] に、[Default display order of concordances:] を [random order] に変更して ボタンをクリックします。 [4] http://ucrel.lancs.ac.uk/bnc2/bnc2guide.htm#tagset に全ての品詞タグのリストが掲載されています。 [5] この品詞指定方法は、検索初期画面にある Simple Query Syntax help というリンクから表示できるクイックレファレンスにまとめられています。 [6] 検索結果画面が表示されている状態から、最初の検索画面に戻りたい時には、画面右上のドロップダウンリストが New Query となっていることを確認して ボタンをクリックすると、最初の検索画面に戻ります。 [7] 図中の3例目の like は品詞が誤って付けられています。 [8] BNC の品詞タグでは、動詞は be, do, have, それ以外の一般動詞に分けられ、それぞれ別の品詞タグ(3文字)が付けられています。それぞれの末尾が語形を示していて、例えば VBG は being を表します。動名詞と現在分詞の区別はされていません。 [9]「?」は1文字に対応するワイルドカードです。そのため、V?G は being (VBG), doing (VDG), having (VHG), それ以外の一般動詞の -ing 形 (VVG) を含む「全ての動詞の -ing 形」を表します。(文字のワイルドカードには、「?」の他に、「0文字以上」ということを表す「*」と「1文字以上」ということを表す「+」があります。)
|