研究社 会社案内 採用情報 サイトマップ 書店様向け 教育現場向け

研究社 WEB マガジン Lingua リンガ

 

 

リレー連載

 実践で学ぶ  コーパス活用術

25

金田 拓

語彙表を作ってみよう
コーパスと教育の接点

― 実践編 ――

© (WT-shared) Matthew 6476

 

 

 1  はじめに

 前編では、コーパスと教育の接点として、教育語彙表の歴史を紹介しました。後編は、実際にデータを手に語彙表を作成する過程を紹介します。本論では分析対象として、資料入手の容易さと、著作権的に問題がないということから、「シャーロック・ホームズ」シリーズを使用していますが、実際に教育語彙表を作成する場合は、データを目的に応じて置き換えて進めてください。

 

 2  コーパスを用意する

 語彙表を作る際には、まず言語サンプルとして、目的に応じて収集したコーパスが必要となります。たとえば医学英語であれば、医療関連の書籍や論文といったものが素材の候補になるでしょう。あるいはメディア英語であれば、ニュースや新聞記事などが対象となるでしょうか。いずれにせよ、コーパスは言語の資料ですので、ニーズに合わせたサンプルを収集することが肝要となります。

 目的に合致していれば、既存のコーパスを利用することもできます。一般的な英語であれば、BNC(British National Corpus)などが利用できます。教育目的では、論文コーパスとして PERC Corpus[1] (自然科学学術雑誌論文のコーパス)が利用可能であるほか、Linguistic Data Consortium[2] など、既に利用可能な状態で整備されているデータを利用することで、手間を省くことができるでしょう(有償の場合もあります)。

 今回の分析対象としては、推理小説の古典として世界中の人々に親しまれてきた、コナン・ドイルによる名作「シャーロック・ホームズ」シリーズの60編(長編4, 短編56)、約58万語からなる英語コーパスを使用します。Project Gutenberg[3] より、インターネット上で無償にて入手が可能です。英国文学(ミステリー)を読むための教育語彙表の作成を今回の目的とします。

 分析には、フリーソフトである AntConc[4] を使用しました。AntConc はフリーソフトでありながら高機能かつ使いやすいインターフェイスを備えた、優れたコンコーダンス・ソフトウェアで、Laurence ANTHONY 氏(早稲田大学)により開発されています。

 

 3  基礎語彙表

 何といっても、語彙表を作る目的は頻出語を明らかにすることなのですから、まずは、シンプルに出現単語を頻度順に並べた語彙表を作ってみましょう。今回使用する AntConc には、デフォルトで語彙表を作成する機能が備わっています。

表1. シャーロック・ホームズ」シリーズ・コーパスの単純頻度表 1〜10位
1 32,132 the
2 15,681 and
3 14,977 i[5]
4 14,899 of
5 14,075 to
6 13,818 a
7 10,098 that
8 9,599 it
9 9,484 in
10 9,050 he

 何だかあまり魅力が感じられないトップ10に映るかもしれません。実は、どんなテキストを分析しても、大体上位に来るのは文法的な役割を持った機能語なので、語彙表の目玉となる内容語を知るためには、もう少し下を見ていく必要があります。

表2. シャーロック・ホームズ」シリーズ・コーパスの単純頻度表 200〜209位
200 350 woman
201 349 half
202 345 end
203 344 knew
204 344 mind
205 342 turned
206 341 looked
207 338 london
208 335 against
209 328 lady

 機能語よりももう少し深く内容に関わる語として、woman, half, end などが見られます。さらにその下には、knew, turned, looked といった、動詞の変化形が出てきます。これらはそれぞれ、know, turn, look などの原形とは別に集計されているようですが、これは果たして望ましい結果と言えるでしょうか。

 語彙表を作成する際には、know, knew, known, knows, knowing といった表記を、「レンマ」と呼ばれる単位にまとめる作業を行います。この工程「レンマ化」を次節にて解説します。

 

 4  レンマ化

 レンマとは、いわゆる辞書の「見出し語」のことです。通常、文章中で単語は変化した形で使われており、特に動詞は、時制や人称に合わせて活用した形で用いられます。たとえば study という語は、文章中では原形の study のほか、studies, studying, studied といった形で出現しますが、これらは学習上、1つの語として考えるべきです。よって、一般的な語彙表はレンマでまとめた形で、全ての表記形の頻度を合計して計算・作成されます。

 レンマ化を自動的に行うためには、1つのレンマが包含する全ての表記形を記載したリストが必要となります。英語では幸い、既存のリストとして、染谷泰正氏(青山学院大学)の作成した English Lemma List (1998)があり、よく利用されています。同リストには

 abandon -> abandons, abandoning, abandoned

といったように、レンマに対応する形で、全ての表記形が記載されています。レンマ化してリストを作成した場合、右側の表記は全て左のレンマの頻度に統合されます。

表3. シャーロック・ホームズ」シリーズ・コーパスのレンマ頻度表 70〜79位
レン 表記
70 1,132 down[6] down 1,121 downing 3 downs 8
71 1,129 hand hand 648 handed 89 handing 7 hands 385
72 1,109 them
73 1,088 should
74 1,072 more
75 1,066 make made 570 make 459 makes 37
76 1,025 room room 899 roomed 2 rooms 124
77 984 over
78 982 time time 881 timed 3 times 97 timing 1
79 978 may

 レンマ化による頻度変化がはっきり見られるのは make で、make という形では459回しか出現しておらず、表記形では154位でしたが、made(570回), makes(37回)を含めると計1,066回、第75位の頻出語であることが分かりました。レンマ化は特に変化形で出てくることの多い動詞に効果的で、settle(86回中、原形は26回), recover(66回中、原形は13回)といった、原形の頻度は低いながら、実はより頻度が高い動詞を見落とすことを、レンマ化することで防げます。

 

 5  特徴語分析

 上のレンマ化を行った段で、「シャーロック・ホームズ」シリーズに頻出する単語をまとめることができました。しかし、もっと効率よく「他のテキストより『シャーロック・ホームズ』シリーズで顕著に出現する単語」を抽出できないでしょうか。

 あるコーパスの中で、使用頻度が特徴的に高い語を特徴語(keyword)[7] と呼びます。特徴語を抽出する際には、連載第56回で取り上げた統計手法を用いて特徴度(keyness)を計算します。調査対象のコーパスを、他の参照コーパスと比較し、片方でのみ顕著に現れる語を選び出します。その性質上、調査対象のコーパスは特殊で小規模なもの、参照コーパスには一般的で大規模なデータを用いることが多くなります(Hunston, 2002; 石川、2008)。

 今回は、分析対象としている「シャーロック・ホームズ」のデータを、Brown Corpus(100万語、アメリカ英語の書き言葉コーパス)と対比します。時代と地域の不一致はありますが、一般的な書き言葉と比較して、「ホームズ」の英語はどのような特徴を持っているのでしょうか。コーパス言語学の分野で最もよく使用される、対数尤度(Log-likelihood)を用いて抽出してみましょう。

表4. シャーロック・ホームズ」シリーズ・コーパスの語を特徴度(対数尤度比)で並べ替えたレンマ頻度表 1〜5位
特徴度(対数尤度比)
1 24,384 23639.966 be
2 14,977 10697.201 i
3 12,051 10065.312 have
4 8,364 5479.372 you
5 2,507 4699.633 holmes

 上位はやはり、単純に頻度の高い機能語で占められていますが、2位と4位に I, you といった人称代名詞が特徴として表れています。語彙表としては興味の範囲外ゆえ深くは立ち入りませんが、I や you といった人称代名詞が一般の書き言葉よりも多く使用されているのは、今回分析しているデータが小説であるため、話し言葉として登場人物のセリフが多く含まれることが理由として考えられます。

 そんな中、5位にシリーズ主人公の名前が登場します。ホームズが主人公のシリーズなのですから、一般的な書き言葉と比較して、名前が頻出するのは容易に推測できます。人名とはいえ、「通常のテキストより顕著に出現する語」の好例でしょう。

表5. シャーロック・ホームズ」シリーズ・コーパスの語を特徴度(対数尤度比)で並べ替えたレンマ頻度表 150〜159位
特徴度(対数尤度比)
150 156 170.149 affair
151 250 167.711 hardly
152 212 164.918 murder
153 326 163.145 return
154 273 162.682 fear
155 116 161.939 visitor
156 449 161.564 name
157 271 161.555 lead
158 372 161.427 clear
159 127 161.013 servant

 特徴度を基準に並べ替えて、基礎語彙と思われるものを除いていくと、case(62位), crime(90位), murder(152位), arrest(207位), detective(291位), detail(421位)といった推理小説と聞いて我々が頭に浮かべそうな単語、cigar(242位), pipe(244位), baker[8](245位)といった「ホームズ」シリーズならではの語、cab(108位), servant(159位), telegram(192位)といった時代・文化背景を反映している語など、シリーズを読む上で重要となる語を網羅することができます。

 特徴度が高いということは、一般のテキストより高頻度で出会う単語ということですから、一般的な英語の学習者で、これから「シャーロック・ホームズ」シリーズに挑戦するという人にとって、これらは優先的に覚えるべき単語と言っていいでしょう。

 

 6  まと

 前回と今回の2回で、コーパスの言語教育への応用として、教育語彙表を取り上げました。「シャーロック・ホームズ」シリーズを使用し、実際に語彙表を作成する過程を紹介しましたが、お楽しみいただけましたでしょうか。語彙表作成は最も基本的なコーパス利用法の一つですが、語彙表のような基礎データをもとに、現在も様々な研究・教材開発などが行われています。読者の皆様が、コーパスの教育への応用に興味を持っていただける一助となれば幸いです。

 

〈参考文献〉

Hunston, S. (2002). Corpora in Applied Linguistics. Cambridge: Cambridge University Press.

Someya, Y. (1998). English Lemma List (ver. 2). Retrieved on July 5th, 2015, from http://www.lexically.net/downloads/version4/html/index.html?proc_wordlistlemmamatch_list.htm

石川慎一郎 (2008). 『英語コーパスと言語教育』. 東京: 大修館書店.

 

 

〈著者紹介〉

金田 拓(かねた たく)

帝京科学大学総合教育センター助教、麗澤大学非常勤講師。専門はコーパス言語学、第二言語習得、辞書学。英作文時の辞書使用行動や、辞書を使用した英作文の特徴、シチュエーション・コメディを使用した外国語教授法に関心がある。執筆に参加した辞書・書籍に『エースクラウン英和辞典』(三省堂)、『Play On リスニング徹底演習 入試編1』、『Play On リスニング徹底演習 入試編2』(以上、数研出版)、『LINKS 1500』(金星堂)などがある。

 

 


〈注〉

[1] https://scn.jkn21.com/~percinfo/index_j.html

[5] 人称代名詞の I ですが、語彙表作成の際、大文字・小文字を小文字に統一しているため、小文字で出力されています。そのほか、London などの固有名についても同様です。

[6] down には、副詞、前置詞、動詞などの用法がまとめられています。その下の hand も、名詞と動詞の両方の用法が含まれます。本論の範疇外なので詳細には立ち入りませんが、品詞ごとの内訳が知りたい場合、Tagger と呼ばれるプログラムで品詞タグを付与する必要があります。

[7] 「顕著に出現する語」の反対に、「顕著に出現しない語(当該テキスト内で、通常より出現の少ない語)」も分析上発生しますが、今回は語彙表作成という観点から触れていません。

[8] Baker Street はホームズの下宿先がある通りの名称。


 

 

関連書籍
『<コーパス活用> 英語基本語を使いこなす ――[形容詞・副詞編]』
『<コーパス活用> 英語基本語を使いこなす ――[動詞・助動詞編]』

キーワードで書籍検索
コーパス corpus 教育 語彙 基本 語彙 第二言語習得 辞書学

▲ページトップに戻る

複写について プライバシーポリシー お問い合わせ

Copyright(C)Kenkyusha Co., Ltd. All Rights Reserved.