実践で学ぶ　コーパス活用術 24 | 研究社 WEB マガジン Lingua リンガ

リレー連載

　実践で学ぶ　 コーパス活用術

金田　拓

教育語彙表の変遷に見る、
コーパスと教育の接点

１	教育語彙表とは

　「どの単語を覚えればいいか」――大学受験のため、あるいは TOEIC など検定試験のため、覚えるべき単語について悩んだり、単語帳を買って勉強するとき、この単語帳は一体どのようにして作られたのか、ふと思いを馳せてみたことはあるでしょうか。

　学習指導要領の中でも明確な言及があることからも分かりますが、語彙は間違いなく、外国語能力を形成する根幹の一つです。どのような語を学習すべき語とするかは教育語彙表に基づいていることが多く、英語教育において大変重要ですが、この教育語彙表の作成に、コーパスは深く関わっています。今回はそんな、最も基本的な外国語教材の一つである、教育語彙表とコーパスのお話です。

２	黎明期の教育語彙表

　教育語彙表の先駆けとして知られるのは、アメリカの心理学者 Thorndike による教育語彙表です。Thorndike は1,810万語のコーパスから、計2万語を連ねる基本語リストを作成しました。コーパスが電子化され、検索が容易となった現代でこそ、1,810万語はそこまで莫大な量には思えないかもしれませんが（連載第2・3回で紹介された BNC が1億語ですので、その10分の1です）、機械を使わずに人間が行う作業としては、気が遠くなるような量です。いずれにせよ、Thorndike の語彙表は、生起頻度とレンジ[1] を基軸として作成された、初のものと呼んで良いでしょう。

　同時期に作成されたものに、英語教育学者である Harold E. Palmer による語彙表があります。これはコーパスが直接関わっているわけではないのですが、語彙表の歴史を紐解く上で、必ず触れておかなければならないものの一つです。語彙表の開発には伝統的に、Thorndike のように客観的データをあくまで優先する立場と、頻度などを参考にしつつも、最終的には教師の主観で語を選ぼうという立場があるのですが、英語教育学の偉人であった Palmer がとったのは後者の立場でした。Palmer は教育的語彙統制（vocabulary control）という観点から、日常的に必要となる3,000語をもっぱら教師の主観で選定し、完成した語彙表は英文教材などに活用されました。Palmer の語彙選定は、1930年および1931年に報告書として公表されています。

　Palmer の語彙表は、後に500万語のデータを基として Michael West の手により作成された General Service List（GSL）に受け継がれていくことになります。2,000語から成る GSL の有効性は英語学習において広く認識され、現在でも基準語彙表の一つとして使用されています。GSL はまた、Longman Dictionary of Contemporary English の「定義語彙」[2] の原型ともなりました。GSL は英語において最頻出の2,000語をまとめた語彙表であるというだけでなく、学習効果も視野に入れて作成された教育語彙表であり、リスト自体の古さなどの批判はあるものの、英文における単語のカバー率は現在においても高く、安定した語彙表であるという評価を得ています。

　このように、教育語彙表はデータを参照しながらも、その多くが「教育上必要な語」「生活基本用語」など、教師の直感・主観を優先する立場で開発されてきました。たとえば、日本の大学英語教育学会（JACET）が開発した JACET 4000（1993）は、Kučera & Francis（1967）, Caroll et al.（1971）, LDOCE の定義語彙などから候補語を集めた上で、最後は委員会の協議によって加除の作業を行い完成したとされています（望月、2003）。こうした主観的な語彙表は、リストの教育的妥当性を高めるという意味では効果的でしたが、客観的なデータに立脚しているとは必ずしも言えず、データ処理の客観性が課題として指摘されていました。

３	コーパスを利用した語彙表の開発

　順番は前後しますが、1964年に Brown コーパスが完成し、電子的な大量のデータ処理が可能になると、コーパスデータに基づく語彙表の開発が一躍盛んになりました。Brown コーパスに基づいた Kučera & Francis（1982）や、LOB コーパスに基づく Hofland & Johansson（1982）などが代表的です。後には BNC おける高頻度の語彙をまとめた Kilgarriff の British National Corpus Frequency Lists（Kilgarriff, 1996）、アカデミックな英文を読んだり書いたりするときに必須となる「学術的語彙表」として知られる A New Academic Word List（Coxhead, 2000）など、外国語教育学の発展とともに、多様なリストが作成されてきました。

表1.　主な教育語彙表

名称	規模／特徴	作成者	作成年
The Teacher's Word Book	3万語教育語彙表の先駆け	Thorndike	1921
Second Interim Report on Vocabulary Selection, The IRET Standard English Vocabulary ほか	3,000語教師の主観により選定された教育語彙表	Palmer	1931
General Service List	2,284語の headwords から成る、頻度を基に作成された教育語彙表	West	1953
Frequency Analysis of English Usage	Brown コーパスに基づいた英語100万語に観測される頻度のまとめ	Kučera & Francis	1982
Word Frequencies in British and American English	LOB コーパスと Brown コーパスを用いて行われた、英国・米国における語彙頻度調査表	Hofland & Johansson	1982
British National Corpus Frequency Lists	1億語の BNC 中、800回以上出現する6,318語をまとめた語彙表	Kilgarriff	1996
A New Academic Word List	570語の word families[3] から成る、大学などで扱う学術的語彙	Coxhead	2000
JACET 8000	8,000語日本人英語学習者向けに開発された教育語彙表	大学英語教育学会	2003

　コーパスを使用して開発された教育語彙表の中で、特に日本人英語学習者向けに作られた代表的なものに、大学英語教育学会が刊行する公式の語彙表である JACET 8000があります。[4]　この語彙表は、1981年に作成された「大学英語教育学会基本語リスト JACET 4000」の流れを汲む第4版で、2003年に作成されたものです。完成以来、入試問題作成の語彙確認や、各種教材開発などに利用され、さらに多くの大学生に広く使われてきました。

　JACET 8000が語彙表として特殊なのは、母語話者の言語使用を集めたコーパスから得た頻度を単純に使用するのでなく、日本人英語学習者にとって重要と考えられるデータを収集し、母語話者のデータとの比較を基に順位補正を行っている点です。ベースとなったのは、イギリス英語1億語から成る BNC ですが、その BNC に基づいた頻度表と、大学英語教育学会が独自に開発した JACET 8000サブコーパス（中学校・高校の検定英語教科書、雑誌、新聞、映画、児童文学、BBC や CNN といった英語ニュース番組、センター試験や TOEIC といった検定試験などのコーパス）とを比較検討することで、日本人英語学習者が優先して学習する必要のありそうな単語・そうでない単語を対数尤度[5] で客観的に選別し、組み込んだ語彙表となっています。選別は主観的判断を含めず客観的データのみで行われ、日本人学習者のための語彙表という教育的配慮から、高校英語教科書コーパス頻出の語が優先的に選定されています。たとえば、Kilgarriff（1996）で選外だった campus という語は、日本の学校環境に関連することを鑑み、JACET 8000では5,000語レベルに配置されています。また、基幹となっているデータの時代には一般的ではなかったものの、現在において有用とされる単語（email など）が、補遺（supplement）として作成されています。

　このようにして作成された JACET 8000は、現在でもなお、日本人英語学習者にとって最も信頼性の高い教育語彙表という評価を受けています。

４

まとめ

　このように大規模コーパスの利用によって、教育語彙表作成における信頼性は大いに向上しました。しかし、そこから得られる結果を無条件にそのまま言語教育に応用できるわけではありません。たとえば書き言葉コーパスの場合、通例、定冠詞の the が全体の5%を占め頻度1位になることが知られていますが、それを学習者が覚えるべき最初の1語が the である、という意味に解釈することはできないでしょう。現在では、大規模コーパスの客観的頻度データと、かつては主観的に行われていた語彙精選、つまり語の加除の作業をいかに合理的に組み合わせ、質の高いものを作るかが課題となっています (投野、2005)。

　今回は、基礎編として、教育語彙表を通し、教材へと反映されたコーパス利用に触れました。次回は実践編として、実際に収集可能なデータを用いて、特定のニーズに合致した語彙表の作成過程をお見せしたいと思います。

〈参考文献〉

Caroll, J. N., P. Davies, and B. Richman (Eds) (1971). The American Heritage Word Frequency Book. New York: American Heritage Publishing.

Coxhead, A. (2000). “A New Academic Word List.” TESOL Quarterly, 34(2), 213-38.

Hofland, K., and S. Johansson (1982). Word Frequencies in British and American English. Bergen: Norwegian Computing Centre for the Humanities.

Kilgarriff, A. (1996). “British National Corpus Frequency Lists.” Available online at http://www.kilgarriff.co.uk/bnc-readme.html

Kučera, H., and W. N. Francis (1967). Computational Analysis of Present-day American English. Providence, RI: Brown University Press.

Kučera, H., and W. N. Francis (1982). Frequency Analysis of English Usage. Boston: Houghton Mifflin.

Palmer, H. E. (1930). Interim Report on Vocabulary Selection. Tokyo: The Institute for Research in English Teaching.

Palmer, H. E. (1931). Second Interim Report on Vocabulary Selection. Tokyo: The Institute for Research in English Teaching.

大学英語教育学会基本語改定委員会 (2003). 『大学英語教育学会基本語リスト』. 東京: 大学英語教育学会.

投野由紀夫 (2005). 「教材とコーパス」『立命館言語文化研究』16巻 4号, 157-68.

望月正道 (2003). 「JACET8000: JACET4000との比較」千葉大学外国語センター『言語文化論評』12, 51-55.

〈著者紹介〉

金田　拓（かねた　たく）

帝京科学大学総合教育センター助教、麗澤大学非常勤講師。専門はコーパス言語学、第二言語習得、辞書学。英作文時の辞書使用行動や、辞書を使用した英作文の特徴、シチュエーション・コメディを使用した外国語教授法に関心がある。執筆に参加した辞書・書籍に『エースクラウン英和辞典』（三省堂）、『Play On リスニング徹底演習入試編1』、『Play On リスニング徹底演習入試編2』（以上、数研出版）、『LINKS 1500』（金星堂）などがある。

〈注〉

[1] レンジとは、ある単語が色々な文章や場面で幅広く使用されているかどうかを表す指標のことです。たとえば、同じコーパス内で100回出現する単語でも、1つの文書で100回使用されて他の文書では使用されない単語と、100の文書で1回ずつ使用される単語では、学習における重要度が異なります。区別をつけるためには頻度だけでなく、「使用の幅広さ」を表すレンジの概念が必要となります。

[2] 定義語彙とは、辞書内に掲載する見出し語を定義するのに用いられる、事前に決められた比較的少量の語彙表のことを指します。Longman Dictionary of Contemporary English（『ロングマン現代英英辞典』）は、収録されている全ての見出し語を The Longman Defining Vocabulary と呼ばれる約2,000語の定義語彙のみで記述しています。

[3] word family とは単語を数えるのに使う単位で、lemma（辞書の見出し語）と、文法によって変化する形に、「派生語」を含めたものです。たとえば happy という見出し語は、lemma として見た場合、happier, happiest という比較級を内包しますが、word family で happy を扱う場合には、happily, happiness, unhappy といった「派生語」も happy という word family の一部とみなして数えます。

[4] JACET 8000のうち、上位4,000語、および1,000語レベルに相当する plus 250のリストをダウンロードすることができます。
http://www.j-varg.sakura.ne.jp/download/

[5] 連載第6回に説明がありますので、ご参照ください。