今回は、日本人の英作文のデータを含む代表的な学習者コーパスを紹介し、後半では具体的なデータ分析例をあげ、学習者コーパスから日本人学習者の英語にどのような傾向を見出すことができるのかを説明したいと思います。
学習者コーパスは世界中で数多く構築されていますが、日本人英語教員や研究者に最も有用であるという点とインターネット上にて無料で使用可能である(ICLE を除く)との点から、以下の5つに絞ってご紹介します。
http://scn.jkn21.com/~jefll03/ [1]
JEFLL コーパスは、日本人英語学習者の英文をデータ化した学習者コーパスとして老舗と言えます。10年以上の歳月を重ね、日本全国の中学1年生から高校3年生を対象に収集された、統一されたトピックについての英作文のデータから構築されています。JEFLL が開発された当時、国外では ICLE が先行する学習者コーパスとして存在しましたが、そちらは異なる母語からの影響を比較することを目的としたものでした。対して、JEFLL は対象を日本人に限定し、中学生から高校生という習熟度の異なる集団からデータを収集し、日本人英語学習者の発達過程を調べることを目的に構築されました。 諸外国の学習者コーパスが大学生以上の中級者から上級者の英語を対象にするのに対し、JEFLL は日本人英語学習者の初級者から中級者を対象とすることが注目すべき点でしょう。日本の中学や高校で英語を教える先生方にとっては、自分が教える生徒の英語の特徴がその生徒特有のものなのか、それとも同じような習熟度の日本人英語学習者に共通するものなのかを調べることができるというのが、JEFLL の大きな利点です。 JEFLL の英作文は、教室内で20分間辞書なしの環境で実施された自由作文です。トピックは6種類あり、どれも中高生には馴染みがある作文しやすいものです。JEFLL のデータはタグと呼ばれる品詞コードが付記されている点も見逃せません。語句検索だけでなく、品詞による検索を可能とすることで、より多様な分析が可能となります。 JEFLL は日本国外の学習者と比較可能にするため、後述する ICCI へと発展していきました。JEFLL は上記ウェブサイトにて無料で公開されています。
http://sgr.gsid.nagoya-u.ac.jp/wordpress/?page_id=17
NICE は JEFLL コーパスより後発の日本人英語学習者コーパスではありますが、それまで構築されていた学習者コーパスに足りない点を埋めるべく様々な工夫がなされています。JEFLL が中高生を対象としたのに対し、NICE は大学生・大学院生という中上級者を対象にしています。世界各国で構築された学習者コーパスが同年代の大学生・大学院生を対象とすることが多く、諸外国の英語学習者と比べて日本人学習者がどのような英語表現をするのかを分析するという目的からでしょう。 NICE では学習者のプロフィールが細部まで記述され、日本国内で英語の習熟度を計るテストとして一般的な TOEIC や TOEFL のスコアが学習者のプロフィール内に記されています。すなわち、学習者コーパス内の情報だけでなく、他のテストの評価とも比べながら学習者の表現を分析することが可能なのです。NICE は、TOEFL-TWE(Test of Written English)のトピックを参考に、11種類の作文トピックを設定しています。作文は1時間以内に辞書などの参考書を使用せずに書かれています。 NICE で最も特徴的なのは、母語話者による添削文が付与されている点です。学習者コーパスの分析においては、学習者がどのような間違いをするのかを調べることも重要です。学習者コーパスの中には、コーパスを作成する研究者が間違いを種別し、タグ付けを試みるものがあります。[2] ただし、間違いがスペルなど明らかなものは判断しやすいですが、学習者がどのような経緯からその間違いに至ったかは学習者本人に聞かなければ分からないことがあります。NICE では、母語話者による添削文を併記するのみで、間違いの分析はコーパスデータを読み取る研究者たちに委ねられています。 NICE のデータは上記ウェブサイトからダウンロード可能です。注意すべき点は JEFLL などと異なり、ウェブ上で検索したい語句を入力するシステムではないことです。文法解析(parsing)や品詞タグが付記されたテキストデータを NICE ウェブサイトから入手し、コンコーダンサーと呼ばれるコーパス分析ソフトを使って分析することになります。[3] 私たち研究者にとっては、テキストデータをダウンロードし自身のコンピューターで分析するほうがウェブ上の検索よりも細かに分析できて実用的なのですが、コーパス分析の経験がない方には少し時間が必要かもしれません。とはいえ、その点を差し引いても NICE の有用性は高いものです。
https://www.uclouvain.be/en-277586.html
ICLE は1冊の研究書とともに一躍有名になりました。Learner English on Computer(Granger 1998)[4] は ICLE を使用した研究論文だけでなく、学習者コーパスの設計基準と対照中間言語分析(Contrastive Interlanguage Analysis)という分析理論を提示しました。これらは以降の学習者コーパス構築に多大な影響を与え、現在までの学習者コーパス構築と研究はこの本に書かれた内容を基礎に発展しています。 ICLE は対照中間言語分析を目的として構築されました。この理論は学習者コーパスの研究を理解するのに重要な考えです。対照中間言語分析には2種の比較があります。
I. 母語話者の言語と学習者の言語(=中間言語)との対比
上記図を用いて2つの比較をもう少し詳しく説明しましょう。I の比較においては、上の黄色の円が示す日本人英語学習者のコーパスデータと図右下のネイティブスピーカーのコーパスデータを比較することで、学習者特有の傾向や表現を発見することができます。II の比較では、日本人学習者のコーパスデータは異なる母語を持つ英語学習者、すなわち図左下にある非英語話者学習者のコーパスデータと対比されます。この比較によって、日本人英語学習者の傾向は日本人特有のものなのか、もしくは他の母語の英語学習者にも共通する傾向なのかを知ることができます。 ICLE の最大の特徴は、16の異なる母語話者から構成されるサブコーパスの多様性です。そして、学習者コーパスとの対比を考え、類似したトピックで母語話者が書いた作文で構成されたネイティブスピーカーのコーパス(LOCNESS: Louvain Corpus of Native English Essays)を用意していることです。母語話者コーパスは NICE や ICNALE にも準備されています。この点においても ICLE が後発の学習者コーパスに与えた影響は大きいことが分かります。 ICLE は無料ではなく冊子に CD-ROM が添付され販売されています。CD-ROM には学習者コーパスのデータを検索したり分析したりするためのコンコーダンサーが収録されています。異なる母語の英語学習者の比較と分析を行うのに、ICLE が現在でも代表的な学習者コーパスのひとつであることは間違いありません。
http://language.sakura.ne.jp/icnale/index.html
ICLE がヨーロッパ圏の学習者を中心にデータを収集したものであるとすれば、対する ICNALE はアジア圏の学習者を中心に収集した学習者コーパスです。日本人英語教員や研究者には、文化面や言語面で比較的ヨーロッパ圏よりも近いアジアの学習者と比較するほうがより細やかな違いが観察できるでしょう。 NICE が学習者の習熟度を示すため TOEIC や TOEFL のスコアを使用したように、ICNALE は CEFR [5] というヨーロッパで広く導入されている外国語のコミュニケーション能力を示す国際標準規格を取り入れています。さらに、ICNALE は学習者コーパス設計基準をかなり厳密に順守しながら、詳細な学習者のプロフィールを記録しています。このように新しい評価基準を加えながらも、学習者コーパスとしてのデザインがしっかりとしたものであり、アジアの学習者に目を向けたという独自性が ICNALE を特徴づけるものとなっています。 ICNALE は上の検索画面からも確認できるように、作文のトピックを「アルバイト」(PTJ: part-time job)と「喫煙」(SMK: smoking)に限定しています。これは NICE に11のトピックがあるのに比べると、かなり限られたトピック数です。学習者の作文に表れる単語や表現はトピックに左右されやすく、多様なトピックの作文で構成された学習者コーパスでは、頻出する単語が多様化します。ICNALE のトピック設定においては、限られた数のデータからできる限り学習者の傾向が表れやすくする工夫がなされたのだと予測できます。 ICNALE はインターネット上にて無料で利用できます。ICNALE の検索ボックスでは、コンコーダンスラインの抽出やコロケーションの検索、ネイティブスピーカーや異なる母語の学習者との語彙使用の比較など幅広い分析が可能です。ネット上で検索ができる手軽さと充分に配慮されたデザインも ICNALE の特徴と言えます。
http://cblle.tufs.ac.jp/llc/icci/
ICCI は前述(1)の JEFLL コーパスを基に、データの対象をアジア・中東・ヨーロッパの学習者に広げ、国際的な学習者コーパスへと発展させたものです。JEFLL と同様に ICCI は基本理念として、英語初級者から中級者の分析を目的として構築されており、その点が他の国際的なコーパスと異なる最大の特徴となっています。欧米諸国では、英語圏に近いため英語母語話者や英語圏の文化に触れる機会がアジアや中東諸国より多く、英語学習者の中に中上級者が占める割合が大きいです。対して、言語の特徴が大きく異なるアジアや中東諸国では、英語学習者の中心となる初中級者の特徴を理解することが英語教育において重要となります。ICCI は英語学習者の分析と研究はもちろんのこと、その結果を初中級者の教育に役立てようとする意図が感じられます。中国や台湾の学習者からの作文をサブデータとして ICCI に組み込んだのは、JEFLL から始まった日本人英語学習者との比較を考えてのものでしょう。ICCI は JEFLL と比較可能とするため、共通のトピックについて書かれた作文をデータとして収集しています。 ICCI の素晴らしさはその計画性だけに留まりません。上記の検索画面にあるようなウェブ上の検索ボックスを提供するのと同時に、すべての学習者の作文データと学習者のプロファイルがダウンロード可能となっています。NICE の項にて、全データをダウンロードして分析できることは、研究者にとってより詳細な検索を可能とする一方、コーパス分析に不慣れな英語教員には難しく感じるのは否めないと述べました。英語教員と研究者の双方にとって利便性のある情報提供の仕方も ICCI の特徴のひとつと言えます。加えて、ICCI は世界各国の学習者コーパスの研究チームによる相互協力によって構築されたコーパスです。今後、プロジェクトが発展するにつれて、ICCI がより充実したものになる可能性が大いに秘められています。
この節では実際に学習者コーパスを分析した私の研究を紹介することで、学習者コーパスの分析で英語学習者のどのような傾向が分かるのかを実例にて説明したいと思います。[6] 『英語学習者コーパス活用ハンドブック』[7] にも、英語学習者コーパスを用いた研究が多数紹介されています。こちらもご参照ください。 私は日本人英語学習者の前置詞句の使用に興味がありました。ICLE から日本人学習者によるサブコーパスを分析し、その結果を英語母語話者の作文で構成されたネイティブスピーカーのコーパスである LOCNESS と比較を行いました。対照中間言語分析のひとつである中間言語と母語との比較を目的に、学習者コーパスから前置詞 in を含む高頻度の句を抽出し分析しました。
表 1. 日本人英語学習者コーパスにおける in を含む高頻度句
ICLE の日本人英語学習者コーパスから二語で構成された句(two-word cluster)、三語の句(three-word cluster)、四語の句(four-word cluster)を抽出しました。その高頻度上位20の中に language IN, language IN the, language IN the world が含まれていました。さらに IN the と IN the world も上位20以内に入るほど高頻度の句として発見されました。これは何を意味しているのでしょう。日本人が language in the world という固定された表現を繰り返して用いているのではないかという予測ができます。実際に日本人英語学習者コーパスの中で in the world を含むコンコーダンスラインを抽出してみました。
日本人学習者は in the world の前に language や people を好んで使うようです。対して、英語母語話者はどのように in the world の句を使うのでしょうか? 母語話者のコーパスにおいても in the world は二番目に高頻度の三連語句でした。
英語母語話者は the best in the world や the happiest man in the world に見られるように最上級と一緒に in the world を用いることが多いようです。そして、anywhere, everything, nothing などを強調するのにも in the world が使われています。in the world という句は日本人学習者も母語話者も高頻度で使用しながらも、前につながる句の構成が異なるようです。 下記表2は日本人英語学習者の英作文に頻出する in the world を含む句構成パターンです。in the world という句をキーワードとすると、その句の前に people や language という名詞がコロケーションとして共起することが多いです。これはネイティブスピーカーが最上級とともに使用する傾向と異なります。さらに、その people / language in the world という句には many, most, common, official といった「大量」や「共通」を意味する形容詞が先行します。つまり、日本人英語学習者は in the world という句を、「普及」という意味において、many などの形容詞や people, language などの名詞とともに使用する傾向があると言えます。学習者の表現を豊かにするためには、このように、表現自体は文法的には間違いでなくても母語話者と使い方が異なることがあると気づかせ、母語話者がその表現をどのように使っているのかを教えるべきでしょう。
表 2. 日本人英語学習者コーパスにおける in the world を含むパターン
他にも、日本人英語学習者コーパスと母語話者のものとで in を含む高頻度の四連語句を調べてみると、下記表3のように日本人学習者は作文トピックにのみ関連した句(topic-specific)を高頻度で使用するのに対し、母語話者の作文にはトピックに依存しない一般的な句(topic-unspecific)も使用されているようです。このことから学習者コーパスの構築には作文トピックの選定がデータに影響を与えることが分かります。
表 3. 日本人英語学習者コーパスとネイティブスピーカーコーパスにおける in を含む句の違い
最後に、学習者コーパスを用いた研究では、学習者の表現は母語話者に比べて限定されているという結論になる傾向があります。それは自明の事実なのですが、そこからさらに踏み込んだ学習者の傾向を見出し、学習者にとって有益となる情報を導き出すことが学習者コーパス研究の課題と言えるでしょう。
この文章を締めくくるにあたり、教員をしている人たちが実践可能な学習者コーパス利用についての私案を述べたいと思います。研究に使用できるレベルの学習者コーパスを構築するのは容易ではありません。データを一般公開し、研究に使用できるようにするには、これまで見てきたように厳密なコーパス設計基準が必要となります。しかし、教員個人が教える生徒や学生の上達度を計るデータとしてならば、ある程度緩やかな基準で作られたものでも充分有用なデータとなりえます。自分専用の学習者コーパスを作るのです。 私は大学にて英作文の授業を担当しておりますが、学生にはマイクロソフトワードで作成した作文を提示するように指示しています。そして、学生が提出した作文を学年単位でデータベース化し、さらに一人ひとりの学生ごとにフォルダを作成して保存します。学生が卒業する頃には、学年ごとのデータが集まると同時に、一人の学生が4年間を通して上達してきた過程が作文データとして残ります。このデータベースは、学習者コーパスの設計基準に照らしてみると、タスクの設定管理が厳密なものではありませんが、学年全体のある程度の傾向や一人の学生の上達ぶりを計る目安とはなりえます。そこで見られた傾向を学習者コーパスと比べることで何かしら指導のヒントを得ることができるのではないでしょうか。このような学習記録代わりのポートフォリオとしての学習者コーパス作りを通して、学習者コーパスへの理解を深めることが可能でしょう。 * * * 前回と今回の連載にて学習者コーパスについて、その特徴と代表的なコーパス、そして具体的な分析例を紹介してきました。学習者コーパスは一般コーパスに比べて、まだ歴史が浅く、これから発達していくツールです。構築が目的であった学習者コーパス黎明期から、学習者の特徴を見つけ出す分析方法を精査する時代へと移るでしょう。これまで知られていない日本人の英語を上達させるヒントが、学習者コーパスの中に潜んでいるかもしれません。
〈注〉 [1] 以降、紹介されるウェブサイトのアドレスは2014年1月に確認したものとなります。 [2] International Corpus of Learner English Version 2 マニュアル (2009) pp. 43-44. [3] 無料のコンコーダンサーとしては Laurence Anthony 氏が開発した AntConc があります(http://www.antlab.sci.waseda.ac.jp/software.html)。 [4] Granger, Sylviane (ed.) (1998) Learner English on Computer. Harlow: Longman.(和訳『英語学習者コーパス入門――SLA とコーパス言語学の出会い』2008. 研究社) [5] Common European Framework of Reference for Languages「ヨーロッパ(言語)共通参照枠」 [6] Kamakura, Y. (2012) ‘What do Learners Say?―Phraseological Account of Learners' Language.’ Proceedings of The JACET 51st International Convention. 345-50. [7] 投野由紀夫他(2013)『英語学習者コーパス活用ハンドブック』大修館書店。 [8] 「コリゲーション」とは文法的な共起関係やつながりに関するコロケーションのことです。
|