“情報化時代”に追いつけるか? 
審議が進む「新常用漢字表(仮)」

第1部 漢字小委員会の考え方と審議状況
第2回 審議に使われた多くの頻度調査



どのようにして文字使用の実態を把握するのか

 前回、常用漢字表の目的は〈一般の社会生活において、現代の国語を書き表す場合の漢字使用の目安〉だと書いた。よく誤解されるが、常用漢字表は手紙や日記、メモなどの個人的な文書、小説や歌などの芸術表現、アカデミックな専門分野などは対象外だ。では何が対象かというと、よく説明に使われるのが「広場の言葉」という言い方。外からは見えない建物の中などでなく、人々が集まるオープンな「広場」、そんな場所でコミュニケーションをする際に使う共通の漢字。私なりに言えば「最大公約数」という言い方になろうが、その「目安」を規定したのが常用漢字表だ。

 前回で述べたような「書記環境の大きな変化」とは、まさにこの「広場」の質的な変化を意味するからこそ常用漢字表は改定されようとしている。では具体的にどのように変化したのか? それを科学的なデータとして把握できなければ、どのように改定するかという議論もできないはずだ。そのためにはとにかく多くのアンテナを、さまざまな方向に立てるしかないだろう。漢字小委員会では以下のような各種調査を利用している。
(A) 凸版印刷で印刷された書籍・月刊誌を対象にした延べ漢字数3330万字規模の『漢字頻度数調査(2)』
(B) 上記に週刊誌を加え、延べ漢字数約5000万字規模とした『漢字頻度数調査 (3)』
(C) 小学校用・中学校用・高等学校用の教科書について調査した『漢字頻度数調査(3)第2部』
(D) 朝日新聞・読売新聞を面ごとに調査した『漢字出現頻度数調査(新聞)』
(E) インターネット上を対象に延べ13億9000万字を調査した『漢字出現頻度数調査(ウェブサイト)』
(F) 『漢字頻度数調査(3)』を対象に前後3文字を取り出し、語の頻度を調べた『出現文字列頻度数調査』
(G) 国語研究所『現代日本語書き言葉均衡コーパス KOTONOHA』のうち書籍の部


かつての表外漢字字体表を反省? 数多くの頻度数調査

 このうち(A)は1997年に調査されたデータで、審議の始めのころによく参考にされた。新常用漢字表のため主に使用されているのは(B)以下の調査だ。こうした調査の使い方に関しては、直近の国語施策である表外漢字字体表(2000年答申)における審議が比較対象として参考になるだろう。

 表外漢字字体表の際、最も大きな問題だったと考えられる点は、作成に使用された調査の主なものは書籍と月刊誌を対象にした2回の調査(その片方が(A)だ)にとどまっており、調査範囲が狭かったことだ。(A)は当時としてはきわめて大規模な調査ではあったが、その中に週刊誌が含まれていない。他に新聞では表外字は略字体にしていることで知られていた朝日新聞が調査されておらず、表外字を康煕字典体にしている読売新聞を調査しただけで、そのデータの使い方も〈表外漢字の字体を調査するということではなく、新聞紙面における表外漢字使用の実態(使用字種とその頻度)を見ること〉[*1] にすぎなかった。教科書についても〈表外漢字の字体としては、いわゆる康煕字典体を原則としている〉[*2] と言うのみで、実際の調査は行なわれなかった[*3]

 このように表外漢字字体表は自ら〈現実の文字使用の実態を踏まえて作成した〉[*4] と言うにはいささか無理がある内容だったと言える。いくら書籍と月刊誌に使用されている字体だからといって、他の異なる分野にも「いわゆる康煕字典体」を規範に採用してよいのか? この点でいまだに疑問が解消できない内容となってしまった。

 では今回の場合はどうか。かつての表外漢字字体表の時代に比べて、実施された調査の内容や種類に格段の違いがある。選定作業に使用されている主な調査は(B)なのだが、ここには週刊誌として週刊文春が加えられている。また今回は(C)として教科書、(D)として朝日・読売の両新聞が加わっている。

 さらに興味をひくのは「情報化時代」にふさわしくWebサイトを対象とした(E)だ。これには2種類あるのだが、そのうち選定に使用されている『ウェブサイトA』は、プロバイダーからインターネット上で配信されたニュース記事、プレスリリース、ブログ記事の提供を受けたものであり、今までのような紙に印刷された文字を対象にしたものとは明らかに違うものだ[*5]

 じつはこれ以外に『ウェブサイトB』として電子掲示板の17億3700万字を対象とした調査も行なったが、アスキーアートで使用された「蠶」などの字までカウントされ、普段まったく目にしない漢字が出現頻度30位以内にランクされる結果となった。皮肉にも、まさに「情報化時代」の漢字使用の実態が明らかにされたわけだが、アスキーアートを「一般の社会生活における漢字使用」に含めるのは異論も多いだろう。こうしたこともあり『ウェブサイトB』は選定作業には採用されず、『ウェブサイトA』だけが対象にされることになった。

 加えて大きなトピックとして、今までの頻度調査はすべて単一の文字レベルでしか頻度を調査していなかったものが、今回は(F)により、前後の3文字を含めた調査をすることで語のレベルでの使用頻度の数値化に成功したことが挙げられる。これによりどういう品詞で使われた場合の頻度が高いのか、特定の熟語で使われた場合の頻度は等々、より使用実態に迫ることが可能になった。たとえば「藤」という字は従来の単一の字を対象とした頻度数調査でなら文句なしに追加候補にできるほど頻度が高い((B)では264位[*6] )。しかしこの(F)の調査により、「葛藤」という用例を除けば、少数の「藤棚」「藤色」等がある以外は「藤原」や「斉藤」といった人名・地名での使用例であり、山のような固有名詞の用例が延々と10ページ以上も続くという使用実態であることがわかった。この調査により、それまでは経験的にしか言えなかった「藤」の使われ方が、科学的なデータで裏づけされたわけだ[*7]

 また6月16日に開催された第23回漢字小委員会において、(G)の資料が新たに提供を開始されたことが報告された。これはかねて国語研究所が開発を進めてきた日本語電子コーパスの一部で、書籍のデータをまとめたもの[*8] 。規模の大きさもさることながら、(A)~(F) のように組版データをそのままソースとするのではなく、偏りが出ないようランダムにサンプル抽出して均衡をとったところに特徴がある[*9] 。ソースをデジタル入力するにあたりXML化されており、(F)よりもずっと長い文字列の調査が可能。現代の言語資料としては究極とさえ言えるのではないか。この調査結果と比較すると、(B)の調査結果と非常によく似ていることが判明し、結果として(B)にあまり偏りがないことが確認できたという。

現在調査されている分野だけで〈一般の社会生活〉をカバーできるのか[*10]

 とはいえ、以上説明したような調査について2つほど疑問がある。まず上記調査がカバーする範囲が出版物とWebサイトに限定され「一般の社会生活」すべてとは言えない問題だ。たとえば2000年答申の表外漢字字体表以来、私は店頭で見かける「飴」や「餅」のパッケージの字体が気になって仕方ないのだが、それらの中では表外漢字字体表が印刷標準字体として定めた伝統的な食偏ではなく(図1右)、三部首許容として許された簡易な方の食偏が多く使われている印象を持っている(図1左)。表外漢字字体表の「前書き」では三部首許容について、現に用いている場合に限って許容しているはずだが[*11] 、印象としては新しい商品でも簡易な部首を使用しているように思える[*12]



図1 2つの食偏
左が常用漢字表の字体に準じた簡易な食偏、右が表外漢字字体表の印刷標準字体に準じた伝統的な食偏。左側の食偏について、表外漢字字体表では現に用いている場合に限って許容している

 日常よく目にする商品のパッケージの字体も、常用漢字表の言う〈一般の社会生活〉に入ることは議論の余地がないだろう。しかし、こうした分野が頻度調査に馴染まないことは認めざるを得ない。それでも、やりやすい分野だけを選んで調査した結果で新常用漢字表を決めてよいのかという疑問はどうしても残る。出版物とWebサイト以外の分野は調査しないというなら、これらだけで規範が決定可能であるという論理的必然性を聞いてみたくなるところだ。

印刷文字の頻度調査だけで文字生活の実態は明らかにできるのか

 次に上記(A)~(F)の頻度調査は、いずれも印刷された文字しか対象にしていない[*13] 。たしかに印刷文字の頻度調査は実施が容易で大量のデータが集めやすい。しかしそれだけで文字使用の全貌は明らかにはできないはずだ。たとえば読み書き能力調査は必須ではないか。

 しかし残念ながらこれは現在に至るまで実施されていない。もともとこの種の調査については、審議の最初から必要性が強調されていた事実がある。たとえば上部組織である国語分科会が、漢字小委員会に対して審議の方針を指示した文書『国語分科会で今後取り組むべき課題について(抜粋)』の中に『「情報化時代に対応する漢字政策の在り方」を検討するに当たっての態度・方針』(以下、「態度・方針」)という項目があるが、そこでは次のような文言がある。
(2) 実態調査については、漢字の頻度数調査だけでなく、読み書き能力調査、固有名詞(特に、人名・地名)の調査も実施する必要がある。(後略)[*14]


 加えて諮問理由では「漢字を手で書くことの位置づけの再検討」が挙げられていることも調査の必要性の根拠として挙げられる[*15]

 漢字小委員会が読み書き能力調査を軽視しているとは思っていない。上記「態度・方針」を承ける形で第2回に配布された文書『漢字小委員会における論点の整理』では[*16] 、「3)必要な調査について」という項目で、〈どのくらい漢字が書けるかの調査が必要である〉という指摘が見られる。この部分は文言を少しずつ変えて以降の文書にも受け継がれている。審議の席での言及として第18回をはじめ、最近でも何回かその必要性について発言が見られる[*17]

 実際に文化庁の担当官に聞いたところ、委員の出身母体である新聞社や印刷会社など、比較的文字に関心の高いはずの会社の新入社員を対象にして実施する構想は一応あるようだ[*18] 。ただし本当に実施されたとしても今の時期に結果が出ていないことから、実施されたとしても2009年始めに予定されている試案(これについては第4回で詳述)に反映できるのかといった点では疑問符がつく。また、別の機会に同じ質問を前田富祺主査に投げかけてみたところ、漢字ワーキンググループで検討はしたが、個人情報に対する国民感情の変化を理由に実施が難しいこと、そして頻度調査の規模が大きくなったことにより、かえってなまじの規模の読み書き能力調査ではこれと補完できるようなものにならないのではとの回答があった。素直に納得はできないが、前出「態度・方針」に実施が指示されている以上、実施できないとすればその理由も答申案に盛り込むのが筋ではないだろうか。

 要望ついでに書いてしまうと、上記調査をWebで公開することを強く希望したい。現在、議事録や配布資料が文化庁のサイトで公開されていること自体は高く評価しなければならない。この原稿もその恩恵に浴しつつ書かれた。しかし加えてこれらの調査も公開することで、追加される漢字の正当性を明確にできる。新常用漢字表の透明性を確保する上でも不可欠ではないだろうか。これらの調査の規模や画期的な内容から、学術上からも意義のあることと思う。デジタルプリプレスで製作されているからにはPDF化も容易なはず。文化庁にはぜひ検討していただきたい。

INTERNET Watch ホームページ

http://internet.watch.impress.co.jp/cda/jouyou/2008/06/20/20005.html