村上柾勝「シェークスピアは誰ですか? 計量文献学の世界」文春新書
本書では、文章の数量的な性質の中から、個人を識別するのに役立つ「文章の指紋」ともいうべき性質を探すことによって、作者の推定を試みた内外の研究を紹介した。
――おわりに著者を推定するということから始まった文章の計量分析の研究は一層の広がりを見せ、現在では文章の数量的性質の変化から、著作年や、著作順序を推定したり、さらには思想の変化や精神状態の変化を探るという方向にも進んでいる。
――はじめに
【どんな本?】
計量推計学は、文章の特徴を統計的な手法で数値化し、著者の真贋や著作年などを調べる技術である。その数値化も、着目点や技法は様々だし、文献の性質により使える技法や問題点は異なる。例えば英語は単語が分かれているが、日本語は分かれていないので、形態素解析が必要だ。
本書は計量文献学の歴史や手法をザックリと語るとともに、シェークスピアの正体や源氏物語の著者など読者に馴染みの深い事例を披露し、「計量文献学とは何をして何ができるか」を紹介する、一般向けの解説書である。
【いつ出たの?分量は?読みやすい?】
2004年10月20日第1刷発行。新書で縦一段組み本文約185頁。9ポイント42字×16行×185頁=約124,320字、400字詰め原稿用紙で約311枚。文庫でも薄い部類。
文章はこなれていて親しみやすい。内容も比較的にわかりやすい。一部に数式も出てくるが、加減乗除と分数までだし、なんなら読み飛ばしても構わない。
【構成は?】
各章はほぼ独立しているので、気になった所だけを拾い読みしてもいい。
クリックで詳細表示
- はじめに
- 1 かい人21面相の脅迫状と文体分析
グリコ・森永事件/書き手は二人?/作家・内田康夫氏の推理/脅迫状・挑戦状の漢字含有率/かい人21面相の文章の模倣 - 2 筆跡鑑定にかわる「文章の指紋」
筆跡鑑定がむずかしくなった/文体から書き手を推定する/「パウロの書簡」をめぐる古くからの疑問/文章の指紋/この三人の作家の正体は?/一人三人作家/三つのペンネームによる文章の共通点 読店の付け方
- 3 文学作品と哲学書の著者を推定する
- 1 シェークスピアは誰か?
Did he exist or did'nt be?/シェークスピアの候補たち/単語の長さの分析から/シェークスピア別人説その後 - 2 プラトンの『第七書簡』は贋作か?
贋作説の背景/二重母音、不変化詞を分析すると/文の長さの分析で贋作説を否定 - 3 マーク・トウェインの戦争経験談?
南北戦争経験談『Q.C.Sレター』はマーク・トウェインの著作か/単語の長さを分析すると/マーク・トウェインのシェークスピア別人説 - 4 『静かなドン』をめぐる疑惑
ショーロホフとソルジェニーツィン/『静かなドン』は盗作か/コンピュータの分析では - 5 『紅楼夢』は一人の作者が書いたものか
/曹雪芹はどこまで書いたか/47の虚詞/81回以降は高蘭墅の作品か
- 1 シェークスピアは誰か?
- 4 聖書と宗教書の著者を推定する
- 1 『キリストにならいて』は誰が書いたか
著者はケンピスかジェルソンか/語彙の豊富さを計るK特性値 - 2 『旧約聖書』の中の『イザヤ書』の著者
聖の預言者イザヤ/著者は三人か/文章の一貫し性に疑問/分析の問題点 - 3 『新約聖書』の『パウロの書簡』
パウロの14通の手紙/本当にパウロが書いたのか
- 1 『キリストにならいて』は誰が書いたか
- 5 政治や犯罪の文献をめぐって
- 1 英国内閣を攻撃した投書『ジュニアス・レター』
200年以上謎のままだった著者の正体/人物の識別指標とは/区間推定法を用いた著者の推定 - 2 『連邦主義者』の著者の推定
作者は合衆国大統領?/記述内容に関係しない言葉の分析/執筆者の好みが現れる言葉の使用率 - 3 パトリシア・ハースト誘拐事件
誘拐、転回そして銀行強盗/法廷でのやりとり/声明文の執筆者は? - 4 東京の保険金殺人事件
深夜のひき逃げ事件/犯人の告白書・遺書/四通の文章の類似点は/犯人逮捕
- 1 英国内閣を攻撃した投書『ジュニアス・レター』
- 6 日本古典の謎をめぐって
- 1 『源氏物語』の計量分析
古典文学の最高峰『源氏物語』/作者に関する疑問/「宇治十帖」の作者は本当に紫式部か?/数値でみる『源氏物語』の全体像/言葉の使用率で「宇治十帖」をみる/『源氏物語』を品詞から分析する/グラフでみる「宇治十帖」の異質性/「宇治十帖」を書いたのは別人か?/『源氏物語』の成立順序の疑問/助動詞に基づく成立順の推定/安本美典氏の計量分析/本居宣長の犯したミス - 2 日蓮遺文の著者の推定
日蓮遺文の真贋問題/問題となっている五編の文献/日蓮の好みの言葉で/言葉の情報に基づく分析/品詞の情報に基づく分析/五編の文献の真贋は/『三大秘宝稟承事』の異なる写本を用いた分析
- 1 『源氏物語』の計量分析
- 7 文体の変化とこころの変化
- 1 川端康成の文体の変化
心のありようと文章/読点の付け方の変化 - 2 日蓮の文体の変化
佐渡流罪の前と後
- 1 川端康成の文体の変化
- 8 日本語の計量分析の課題と限界
日本文の分析のむずかしさ/ワープロ、パソコンと手書きでは文体は異なるか/日本の古典は宝の山 - おわりに
- 参考文献
【感想は?】
本書のテーマはシェークスピアの正体をめぐるミステリではない。いや、それも少し触れてるけど、あくまでもネタの一つとしてだ。本題は、計量文献学の紹介である。まあ、その辺は副題や構成を見ればわかるんだけど。
計量文献学とは何か。文章から特徴を洗い出して数値化する技術だ。数値化することで、客観的な比較ができる。贋作を見分けたり、真の書き手を見つけたり、成立順を並べ直したり、そういう事ができる。
私が興味を持ったのは、「どう数値化するか」だ。これが思ったより遥かに色とりどりで、工夫に富んでいる。
パッと思いつくのは、文の長さだ。私が読む本だと、一般に学者が書いた本は文章が長い。対して新聞記者などジャーナリストの文章は短い。これは書くのが商売か否かの違いだろう。カート・ヴォネガットも、記者時代に「とにかく文を短く」とシゴかれたとか。でないと、読んでもらえないのだ。
日頃から「読んでもらいたい」と思ってる人なら頷けるだろうが、こんな指摘があった。
「短文というのは、修練がいる」
――1 かい人21面相の脅迫状と文体分析
そうか。やはり意識して訓練しないと、文は長くなっちゃうのか。某カクヨムの作家さんで、やたら文章が短い人がいて感心してたんだが、相当に訓練したんだろうなあ。
もっとも、商業作家、それも娯楽作品で稼いでる人は文の長さを気にするだろうけど、学者さんは違う。以下は宗教書『キリストにならいて』(→Wikipedia)の分析で得た傾向なのだが…
文の長さの平均値や文の長さのバラツキを示す四分位範囲と呼ばれる統計量は作家間で異なるが、同じ作家の作品ではほぼ同じ値となるという結果を得た。
――4 聖書と宗教書の著者を推定する
だそうです。
さて、文の長さつまり句点「。」の次は、読点「、」だ。最近読んだ「日本アニメ誕生」は、やたら読点が多いと感じた。栗本薫も多いんだよなあ。この二人は商業作家だから意識して付けてるんだろうけど…
読点は文章を読みやすくするために付けられるが、多くの人はほぼ無意識に読点を付けている。個人の文章の特徴は、このような無意識に書く所に現れやすい。
――2 筆跡鑑定にかわる「文章の指紋」
もっとも、本書の注目点は読点の数じゃない。どの文字の後で読点を使うか、だ。たいてい助詞、いわゆる「でにをは」の後なんだが、この頻度に書き手の特徴が出るのだ。とまれ、この章でサンプルとして出てきた作家の長谷川海太郎(→Wikipedia)のペンネーム使い分けの芸には脱帽した。やっぱプロの作家は凄いや。
読点・句点の次は、やっと単語だ。でも、最初の例は虚詞。これは中国語の助詞や副詞などを含むシロモノで、単独では意味をなさない。そんなモノに注目するのも、ちゃんと意味がある。
一般に文章の書き手を推定する場合には、虚詞のような記述内容に依存しない言葉で、かつ多数回使用される言葉の頻度に着目することが多い。
――3 文学作品と哲学書の著者を推定する
先の長谷川海太郎のように傾向の違う本だと、出てくる単語の種類は大きく違ってくる。例えば丹下作善は「剣」が、牧逸馬は「銃」が多い…んじゃ、ないかなあ。そういう、テーマに依存する単語は、計量文献学じゃ使いにくいワケです。
先の引用は『紅楼夢』の話。あれぐらいの大長編だと、統計的にもサンプルが多いので取り組みやすい。対して犯罪の予告状や脅迫状だと、文章の量が少なすぎて計量統計学じゃ扱いにくい。そこで、多数の手法を組み合わせることとなる。
1.どのような助詞がどの程度もちいられているかに関する頻度情報
2.どの助詞の後にどの助詞が出現するかに関する頻度情報
3.どの文字の後に読点がつけられているかに関する頻度情報
――5 政治や犯罪の文献をめぐって
と、様々な角度から分析していくワケですね。
終盤では、ついに出ました日本文学の金字塔『源氏物語』。いや読んでないけど。しかも作家複数説まであるとは知らなかった。ばかりか…
『源氏物語』に関して問題が指摘されているのは、作者複数説だけではない。54巻の成立順序に関しても、多くの研究者が現在の巻序の順かどうかについて疑問を呈している。
――6 日本古典の謎をめぐって
大長編でよくある、前日譚や外伝的な章を後から付け加えるパターンね。人気が出たので読者のリクエストに応えた的な。
この分析過程でガツンとやられたのが、紫式部の才女ぶりを示すくだり。いや村上氏の意図は違うんだけど。
『源氏物語』の中に「あはれ」に関する言葉は、「あはれ」(名詞・感動詞)、「あはれがる」(動詞)、「あはれさ」(名詞)、「あはれなり」(形容動詞)など41種類出現する。
――6 日本古典の謎をめぐって
この41種類って所に、彼女の語彙の豊かさが出てるよなあ、などと感嘆したのだ。私なんて二言目には「面白い」「興味深い」ばっかだってのに。
などと本題とは違うネタばかりになったが、計量文献学の魅力そのものは充分に伝わってくる本だった。何より、従来の文学者による主観的な分析に対し、力づくながらも客観的で数値化できる手法なのが心地よい。コンピュータと相性がよさそうな分野だけに、さすがに2004年と古いのは辛いが、「軽量文献学とは何か」を知るには手軽で楽しく読める格好の紹介書だ。文系と理系の狭間に興味がある人にお薦め。
【関連記事】
- 2025.9.29 ジョセフ・メイザー「数学記号の誕生」河出書房新社 松浦俊輔訳
- 2025.4.21 フランソワ・デュポワ「楽器の科学 美しい音色を生み出す『構造』と『しくみ』」講談社ブルーバックス 木村彩訳
- 2025.1.21 ジェームズ・ヴィンセント「計測の科学 人類が生み出した福音と災厄」築地書館 小坂恵理訳
- 2024.9.3 ニック・エンフィールド「会話の科学 あなたはなぜ『え?』と言ってしまうのか」文芸春秋 夏目大訳
- 2023.8.8 マイケル・フレンドリー&ハワード・ウェイナー「データ視覚化の人類史 グラフの発明から時間と空間の可視化まで」青土社 飯嶋貴子訳
- 2022.12.15 ジェイムズ・クリック「インフォメーション 情報技術の人類史」新潮社 楡井浩一訳
- 書評一覧:科学/技術

