中石くんの論文がPhysical Review Reseachに

Random Language Modelに相転移がないこと

中石くんのRandom Language Modelに関する論文が掲載されました。
Absence of phase transition in random language model
Kai Nakaishi and Koji Hukushima
Phys. Rev. Research 4, 023156 – Published 27 May 2022

研究内容はこちらにもあります。
【研究成果】言語と非言語の境界は存在するか? 〜自然言語の数理モデルに相転移がないことを証明〜

ちょっと上の解説とは異なる視点でこの論文の背景を説明してみたい。一般向けの説明は上にあるのでここは気にしないでやや専門的でマニアックな話しになる。

文責: 福島孝治

個人的には2019年は自分自身の研究とは関係ないところで印象的なできごとがあった。多方面で話題になったかもしれないが、2019年は「神」が生まれて、「言語」が生まれたと感じた年だった。
神論文は、これである。
“Complex societies precede moralizing gods throughout world history”, Nature volume 568, pages226–229
端的にまとめてしまうと、社会の構成と神の出現はどっちが先なのかの問題に対して、社会が先とする主張である。宗教的な議論をここでしたいわけではないが、人が集まって神が生まれたことを学術論文として出てくることに驚いた。おそらく、そうだろうとは思っていても、データからそれが導かれたわけである。人が存在して、そして神が生まれたと思いたくなる。

そして、言語論文は、これ。
Random Language Model, E. DeGiuli, Phys. Rev. Lett. 122, 128301 – Published 29 March 2019

紹介ページLearning Language Requires a Phase Transitionも当時みていて、余計に印象に残ったのかもしれない。
確率的に文法を与えたRandom Language Modelを導入して、その確率分布の幅を狭くしていくと相転移が起きて、生成される文字列のエントロピーがガクッとさがって、構造が「出現」するという主張である。ランダムな文字列生成と構造を持つ文字列生成の間には相転移があって、明確に区別されるというわけである。意味のない文字しか発しなかった子供が言語獲得をするようにも思えて、言語が生まれると思いたくなる。

ここに相転移があるのか!と純粋に興奮したわけだが、ちゃんと論文を読んでみようと思って、Random Language Modelの論文を見てみたら、これはプロが見たら絶対に見逃せない点があった。これは相転移ではないな。。。本質的にはこれと同じ問題。相転移とは何かということと数値計算と真剣に向き合ったことがあれば気づいて当然で、福島研出身者はみんな気づくはずと思っている。実際に西川くんからも「あれって相転移ですか?」と聞かれて、「じゃないよね」となったわけです。ただ、私ができたのはここまで、本当に相転移でないことを示すのは大変そう。大体、モデルはそんなにかんたんではない。おそらく、Random Language Modelは、Random Energy Modelのオマージュかと思うが、REMほどかんたんなモデルではない。

ここから中石くんが丁寧に調べ上げる。キーポイントは出現文字の頻度分布に注目すると、文字列の生成過程がマルコフ連鎖で表せることで、そこに気づいたことが大きい。このことから、マルコフ連鎖を知っていれば、相転移が起きうるシナリオは描ける。定常分布を表す固有値1の固有モードの次の第二モードが固有値1に縮退するか?という問題に帰着される。このモデルではモデルの性質上、そんなことは起きないことがわかる。あとは、この出現文字の頻度分布がこのモデルの性質をどれくらい捕まえているかが気になるわけだが、先行研究で相転移の証拠と示した物理量は全てこの頻度分布を用いて表せるわけで、「詰んだ」ことになる。

上の解説の「言語と非言語の境界」という言い方は面白い表現だと思う。これは中石くんが言ったこと。理論言語学から見ると、とんでもなく言語とは言えないだろうが、確率的文脈自由文法(Probabilistic Context Free Grammar)の一つであって、それが物理学の研究対象であることを示したDeGiuliはやはり素晴らしい。これから何ができるかワクワクする。次の中石くんの研究も楽しみ。

それで、神論文の方はというと、これは板尾くんに教えてもらったのだが、上のページに示されたようにretractedされていた。どうやらnull dataの取り扱いが適切でなかったようである。欠損データの取り扱いはいろいろあって、フーリエ観測でゼロパッディングはやっちゃダメってことは実験データ解析の現場でも共有されているかどうかよくわからない。ゼロを入れることと観測していないことは本質的に違うからやっちゃダメだし、スパースモデリングが少し流行ってゼロパディングしなくて済むので、どんどんしなくなるとは思うけど、汎用な手続きとしてまだ生き残っているのですね。それと同種のことがこんなところにも影響しているとは思わなかったし、それで取り下げるほど結果が変わるのは困る。retractedのレポートを読むとなかなか複雑そうである。今後の展開もあるようなので注視したい。

というわけで、私の注目した2019年の事件はどちらも消えてなくなった。神は生まれていなくて、言語も生まれない。でも、神はいるし、言語もある。研究は続くのである。


(2022.9.3) 私の与太話的な解説よりも中石くん本人のセミナーを聞く方が楽しいだろう。これは統計数理研究所の伊庭さんに招待されたオンラインセミナーで中石くんが話した内容が以下のYoutubeで公開されている。