今年もあとわずかで終わりを迎える。年末といえば毎年開催されている紅白歌合戦。紅組が勝つか、白組が勝つか、出演者が公表されてからは勝敗を予想している人も多いかも知れない。では、人工知能が勝敗予想をした場合はどうなるか。データベースサービス会社のソケッツが、AIを使って紅白歌合戦の勝敗予想を行った結果を公表している。
歌詞データのみで勝敗予想
同社は昨年の紅白歌合戦でも勝敗予想をしており、見事に白組の勝利を予想していた。そして今年もまた、AIモデルのバージョンをアップして予想にチャレンジしている。
歌合戦の勝敗を決定する要因としては、出演するミュージシャンやグループの歌や演奏、衣装やパフォーマンスなど、あらゆるものが考えられるが、同社の勝敗予想では、いったいどのような手法を用いているのだろうか。
実は同社は楽曲の「歌詞」データのみを利用して勝敗を予想している。簡単に言えば、楽曲の歌詞データから「感情スコア」というものを算出して、過去の勝敗に基づいてどのような感情スコアならば勝利する確率が高くなるかを求めている。
本当に歌詞だけから勝敗予想ができるのかという疑問が浮かんでくるが、昨年の予測モデルでは正解率が96%という非常に高い精度を達成しており、実際に昨年の歌合戦の勝敗を見事に当てることができている。
感情スコアリングとはいったい何か
さて、勝敗予想をするために算出される、歌詞データを使った「感情スコアリング」とはどのようなものなのだろうか。
予測分析を行うための対象となるデータは、2部制が開始された1989年(へ平成元年)以降の歌合戦としており、特に紅白の垣根を越えて披露された楽曲やメドレーなどは除外して、1509曲が分析の対象とされた。
これら対象となった楽曲の歌詞データを用いて、「ソケッツ感情分析エンジン」を使って10種類の感情スコアを算出。ロジスティック回帰分析から構築したモデルで予測する。
詳しい説明はここでは省くとして、実際にどのようなスコアを算出するかを見てみると分かりやすい。
今年の歌合戦のトリを務める、紅組の石川さゆり「津軽海峡・冬景色」と白組のゆず「栄光の架け橋」について、スコア結果が公開されている。
上の表は、津軽海峡・冬景色の各センテンスについて、同社が開発した感情分析エンジンを使って算出された感情スコアを示している。
感情スコアについては、「幸福・恋愛」や「好き・喜び」などのプラスイメージのものから、「不安・恐怖」や「怒り・苛立ち」などマイナスイメージのものまで、全10種類の感情について算出されている。
例えば第1センテンス「上野発の夜行列車おりた時からでは「幸福・恋愛」のスコアが突出して高いが、第5センテンス「私もひとり連絡線に乗り」では「不安・恐怖」のスコアが高い。
こちらは、ゆずの「栄光の架け橋」。第1センテンスは「哀しみ」のスコアが高いが、第7センテンスは「昂ぶり」が高い。
今年は感情分析エンジンのバージョンをアップさせた進化版を開発しており、従来のもの(青色)と進化版(オレンジ色)とで比較している。
今年の進化版では、特に「感情コーパスの補正」「未知語のスコア推定」「連語のスコア推定」の3点について精度が向上しているとしている。
分かりやすく言えば、「行間を読む」ような複雑な感情を読み取ることができ、直接的に感情に関するフレーズがなくても感情スコアを算出できるエンジンになったとのこと。
これらの感情スコアに基づき、楽曲ごとの感情スコアを算出したのが以下のグラフだ。
津軽海峡・冬景色では「哀しみ」や「不安・恐怖」の感情スコアが高いのに対して、栄光の架け橋では「昂ぶり」や「希望」のスコアが高いことがわかる。
このようにして、歌詞データから各曲の感情スコアがそれぞれ算出される。各楽曲のスコアが計算できれば、それに基づいて白組と紅組それぞれのスコアも算出することができる。
それでは、いったい10種類あるうちの感情スコアのうち、どのスコアが高ければ歌合戦で勝利する確率が高くなるのだろうか。
最新の感情分析エンジンで感情スコアを分析、今年の勝敗結果を予測する
今年は分析エンジンが進化したため、過去の楽曲もすべて感情スコアを算出し直している。どの感情スコアが勝敗を決定する要因になるかについては、ロジスティック回帰分析と呼ばれる手法が用いられる。
ロジスティック回帰分析の詳しい説明は省くが、勝敗の要因として考えられる10種類の感情について「回帰係数」を算出して実際の勝敗を説明できるモデル式を構築する。
回帰係数が大きいほど勝敗への影響度が大きいことを意味する。上の表は昨年の分析結果を示しているが、「哀しみ」が大きく影響していることがわかる。
構築されたモデル式と回帰係数、そして感情スコアを使って過去28年間の予測値を算出する。紅組が勝つと予測値と白組が勝つ予測値を比較して、値が高い方が「勝利する」ということになる。
今回、新たに算出し直したところ、今年は「怒り・苛立ち」「嫌い・不愉快」「もどかしさ」の感情スコアが高いと負ける要因になるという結果が出た。
さて、それでは予測モデルから算出された、今年の勝敗結果はどのようになったのか。
ソケッツの2917予測モデルによると、今年もまた昨年につづき白組の勝利という結果が得られたとのこと。果たして、昨年に続き予測は当たるのであろうか。結果は明後日に明らかになる。