「AI記者」は実現可能か？NTTデータがニュース原稿の自動生成についての実証実験を実施

人工知能を使って実用に耐えうるニュース原稿を作成することが可能かどうかの実証実験を、NTTデータが４カ月間にわたって実施しています。

２０１４年ごろから、米国のメディア業界ではニュース記事を自動生成する技術を商業利用する流れがすでに始まっているといいます。

しかし、自動生成とはいっても実際には「あらかじめ用意されたテンプレート」に単語や数値などを部分的に入れ替えるだけであって、本当の意味では自動生成とは言えません。

あらかじめ大量のテンプレートを人間が作成する必要があり、また単語や数値などを入れ替えるための設計もしなければならないからです。さらに、そもそもテンプレートにない文章は作成できないわけです。

近年は、大量の情報を迅速に発信することが求められている時代でり、また業務の効率化をはかる観点からも、文章の自動生成についての技術についての需要はあります。

しかし、特にビジネス分野において、意味が理解できる水準にある文書を自動で作成することは、人工知能を使った技術においてもまだ未知数の段階と言えます。

そこで、NTTデータはAIを使って文章を自動生成することは技術的に可能であるかどうかについて、実証実験を行いました。

実験に使用したのはNTTグループがもつAI技術「corevo（コレボ）」。

対象とした文書は、アナウンサーが読み上げる「気象ニュース原稿」でした。

はじめに、気象庁が過去に発表した「気象電文」とアナウンサーが読んだ「ニュース原稿」をそれぞれ４年分、データとして用意して、これをAIにインプットして原稿を作成するための規則性をディープラーニングで学習させました。

十分に学習させたAIに、新たな「気象電文」をインプットすると、学習して構築した規則性に従って新たな気象ニュース原稿を生成するという仕組みです。

自動生成された原稿について、「日本語文法の正しさ」と「意味の正しさ」をそれぞれ評価したところ、文法の正しさについては4点満点中3.86点、意味については3.07点という結果が得られました。

そのままでは意味の正しさにおいて多少不確かさが残るものの、日本語の文法においては読んでも違和感がないレベルに達しており、わずかに修正することで元となった気象電文と矛盾しないレベルの原稿が自動生成できることが確認されたとしています。

今回のAIは気象情報についての原稿を自動生成する規則性を導き出す学習をさせましたが、この手法はさまざまな分野の原稿に適用することが可能です。

例えばスポーツ関連のニュース原稿を使って学習させればスポーツ記者の原稿作成の効率化を図ることが可能になります。

また、特に高い速報性が求められる災害情報などの原稿について学習させれば、リアルタイムで情報を発信することが可能になるというメリットも考えられます。

今回の実証実験で利用された原稿は、非常にテンプレート性の高い「気象原稿」でしたが、さらにAI技術を発展させていくことで、さまざまな分野に特化した原稿を正確に作成することにもつながると考えられます。