在信息碎片化的時代,如何做到短、平、快成為當下眾多新媒體需要掌握的重要本領之一。新聞創(chuàng)作者往往需要高頻、精準的進行信息收集、撰寫和發(fā)布,特別是隨著元宇宙概念的興起,虛擬場景中熱點事件的報道更是增加了新聞創(chuàng)作者的工作量。
為幫助新聞創(chuàng)作者更快、更準捕捉到新聞信息,馬上消費金融股份有限公司(下稱“馬上消費”)舉辦的2022屆“天馬杯”全國高校科技創(chuàng)新大賽,聚焦NLP賽道,開設了“數(shù)字人播報資訊內(nèi)容生成”賽題,以實現(xiàn)資訊內(nèi)容自動生成。
據(jù)悉,資訊內(nèi)容自動生成屬于深度學習領域的端到端生成式任務,在給定新聞主題、新聞時間、新聞人物等要素的前提下自動生成一篇完整的新聞。不同于機器翻譯和文本摘要(給定1篇長文輸出摘要信息)任務,資訊內(nèi)容自動生成需要在給定信息的前提下進行內(nèi)容擴寫,這需要智能機器人有一定的知識儲備,并能夠在特定的環(huán)境和場景中使用合適的語言進行陳述。
目前市場上的撰稿機器人多數(shù)是基于模板的方式進行新聞創(chuàng)作,或是對已發(fā)布新聞重組和改寫。雖然內(nèi)容流暢、可讀性高,但并不是原創(chuàng),而且如果嚴格按照模板來引導模型還會導致生成內(nèi)容單調(diào)、多樣性差的問題,與人工撰稿有著很大差距。
馬上消費設置“數(shù)字人播報資訊內(nèi)容生成”賽題的目的就是為了解決以上問題,同時不斷挖掘和探討如何將撰稿人的行文邏輯、文風等引入模型的生成風格當中。也就是說,“天馬杯”大賽的參賽者需要掌握深度學習算法、機器學習算法,且對NLP中的文本生成任務(seq2seq)、預訓練模型(Bert、GPT、BART等)有一定的了解。
隨著核心技術愈加成熟,元宇宙也逐漸從概念走向臺前?!丁笆奈濉睌?shù)字經(jīng)濟發(fā)展規(guī)劃》也強調(diào),我國將“深化虛擬現(xiàn)實、人工智能、8K高清視頻等技術的融合,拓展社交、購物、娛樂及展覽等領域的應用,支持實體消費場所建設數(shù)字化消費新場景,推廣虛實交互體驗等應用”。
作為一家科技驅動型金融機構,馬上消費早在2017年就專門成立了人工智能研究院,在資訊內(nèi)容生成方面也做出了很多探索性的工作,包括基于模板的資訊內(nèi)容生成,如何根據(jù)歷史新聞數(shù)據(jù)實現(xiàn)模板的自動化歸納;基于模型的生成式新聞,如何根據(jù)提示信息來控制新聞生成的主題方向、內(nèi)容質量;通過模板與模型相結合的方式進行優(yōu)勢互補等,經(jīng)多次實驗,已初步形成了一套自動撰稿的流程方案。
且根據(jù)實驗發(fā)現(xiàn),從模型訓練到新聞的生成與發(fā)布都體現(xiàn)了歷史新聞的重要性,天馬杯“數(shù)字人播報資訊內(nèi)容生成”將為新聞的生成規(guī)律、陳述方式、寫作模板、寫作文風等提供更多可能。