訂閱電子報∣ 友善列印字體大小 文章分享-Facebook 文章分享-Plurk 文章分享-Twitter
深度:狂飆突進的寫稿機器人大軍!
獲取產業訊息零時差!立即訂閱電電公會電子報。
導語:在“機器寫稿”商業化前夜,故事由BAT和今日頭條主導。

上週五,今日頭條估值超過120億美元的消息被刷屏。在內容市場的紅海裡,身價暴漲的今日頭條已成為一條讓BAT望而生畏的“大魚”,寡頭圍剿和壯士突圍間充滿變數與可能,技術優勢牽一髮而動全身。

一項內容市場競爭與人工智慧技術結合的產物——寫稿機器人,將視線聚焦在百度、阿裡巴巴、騰訊、今日頭條的新戰役中,而逐漸起勢的機器寫稿產業本身也已成為戰役中尤為重要的一環。

在深入調查“機器寫稿”產業的過程中,意料之外的兩大既成事實讓我開始重新審視人工智慧和內容生產。這兩件事實分別是:

1)在垂直領域的報導中,寫稿機器人已經被高頻率採用;
2)騰訊、今日頭條、阿裡和百度,是中國寫稿機器人技術應用最早和最為成熟的平臺。

瞭解人工智慧技術在專業領域的應用現狀,能夠更為直觀地感受技術革命臨近的前奏。更進一步,其在內容領域落地的深遠意義在於,將為互聯網上游資訊生產流程和資料應用方式的帶來顛覆式影響。

而在當下,這一關鍵閥門就掌握在BAT三巨頭和估值超120億美元的新勁敵手中。為此,智東西特採訪到騰訊內容機器人專案負責人、騰訊財經副總監劉康,阿裡巴巴大資料價值挖掘專家、第一財經首席資料專家湯開智博士,今日頭條相關專家,行業資深人士,進一步解構這場互聯網內容和資料重組的入口之爭,窺探背後更大規模的文本范式生成市場。

(注:近日有消息稱百度推出了其智慧寫作機器人Writing-bots,但據筆者調查暫無可查證的實際應用案例,故此文中暫不做討論。以“度秘”的賽事解說功能為參考。)

一、 文字背後的機器人
寫稿機器人,並非指實體的機器人本身,而是將機器自動生成文本,產出內容的系統抽象化和擬人化。具體而言,寫稿機器人多以特定的資訊庫為基礎,通過一定的篩選、分析、運算等資訊處理手段,將資訊進行重新組合、排列,並套用事先設置好的寫作範本,最終輸出新聞報導。

“機器寫稿”,背後涉及資料採擷、自然語言處理、機器學習、搜索技術、知識圖譜等多項人工智慧技術。套用一般的人工智慧的要素模型,“特定的資訊庫”即支援該項技術的“大資料”,“針對文本資訊的重組、排列”即為該項產品背後的核心演算法。從早期的人工設定範本,到深度學習引入後的機器自我學習和範本優化,“寫稿機器人”本身正在不斷進化。

機器人介入寫稿最早起始於美國老牌報業《華盛頓郵報》。早在2012年年末,《華盛頓郵報》就啟動了名為“truth teller(吐真者)”的即時新聞核查專案。它能全程記錄新聞報導中的文字、語音等資訊,隨後與“打假”資料庫進行對比,一旦發現異常便會發出警報。

從2015年開始,中外媒體的“寫稿機器人”走進版面,開始自立名號。《紐約時報》Blossom、《華盛頓郵報》Truth Teller、《洛杉磯時報》智能內嵌模版、《衛報》Open001、路透社的Open Calais、美聯社的Wordsmith六家國際頂級媒體設立各自的機器人服務系統。

在中國,騰訊於2015年8月率先推出Dreamwriter寫稿機器人。隨後的一年,今日頭條xiaomingbot、第一財經DT稿王、百度度秘解說相繼浮出水面。騰訊、阿裡巴巴、百度、今日頭條,四方割據的局面正式形成。

在資訊流市場,第一財經能夠代表阿裡巴巴的戰略佈局。在於2015年阿裡的12億元購入第一財經集團30%股權,隨後也將旗下的大資料價值挖掘專家湯開智博士調任至第一財經,任其首席資料科學家,為其自動/輔助寫稿產品提供技術支援。

二、四大平臺的機器人賽稿
為呈現一個更加具象的寫稿機器人市場,筆者集中體驗了騰訊、今日頭條、百度、第一財經四家產品在使用者介面、內容呈現和出稿數量、效率等方面的表現,並對比分析各家在產品佈局和應用領域的思路與特點。

1)產品特點與應用狀況
 
從上述圖表分析中可以看出,上述四家的“寫稿機器人”產品主要還處在自研自用階段,主要用於自家媒體平臺的內容產出和分發。此外,第一財經首席資料科學家湯開智向智東西表示,旗下的DT稿王產品現還應用到電商平臺“千牛”的資訊版塊。

覆蓋領域以體育賽事、和財經類新聞為主,多以短、平、快的處理方式產出賽事戰報、快訊等。其中騰訊在新聞內容覆蓋面上最廣,其產品的對接平臺包括騰訊財經、騰訊科技、騰訊體育等。第一財經集團因其更強的媒體屬性和廣泛的產品管道,內容分發領域更更廣,包括媒體產品端、微信內容推送、電視新聞等。
在報導形式上,賽事報導更傾向于圖文結合的方式,圖片採用自動匹配的模式。當然在面向不同終端和產品時,報導風格可能有所調整,比如在騰訊體育移動端中,賽事報導就是以純文字方式呈現;而在騰訊新聞用戶端,則保留了完整的圖文內容。

在產稿量方面,各家並沒有給出具體數值,筆者結合頁面呈現數量和參考值進行統計。騰訊因其覆蓋領域最廣,在有效產稿量上佔據一定優勢。“機器寫稿的機制是大規模地寫,最後用不用由人工編輯、CMS(Content Management System、內容管理系統)進行判斷”,騰訊內容機器人專案負責人、騰訊財經副總監劉康介紹。
第一財經則主要以股市異動為新聞切入點,報導更頻繁。”長報導的使用頻率相對低一些,最多一天一篇,或者一個月一篇”。

需要說明的是,將只是用於“賽事解說”的百度度秘平臺納入到分析對象中,主要原因在於度秘的“即時圖文內容呈現+音訊播報”的產業化程度已經達到機器寫稿的程度,其背後的技術原理也十分相似。或許是百度平臺本身缺少媒體屬性,抑或是作為內容分發平臺不適合自產出內容,百度並沒有在前端用新聞的形式呈現。

2)使用者介面特點分析
 
以上分別是調用第一財經“7*24小時看板”、度秘APP“度秘直播籃球賽”、今日頭條“Xiaomingbot”頭條號作者專欄、騰訊新聞搜索“Dreamwriter”呈現的不同介面,統一以移動使用者端進行比較。

從報導形式和內容豐富程度來看,機器寫稿與人類已經無異。在標題處理上,“擊敗雄鹿”、“創新高”、“奇才”、“遺憾”等用詞已經脫離機械式的比分呈現,帶有個性化的媒體報導屬性。滾動式的股票類財經快訊則更強調時效性和資料準確性,在這個維度上,機器勝過人類。

3)內容呈現特點分析
 
在報導形式與風格上,各家根據使用者特點進行了不同的呈現。騰訊Dreamwriter、今日頭條Xiaomingbot採用圖文結合得形式進行報導,Xiaomingbot在圖片與現場感呈現上更為豐富,Dreamwriter則更強調比分和細節。在文章框架上,兩者都對賽事亮點和整體局勢進行了提煉,而不是簡單的陳述資料。

百度度秘的解說以對話方塊的形式呈現,能夠為用戶提供即時的賽事戰況直播,並且配以部分動圖和音訊,表情和語氣詞的也很到位,更加擬人化和形象化。

第一財經,作為一個更加專業和垂直領域的媒體平臺。除去中文內容呈現,同時進行了英化處理,“中文財經範本很大一部分被翻譯成英文範本,省去了內容翻譯的成本,在一財全球使用”,湯開智博士介紹。

總體而言,在寫稿機器人這塊新業務上,BAT三家與今日頭條的技術和產品差距並不大。比較遺憾的是,百度並沒有將其背後的技術整合出完整的媒體產品,提到度秘的“賽事直播”功能很多人並不知曉。

究其背後的原因,可能還是百度本身缺少媒體平臺基因,聚焦在用戶的被動搜索與廣告業務。不過,另一面,今日頭條的百度化卻比想像中快。

三、外行看熱鬧 內行看門道
對於一個曾經視“人工智慧威脅論”為笑話的人,突然間發現,機器人已經侵入到自己所擅長的領域,內心多少有些驚訝和恐慌。不過,人工智慧的更大價值還在於瞭解之後為人類所用。“我個人偏向中性的認知,機器寫稿的確能夠取代一部分人力,但只是冗餘的、低技術門檻的人力”,騰訊財經副總監劉康認為。

在與第一財經湯開智博士的交流中,他認為機器寫作的研究主要圍繞三種典型模式,“邏輯由淺入深,從精確到模糊”:

1)第一類是基於數字進行事實陳述,並進行簡單邏輯分析的文章,比如二級市場的監控、體育賽事的簡訊;
2)第二類是根據每類稿件的資訊要點,對資訊源進行針對性的資訊提取,把非結構化的文本轉為結構化及半結構化的資料,再根據不同的規則把資訊要點組合寫成單點內容;

3)第三類是單點內容的關聯生成,此類稿件能彌補單點內容信息量單一的缺點,並為受眾尤其是投資者,及時關聯專家對基本資料的解讀及評論,生成更有深度、更立體、更綜合的稿件。

在寫稿機器人產品中,背後技術支援最為明確和清晰的是今日頭條的“Xiaomingbot”,它是由頭條實驗室與北京大學計算所(萬小軍團隊)聯合研發而成。今年2月今日頭條還挖走了前微軟亞洲研究院副院長馬維英,擔任其負責人。

在抽取式文本生成研究領域,北大萬小軍老師於關於採用特徵工程抽取句子的論文《Towards Constructing Sports News from Live Text Commentary》在ACL2016引起了廣泛關注。今年初,萬小軍老師還以技術開發團隊負責人的身份,幫助南方都市報完成了寫稿機器人“小南”的研發。

從產品演進路徑來看,一代寫稿機器人語言偏向生硬,句式較為單一。在優化後的產品中,具備更高的語言表達和邏輯思維能力,以及圖文資訊處理能力。以下是寫稿機器人的簡化版工作流程:
 
“現在大家都還處於技術過渡的過程”,業內人士表述。前期產品以簡單的結構化自動生成為主,將一些資料嵌入進去,利用人工範本。因為機器學習和資料庫的完善,大家希望能夠借助機器的自主學習功能,“比如,跑一百萬篇文章,機器可以自建範本”。

但在現實應用中,因為垂直、專業領域的文章具備鮮明特點。自然語言理解技術有局限,目前機器讀取資料填充格式化範本是最成熟但也是最沒有技術水準的方案,寫稿機器人產品仍主要用於體育和財經類資訊 。

體育和財經文本資訊較少,資料資訊多,“每週幾十場NBA、足球賽、棒球賽等,以及每天全球主要市場上萬家上市公司的各種披露資訊和股票漲跌”,從這個角度上說,人群結構化程度較高,垂直化需求強烈。

四、商業價值所在:以一當十五
技術落地的最終訴求來自產業所向和商業價值。“多、快、好、省”,是騰訊財經總監劉康對於機器寫稿紅利的提煉。

他並未給出寫稿機器人準確的產出效益比。“一般來說,機器產出的稿件30-50%,會各個頻道的採用,最終呈現在頁面端”。實際上,寫稿機器人的成效容易量化,基於其產出的稿件量或者字數,以量化成普通人力的規模。其核心的“快”,包含兩個層面,一是回應速度,寫稿機器人平均可達到1分鐘甚至更快產出快訊;二是分發速度快,與後臺無縫銜接,縮短至各平臺中間流程。

作為技術輸出的協力廠商,面向B端的服務集成是另一種可循的商業模式。面向媒體企業收費,“例如某科技媒體平臺一年人工費用為900萬,採用自動寫作或者輔助寫作的產品,可以提高員工績效和產出,減少其人力成本”,從業人士介紹,寫稿機器人可以24小時線上,而人工還需要輪班和調休。

在與阿裡巴巴駐第一財經首席科學家湯開智的交流中,他更為系統地介紹了寫稿機器人所產生的效益提升,主要包含以下三個方面:

1)機器稿件產量的提升。“從去年8月25日開始記錄到現在,”一財全球“總共產生19604篇稿件。考慮到機器寫稿的簡短性,平均每篇稿子64.5字,總字數為1,264,458字, 平均每篇稿件約64.5個單詞。這相當於同時期一個15人編輯團隊人工監控股市寫稿的總產量。

綜合分析,考慮到目前機器稿件的單調與重複等因素,稿王機器稿件的加入,相當於為一財全球增加了一個3個人的編輯團隊。

2)成本下降和資訊反應速度的提升。基於滬市1040家公司、深市1420家公司的即時監控和異動報導工作,至少需要15名以上的編輯進行即時監控,每人要同時監控100多檔股票,1名翻譯即時翻譯。並且,股票的異動分成多種情況,人反應和分析的時間將帶來5~10分鐘的延遲。

因為寫稿機器人的使用,這些稿件在沒有人工參與的情況下快速生成,延時也降低到1分鐘。此外,寫稿機器人還能針對大盤、板塊進行著監控和稿件生成。

3)流量的貢獻。根據Google Analytics匯總報告中顯示最近1個星期, 3月20日到3月29日之間機器稿件流量占到一財全球全部流量的25%,相對於之前有顯著提升。
五、新聞之外 更大的文本範式“蛋糕”

利用寫稿機器人的工作思路:文本分類,文本中的資訊提取,文本總結,基於邏輯的自動寫作方法在“文本範式”的領域,均具備可遷移的想像空間,如法律、合同、電商數據等領域。
“電商模式是來錢比較快的”,業內資深人士分析,並提供值得借鑒的方向思路。電商數據多而龐雜,對於當下盛行的電商導購返利網站而言,UGC(使用者原創內容)需要大量的人工審核,雖然編輯自己寫的少,但是仍然需要花大量人力在審查上。

機器審查又會過濾掉一些很有價值的商品推薦。所以建立一個機器寫作的導購網站,UGC或者機器只要去發現一些有價值的線索就好,“具體的內容我們交給機器去寫,賺流量的同時也賺眼球”。

綜合以上分析,四大平臺下的寫稿機器人最具商業化前景和可能性。“其平臺不僅具備完善的財經資料,同時得到了阿裡巴巴的電商數據支持”,前文提及的“千牛”電商平臺資訊服務也得益於此。

此外,據湯開智博士介紹,DT稿王產品的下一側重方向在於,“為專業的內容生產方提供技術輸出,建立一套輔助寫作系統,能夠和編輯互動”。

“語言生成是一個非常基礎的問題,我們如果可以把這個問題解決好,自然語音的理解方面可能還會有更大的突破,我們很多方法可以把難問題變簡單,如果能夠設計成模型自動的做這一步,最後得到的效果會更好”,今日頭條科學家、實驗室總監李磊表示,可以想像圍繞寫稿機器人衍生的系列“文本範式”演算法,將成為今日頭條後續的資訊流源頭之一。

騰訊方面,則朝著產品化的路徑進一步完善。“近期,我們會有一個更具體的產品發佈。類似一個服務系統,可以用於前端展示”,騰訊財經副總監劉康向智東西。

六、大資料時代下 高品質資料來源卻“一票難求”
在本月初的IT領袖峰會上,馬化騰曾提到,就算是騰訊這樣規模的平臺,在資料應用上仍面臨難題。“使用者直接產生的資料還需要脫敏(保留隱私性)、清理(保留有效資料)、加標籤(分類)等前序工作後才能產生出有價值的資料”。

機器寫作需要從大量的文字資料中或許稿源資訊和文本資料,然而實際上互聯網上的中文資訊本來品質就不高,清洗難度很大。

此外,稿源資訊清洗後需要格式化,然後通過資料調用載入範本的形式生成自動化稿件,這裡面範本越精細化,效果就越好。然而實際上沒有足夠好的資訊源來配合範本,同時,編寫範本代碼的工作量,事實上不小。

以技術基礎和資料庫為導向。類似NBA、奧運會等大型賽事,大型媒體平臺本身需要對接到一個資訊資料庫,詳細的圖文資料。“這個資料庫是非常高品質的,包含有很多細節的”。但在賽事資料和股市資料之外,很難再找到這樣結構化、高品質的資料庫。

此外,因為純粹一個平面化的機器寫作很難去做,一般還是要垂直行業能夠做精細化,比方說棒球幾隻安打怎麼報,每個投手或者擊球手什麼特點。對應到法律行業就是要瞭解司法體系,以及不同法律條文之間的關係,這遠不是一個普通創業公司能做的事情。

七、結語:下一個“今日頭條”
在你一次不經意的推送點擊和頁面流覽間,得到的資訊很有可能就不再出自人類編輯之手,而是機敏、不知疲倦的寫稿機器人產物。如果不是這次深度調查和資料搜集,我也不會意識到寫稿機器人產業的發展與落地速度會如此之快。這一切,正在悄無聲息地發生在你我身邊。

當機器人和人工智慧不再依附於具象的實體,而是以一種虛擬手段侵入人類生活時,將變得更加莫測和不可控。同時,也是人類以一種更加理智和客觀的態度地審視技術革命的契機。

當新聞編輯室的資源越來越少,重複無創造性勞動力的越來越多,不難想像,在未來的新聞報導中,人工智慧將取代更多的“媒體工作者”。

回到技術應用前景。通過為資訊流前端引入演算法機制,今日頭條坐享內容市場的技術紅利。如果將這一思路引入上層級的資訊流源頭呢?在生產模式上進行勞動力改造和個性化匹配,勢必將產生更加劇烈的化學反應。

可以預見,人工智慧所引發的資訊流生產方式顛覆,將成為BAT與今日頭條的下一個重要戰場。一項由技術驅動的、更為核心的業務比拼。與此同時,龐大的新興市場需求還將催生出一批可期待的技術領域創業新秀。

但需要警惕的是,當人工智慧大戰晉升到寡頭層面,其核心仍是一場資料大戰!
訂閱電子報 友善列印 字體大小:
獲取產業訊息零時差!立即訂閱電電公會電子報。