上個世紀中葉,計算機還是一個要占據(jù)整個房間的龐然大物。在冷戰(zhàn)期間,美國獲取了大量前蘇聯(lián)的各方面資料,但苦于翻譯人才不足,只能求助于計算機技術(shù)來解決翻譯壓力。1954年IBM公司將250個單詞和語法規(guī)則搭配,將60個俄語斷句翻譯成了英語。當時有樂觀派專家對媒體稱“三年后的機器翻譯一定會非常成熟”。
但這種思路很快就被證明是種誤導。因為語言的變化是極其靈活的,一個單詞在不同的語境和情緒下有著截然不同的含義。就像是中文的“哪里”,可以是詢問位置,也可以是一句客套話。而IBM的單詞配語法有著很大的局限性,語料庫始終在追求精確的語法,而人們的表達卻越來越隨意。到20世紀90年代,IBM投入了大量的資金挑戰(zhàn)機器翻譯,卻收效甚微,最終項目無奈終止。
2006年谷歌公司開始涉及機器翻譯。谷歌的語料庫跳出了兩種語言互相對等匹配的傳統(tǒng)文本翻譯思路,不再僅依靠兩種語言之間嚴謹?shù)恼Z法詞法聯(lián)系。開始基于全球互聯(lián)網(wǎng),利用一個更大更龐雜的數(shù)據(jù)庫來進行翻譯。
如果只追求單詞和語法的準確,那谷歌語料庫只能算是一堆殘渣廢料。因為谷歌語料庫的內(nèi)容既有來自國際組織的標準文件,也有來自網(wǎng)絡(luò)論壇的“閑言碎語”和大量其他未經(jīng)處理的互聯(lián)網(wǎng)訊息,它掌握了不同語言質(zhì)量參差不齊的文檔大約有幾十億頁,其中包容了大量的拼寫錯誤。這海量的“原版”語言構(gòu)成了跨語言表達的“訓練集”,可以正確地推算出詞匯搭配在一起的可能性。谷歌翻譯出來的文字從語言美學角度來看確實沒有美感,但語義溝通還是不成問題的。學會一門語言到通讀文獻的水平需要數(shù)年的時間,而在這種機器翻譯的輔助下只需要一瞬間,細想起來運用大數(shù)據(jù)手段解決溝通壁壘的效率還是立竿見影的。
大數(shù)據(jù)的成功運用打破了不同語言之間的交流壁壘,提高了兩種語言的溝通效率。在現(xiàn)實的經(jīng)濟活動中,去理解一個陌生領(lǐng)域的難度不亞于理解一門全新的語言。這樣的問題在銀行風控部門的工作中表現(xiàn)最為突出。各個行業(yè)發(fā)展迅速,銀行面對的申請貸款企業(yè)來自各行各業(yè),每個行業(yè)的特點迥異。尤其現(xiàn)在跨行業(yè)經(jīng)營的現(xiàn)象與日俱增,這大大提升了對銀行客戶經(jīng)理本身的素質(zhì)要求。當銀行面對一個全新的行業(yè)時,跨行業(yè)的理解難度就像是面對一門新語言。其次出于成本的考慮,銀行負責貸后監(jiān)管的人手畢竟有限,即便每個責任人再努力也不可能有充足的時間對手上的若干家貸款企業(yè)逐一跟蹤。所以在短時間內(nèi)有效了解該行業(yè)的管理特點,風險易發(fā)節(jié)點、頻率對銀行的貸款風控至關(guān)重要。簡而言之,銀行風控部門亟待解決的問題就是如何降低跨界溝通難度、提高跨界溝通效率。銀行和企業(yè)的“跨界溝通”也需要一種有效的“翻譯”手段。
大數(shù)據(jù)手段沖破語言溝通障礙案例對經(jīng)濟領(lǐng)域的跨界溝通有著重要的指導意義。傳統(tǒng)的思路中,資方會通過財務報表來衡量一個企業(yè)的優(yōu)劣,但事實證明這種辦法是“小數(shù)據(jù)”思路,在數(shù)據(jù)采集手段更為便利的今天,似乎財報的短板在日益凸顯,畢竟財報的三張表是可以用PS手段來美化的,并不能如實反映企業(yè)情況。
谷歌語料庫包含了互聯(lián)網(wǎng)上的各種語言“細節(jié)”,在翻譯的過程中會甄選最貼近真實情況的平行文本,所有能最大限度反映語言的本意。一家企業(yè)的財報數(shù)據(jù)量一般是幾十個KB,而如果統(tǒng)計幾年的明細數(shù)據(jù)可以到十幾個GB,這寫明細數(shù)據(jù)包括企業(yè)訂單、庫存、下線、結(jié)算、付款這些核心環(huán)節(jié)的所有數(shù)據(jù)。通過相應的大數(shù)據(jù)算法模型來進行清洗和分析后“翻譯”成銀行或相應部門能夠“理解”的版本,是解決信息不對稱問題的有效途徑。
李克強總理在剛剛結(jié)束的兩會上也提到了“互聯(lián)網(wǎng)+”和“大數(shù)據(jù)”的概念,未來幾年的大數(shù)據(jù)和互聯(lián)網(wǎng)的發(fā)展基調(diào)非常明顯。事實上國內(nèi)已經(jīng)有企業(yè)在“大數(shù)據(jù)金融”領(lǐng)域走在了世界的前列,通過大數(shù)據(jù)手段為中小企業(yè)爭取了數(shù)十億的純信用融資,并且至今沒有發(fā)現(xiàn)一筆不良。大數(shù)據(jù)的概念在深入人心,大數(shù)據(jù)成功實踐的案例也在不斷增加。
大數(shù)據(jù)的魅力在于“通達”,大數(shù)據(jù)手段可以提高兩種不同語言的溝通效率,可以降低不同經(jīng)濟領(lǐng)域的跨界難度。尤其對于金融部門,大數(shù)據(jù)手段恰可以真實反映企業(yè)狀況,提前判斷未來可能發(fā)生的經(jīng)營風險。大數(shù)據(jù)時代來了,谷歌讓兩種語言的溝通更順暢,經(jīng)濟領(lǐng)域的跨界溝通還會遠嗎?