日韩中文免费码|午夜福利区免费久久|亚洲午夜在线观看首页|黑人巨大亚州宗合在线

    1. <dfn id="4wyr1"></dfn>
        tags:
        當(dāng)前位置 : 首頁 > 新聞中心 > 社會生活 > 正文

        張海鵬:另類數(shù)據(jù)挖掘在風(fēng)控中的應(yīng)用研究

        來源:本站作者:時間:2024-04-02 14:25:41點(diǎn)擊:

        導(dǎo)讀:所謂另類數(shù)據(jù),有別于普通或者常規(guī)的數(shù)據(jù),是那些比較小眾還沒有被大規(guī)模挖掘使用的數(shù)據(jù)。接下來我會給大家介紹另類數(shù)據(jù)挖掘在當(dāng)前工程、以及交叉領(lǐng)域的一些前沿進(jìn)展,最后還會給大家介紹我們課題組在風(fēng)險建模方面的一些研究成果。

        01何為另類數(shù)據(jù)挖掘(一個200年前的例子)

        在19世紀(jì),倫敦爆發(fā)了一場非常嚴(yán)重的霍亂疫情,造成了四萬多人的死亡。當(dāng)時學(xué)界普遍認(rèn)為這場瘟疫的源頭是瘴氣,比如垃圾堆的氣體等。有一個年輕的醫(yī)生叫約翰·斯諾,他對這個觀點(diǎn)不是特別的認(rèn)同,因為他曾經(jīng)在在倫敦較為臟亂的環(huán)境中生活過,也接觸到了所謂的瘴氣,但是他發(fā)現(xiàn)他本人包括他周圍的人并沒有因此而感染霍亂。

        約翰·斯諾當(dāng)時做了一個非常令人震撼的工作,他每家每戶的去走訪,去調(diào)研在每戶地址里面感染霍亂的人員數(shù)量,然后在相應(yīng)的地圖位置進(jìn)行記錄。大家可以看到下面這個圖上有一些黑色的條,一個條代表一個感染的病例,這個條越高,就代表地址的病例越多,一張霍亂傳染病的疫情地圖就這樣繪制出來了。

        這個圖在現(xiàn)在司空見慣,但是在當(dāng)時是非常領(lǐng)先的,他把感染數(shù)據(jù)和地圖數(shù)據(jù)融合在了一起,試圖通過這樣一個數(shù)據(jù)挖掘和可視化的方式,去找到疫情的來源。通過這個疫情地圖,他發(fā)現(xiàn)感染的中間核心區(qū)域有一個水泵。周圍的居民都會從水泵去取水,然后他就懷疑是這個水泵受到了污染。約翰·斯諾就向倫敦市zf建議,把這個水泵拆掉,這樣民眾只能從其他的地方去取水。之后很快這塊街區(qū)的疫情就得到了遏制。

        在19世紀(jì),倫敦的生活用水和生活污水沒有做很好的隔離,可能會出現(xiàn)飲用水被污染的情況,所以約翰·斯諾也因此向倫敦市zf建議去修建地下的下水道系統(tǒng)。從某種程度上來說,這樣一個另類數(shù)據(jù)挖掘的工作,也推動了社會的進(jìn)步。

        02當(dāng)前另類數(shù)據(jù)挖掘(Nature:與人類辯論的AI)

        另類數(shù)據(jù)挖掘發(fā)展到今天,已經(jīng)可以去做一些人類能做的事情,甚至在某種程度上,它可以去超越人類,大家可能比較熟悉的例子是之前谷歌的AlphaGo。今天給大家分享一個例子,是刊登在2021年3月18號自然雜志上的封面文章,來自于IBM,叫做Debater,一個人工智能的辯論系統(tǒng),能夠和人類的辯手展開真實的辯論賽。

        這個項目歷時十年,中國、美國、以色列三個國家,大概有四五十的科學(xué)家投入研發(fā)出這樣一個系統(tǒng),我當(dāng)時也非常有幸參與到了這個項目中。以下是當(dāng)時媒體對Debater的一個報道圖片,就是中間這個黑色東西,在它的右側(cè)是一個人類辯論冠軍,他們展開了一場辯論。

        Debater用到了深度學(xué)習(xí)技術(shù),自然語言處理技術(shù),和自然語音生成技術(shù),當(dāng)然還有數(shù)據(jù)挖掘的技術(shù)。這個系統(tǒng)主要用到了兩方面數(shù)據(jù):新聞文本加上維基百科。他們希望能夠在這樣的數(shù)據(jù)里面,挖掘出相應(yīng)的論點(diǎn)和論據(jù),然后組成可以用于辯論的材料。下圖左邊這個模塊里面有一個工作叫做Wikification,用于把新聞文本變成類似于維基百科那樣的一個鏈接式的知識庫。通過命名實體識別(NER),找到這些關(guān)鍵的信息,和現(xiàn)成的知識庫(例如維基百科)進(jìn)行關(guān)聯(lián)。我當(dāng)時參與了其中去歧義的部分工作,比如找到了一個關(guān)鍵詞:蘋果,那它指的是蘋果手機(jī)還是吃的蘋果,需要進(jìn)行分析辨別。歷史人類辯論賽的數(shù)據(jù)記錄。他們希望通過挖掘這樣的歷史辯論記錄,能夠提從中提取出辯論的套路,讓機(jī)器了解到如何去開展一個辯論。把這個辯論的論點(diǎn)和論據(jù)結(jié)合的套路,形成了自己的辯論內(nèi)容,這個也是系統(tǒng)相對比較重要的部分。

        03另類數(shù)據(jù)與交叉研究(Science:衛(wèi)星數(shù)據(jù)與貧困)

        在經(jīng)濟(jì)金融研究方面,另類數(shù)據(jù)挖掘也是有著令人激動的一些進(jìn)展。下面給大家介紹一篇文章,來自于斯坦福大學(xué)的團(tuán)隊16年發(fā)表在Science雜志上,他們用衛(wèi)星圖片數(shù)據(jù)去預(yù)測一些經(jīng)濟(jì)指標(biāo)。他們的研究背景是想去消除貧困的人口,或者是對全世界上這些貧困的人口,進(jìn)行相應(yīng)的幫助和扶貧。

        但是因為貧困的國家的數(shù)據(jù)工作不是很健全,導(dǎo)致可靠的貧困相關(guān)數(shù)據(jù)的缺失,無法去精準(zhǔn)地制定扶貧政策,給人類的扶貧造成了一些困難?茖W(xué)家就通過一些另類數(shù)據(jù)挖掘,試圖去擬合出真實的貧困的情況。

        他們主要的想法就是用衛(wèi)星圖片的公開數(shù)據(jù)建立模型,去預(yù)測貧困的指標(biāo)。通過衛(wèi)星拍攝地表的情況,通過計算機(jī)視覺的各種手段(CNN)得到它相對低維的一個特征表示,比如樓房的密度、荒蕪的程度等,把這樣的一些信息特征X聚合起來,再和這些代表貧困的一些經(jīng)濟(jì)指標(biāo)Y進(jìn)行關(guān)聯(lián),訓(xùn)練模型。

        但這些Y標(biāo)簽其實是不具備的。因為對于不同的國家,它的GDP的數(shù)據(jù)不一定可以直接比較,而且GDP的分辨率也不高,只能精細(xì)到國家的級別,但是他們甚至想知道某一個城市甚至城市里某一個區(qū)域的級別,這個時候GDP的數(shù)據(jù)可能就幫不上忙,而且GDP的數(shù)據(jù)可能要一年才能更新一次。

        后來他們找到了一個代替品,“夜晚的光照強(qiáng)度”,這個數(shù)據(jù)實際上也是來自于衛(wèi)星照片,因為一些研究已經(jīng)發(fā)現(xiàn),夜晚的光照強(qiáng)度和當(dāng)?shù)氐慕?jīng)濟(jì)發(fā)展水平有比較強(qiáng)的正相關(guān)性。它有很好的連續(xù)性,相對客觀而且是可比較的。這樣的衛(wèi)星數(shù)據(jù),甚至可以做到一天就能更新一次,是一個非常精細(xì)和客觀的代替指標(biāo)。

        但夜晚的光照強(qiáng)度,沒有辦法直接用來估計貧困指標(biāo)。如下圖所示,橫軸是不同地方每天的平均資源消耗,縱軸就是夜晚光照強(qiáng)度?梢钥吹皆谥虚g它擬合的情況還可以,誤差相對較;但是頭尾兩側(cè)的誤差其實是很大的;其實也可以理解,因為貧困的和特別貧困的地區(qū),夜晚一般都是黑的;富裕的和特別富裕的地區(qū),都是最亮的;所以在兩種極端的情況下,它沒有特別好的區(qū)分度,但是在中間它有比較好的擬合效果。

        然后他們就用中間這段數(shù)據(jù),關(guān)聯(lián)上之前的X特征(樓房的密度、區(qū)域開發(fā)程度等),訓(xùn)練了一個模型,拿這個模型去預(yù)測了非洲五個國家的貧困指標(biāo),效果確實很好,如下圖所示。他們通過這個方式,彌補(bǔ)了貧困國家在調(diào)研數(shù)據(jù)方面的不足,可以幫助更好地去做扶貧工作。

        04另類數(shù)據(jù)與風(fēng)險(二級市場風(fēng)險捕捉與建模)

        下面來看一下我們課題組在對另類數(shù)據(jù)的利用,以及對風(fēng)險監(jiān)管方面的一些工作。這里的風(fēng)險主要是針對的二級市場,比如股票市場的風(fēng)控和建模。主要會介紹兩個工作。

        1.突發(fā)風(fēng)險事件的監(jiān)測和市場監(jiān)管

        近些年國際上經(jīng)常會發(fā)生一些突然的風(fēng)險事件,比如說大家印象深刻的911事件,還有2011年的福島核泄露等,這些事件發(fā)生之后,對于當(dāng)?shù)匾约叭虻慕鹑谑袌龆荚斐闪朔浅4蟮臎_擊。據(jù)我們的統(tǒng)計,從2000年以來,全球每年都會有超過6500起的恐怖襲擊,178次以上的大型地震,還有一些其他的自然災(zāi)害,所以它并不是一個偶發(fā)的事件。

        所以我們能不能及時地去發(fā)現(xiàn)這樣的風(fēng)險事件,從信息源里面去提取事件的主要信息,然后通過我們掌握的信息,去實時地預(yù)測這個事件對市場產(chǎn)生的影響,主要分為以下兩個步驟:市場模型的建立。這個模型的輸入就是發(fā)生的風(fēng)險事件及其主要信息特征,輸出就是市場根據(jù)這樣的事件會產(chǎn)生什么樣的反應(yīng),是下跌以及下跌多少這樣一個具體的反應(yīng)。這一部分我們主要依賴于歷史事件數(shù)據(jù)庫,因為對于自然災(zāi)害,包括像剛剛提到的恐怖襲擊,有非常詳實的歷史數(shù)據(jù)。我們可以利用歷史數(shù)據(jù)以及更詳實的市場行情數(shù)據(jù)去建立我們的預(yù)測模型。在模型的選擇上,常見的機(jī)器學(xué)習(xí)模型都可以放在里面去使用。事件的實時發(fā)現(xiàn)。因為剛才提到的歷史的事件庫,其實不是實時的,它可能是有非常長的一個時間差的,比如說我今年才能拿到去年的歷史數(shù)據(jù),那么對于市場的預(yù)測來說,這樣的時間太長了。這部分我們主要是通過對實時新聞的分類及信息提取,先抽取了三個大類別恐襲,自然災(zāi)害,傳染病,及其相對應(yīng)的12個小類別,它們具體的信息,包括時間,地點(diǎn),傷亡人數(shù)等信息。接下來我們把這個實時事件的主要信息輸入到市場模型里面,它會告訴我們下一步市場會怎么樣,具體走勢會是怎么樣。

        然后我們希望能夠從多個角度去描摹捕獲到的這些事件,所以里面還使用到了之前提到的夜晚光照數(shù)據(jù)。因為從直覺上來想,如果說兩個造成了同樣傷亡的類似風(fēng)險事件,但是一個發(fā)生在相對發(fā)達(dá)的地區(qū),另外一個發(fā)生在不那么發(fā)達(dá)的地區(qū),那么這兩個事件對于金融市場的影響可能是不一樣的,所以我們就希望通過夜光的數(shù)據(jù)去對不同經(jīng)濟(jì)發(fā)展水平的地點(diǎn)做描摹。

        我們選定了一個特定的事件:恐襲。然后選定了三個觀測的國家:以色列,西班牙,還有哥倫比亞,因為他們有比較健全的金融系統(tǒng),并且這些國家每年還是會遭受恐襲的侵?jǐn)_。我們使用馬里蘭大學(xué)建立的GTD開源數(shù)據(jù)庫,它收錄了1970年至今全球恐怖襲擊的信息,具體包括了135個事件相關(guān)的特征。接下來我們采用了路透社的新聞數(shù)據(jù),大概在900多萬的量級。我們通過這個數(shù)據(jù)去模擬實時獲取的新聞,然后進(jìn)行事件的發(fā)現(xiàn)和抽取。

        在做模型之前,我們通過一些數(shù)據(jù)的分析,發(fā)現(xiàn)當(dāng)市場下跌越多的日子中,發(fā)現(xiàn)它發(fā)生恐怖襲擊的比例就越高。如下圖所示,B這個點(diǎn),它所表示的就是所有市場跌幅超過3.4%的日子里面,有10.3%的比例發(fā)生了恐怖襲擊;當(dāng)市場的跌幅更大,我們看到A這個點(diǎn),當(dāng)市場的跌幅都超過4.1%的話,對于這些日子而言,發(fā)生了恐怖襲擊的概率有12.9%,所以我們就發(fā)現(xiàn)恐怖襲擊對市場確實存在影響。

        通過分析,還發(fā)現(xiàn)經(jīng)濟(jì)越發(fā)達(dá)的地方發(fā)生恐襲,它就越可能發(fā)生市場的下跌呢。從下面這個圖上,我們也可以看到A這個點(diǎn),它表明的就是夜光100以上的地點(diǎn),發(fā)生恐襲的話,會有49.3%的概率市場會發(fā)生下跌;當(dāng)我們看到經(jīng)濟(jì)更發(fā)達(dá)的地方就是B這個點(diǎn),對于夜光強(qiáng)度230以上的地區(qū)來說,如果說它們發(fā)生恐襲,將有53%的概率市場會發(fā)生下跌。所以說也說明了夜光數(shù)據(jù)在這個問題上的影響。

        接下來就是具體的實驗了,我們用了各種分類模型,模型準(zhǔn)確率最高做到了接近70%。最后采用的是決策樹模型,因為從解釋性的角度,決策樹模型它會有更好的表現(xiàn)。它可以告訴我們機(jī)器做出這樣的判斷,具體的原因是什么。黑箱模型往往只要做對就好,不負(fù)責(zé)解釋原因。一旦出現(xiàn)問題,我們很難在很短的時間內(nèi)進(jìn)行故障排查。

        2.國際政要的推文與市場預(yù)測

        課題背景:越來越多的國際政要,他們會使用社交媒體進(jìn)行發(fā)言。他們的發(fā)言對于國際局勢的研判,包括金融市場的方向,有著非常重要的意義。

        美國的前總統(tǒng)特朗普,他發(fā)表了大量的推文,當(dāng)時有著超過6000萬的關(guān)注者。他有時候會表達(dá)對某一些公司及其產(chǎn)品的看法,比如他對一個美國的軍火商發(fā)牢騷,覺得他們的戰(zhàn)機(jī)成本太高了,該軍火商的市值就應(yīng)聲下跌;在他執(zhí)政的中后期,非常關(guān)注和中國的關(guān)系,推文中有很多關(guān)于中國的內(nèi)容,就在19年的時候,他發(fā)表了很多關(guān)于中國,尤其是涉及中美關(guān)稅的內(nèi)容,當(dāng)時確實對全球市場造成了一些擾動。

        但一個人是非常難以快速全面的去了解并處理這些推文,那么是不是能夠用機(jī)器去做這個事情,機(jī)器了解了推文內(nèi)容之后,再自動的去判定推文對市場會產(chǎn)生什么樣的影響?我們就據(jù)此列了幾個研究的問題,推文的背景信息是什么?是什么原因讓他去發(fā)了這條推文?以及推文后續(xù)會產(chǎn)生的影響等等。

        我們擬定的一個研究框架,實際上它的大體思路和我們之前提到的辯論系統(tǒng),有一些相似之處。一條推文過來,我們會先對它進(jìn)行一個命名實體識別,知道它里面有哪些關(guān)鍵的實體詞語,這些實體詞又和維基百科相應(yīng)的概念是如何去產(chǎn)生對應(yīng)的,做一個實體的鏈接,進(jìn)行知識的補(bǔ)充。然后我們也會對推文做一些情感分析,識別它是正面、負(fù)面還是中性的推文。接著我們會用外部的新聞和推文做一個關(guān)聯(lián),尤其是他情緒的一些新聞。我們通過這樣的關(guān)聯(lián)可以去找到他發(fā)表這條推文可能的原因,中間也涉及到一些因果推理的工作;谶@個基礎(chǔ)上,我們希望能夠把推文的解讀和市場行情的變化產(chǎn)生關(guān)聯(lián),從而能夠?qū)κ袌龅娘L(fēng)險產(chǎn)生一些預(yù)警,當(dāng)然這還是在進(jìn)展中的一個工作。

        05簡單的回顧

        今天聊到了什么是另類數(shù)據(jù),什么是另類的數(shù)據(jù)挖掘,也講了一個200年之前的例子,隨后我們介紹了最新的研究及工程上的一些進(jìn)展,在后面還介紹了我們課題組在數(shù)據(jù)挖掘和市場風(fēng)險建模之中的一些工作。希望這些內(nèi)容能夠起到拋磚引玉的作用。非常期待和大家做更深入的交流,也希望大家能夠通過對另類數(shù)據(jù)的挖掘,找到至關(guān)重要的“水泵”,從而推動手上的工作,甚至是人類社會的進(jìn)步。

        今天的分享就到這里,謝謝大家。

        在文末分享、點(diǎn)贊、在看,給個3連擊唄~

        分享嘉賓:

        分享嘉賓:張海鵬博士 上?萍即髮W(xué)

        編輯整理:李冠 百維金科

        出品平臺:DataFunTalk

        添加小助手鏈接:https://wpz.h5.xeknow.com/s/1TDwk4

        1.免費(fèi)資料領(lǐng)取:點(diǎn)擊上方鏈接添加小助手回復(fù)【大數(shù)據(jù)合集】免費(fèi)領(lǐng)取《大數(shù)據(jù)典藏版合集》

        回復(fù)【算法合集】免費(fèi)領(lǐng)取《互聯(lián)網(wǎng)核心算法合集》

        2.添加交流群:點(diǎn)擊點(diǎn)擊上方鏈接添加小助手回復(fù)【大數(shù)據(jù)交流群】加入“大數(shù)據(jù)交流群”

        回復(fù)【算法交流群】加入“算法交流群”

        圖文推薦