2022-05-06

“法律微課堂”系列第二十二期|朱賀:人工(gōng)智能深度學習在法學研究與法律服務中(zhōng)的應用

參與律師

非常感謝韬涵能把小(xiǎo)講第一(yī)百期的機會給我(wǒ)(wǒ),這是我(wǒ)(wǒ)的榮幸,也很激動。說到一(yī)百,習總書(shū)記在建黨一(yī)百周年的時候,就說我(wǒ)(wǒ)們經過了一(yī)百年的奮鬥,基本實現了小(xiǎo)康社會,那麽接下(xià)來将開(kāi)啓新的一(yī)百年的征程。正所謂百尺竿頭更進一(yī)步,韬涵小(xiǎo)講第一(yī)百期既是一(yī)個小(xiǎo)結,也是一(yī)個新的開(kāi)始。我(wǒ)(wǒ)也很榮幸能夠作爲一(yī)份子參與到其中(zhōng),希望能夠跟着韬涵一(yī)起來見證韬涵小(xiǎo)講新的征程的開(kāi)始。

今天我(wǒ)(wǒ)分(fēn)享的題目是《人工(gōng)智能深度學習在法學研究與法律服務中(zhōng)的應用》。就人工(gōng)智能我(wǒ)(wǒ)今天想跟大(dà)家分(fēn)享的主要是三個部分(fēn)的内容。

一(yī)、人工(gōng)智能是什麽

什麽是人工(gōng)智能?人工(gōng)智能英文是artificial intelligence,簡稱 AI,這就是人工(gōng)智能 AI的由來。它是計算機科學的當中(zhōng)的一(yī)個現在非常熱門的一(yī)個分(fēn)支,其中(zhōng)主要研究的内容包括機器人、語音識别、圖像識别、自然語言處理和專家系統。可以說的上是我(wǒ)(wǒ)們目前人類科技智慧的集大(dà)成者,也是在未來很長的一(yī)段時間裏非常重要的一(yī)個發展的方向和領域。

人工(gōng)智能是多種學科的集合,目前已經超出了單純的計算機技術範疇。它的應用是一(yī)種交叉性很強的一(yī)個學科,包括控制論自動化、仿生(shēng)學、生(shēng)物(wù)學、心理學、邏輯學語言學哲學等等,既有自然科學,也有社會科學,是非常非常複雜(zá)的一(yī)門學科。

人工(gōng)智能的研究過程中(zhōng)使用的方法很多,自然科學的、人文社會科學的研究方法都會使用。對于人工(gōng)智能與法律,其實在前些年人工(gōng)智能這個話(huà)題剛剛興起的時候,已經引發過法學界的一(yī)些讨論。當時主要的争議點在于人工(gōng)智能這樣一(yī)個新興事物(wù)它在法律上的定位,或者說它在法律上的屬性是怎樣的?比如就人工(gōng)智能将來能否成爲法律上的行爲主體(tǐ),就有很多的争議。

其中(zhōng)比較有代表性的觀點,像華東政法大(dà)學的劉憲權老師,他之前寫過很多的文章,他主張人工(gōng)智能是可以有主體(tǐ)身份,也就是說在未來人工(gōng)智能有可能會成爲我(wǒ)(wǒ)們刑事領域一(yī)個責任承擔的主體(tǐ)。劉憲權老師是基于人工(gōng)智能領域内的标準,把人工(gōng)智能分(fēn)爲了強人工(gōng)智能和弱人工(gōng)智能。強人工(gōng)智能其實就類似于我(wǒ)(wǒ)們在科幻電(diàn)影裏看到,跟人基本上是一(yī)樣的,有自己的思想,可以獨立的思考,獨自的完成學習和做成一(yī)件事情。而弱人工(gōng)智能其實就是目前我(wǒ)(wǒ)們現階段所使用的所謂的“人工(gōng)智能”,本質上仍然隻是一(yī)種工(gōng)具,沒有達到智能化的标準。

所以,在法律上來講,争議的點就在于以後的強人工(gōng)智能是不是能夠成爲一(yī)種刑法上或者法律上的一(yī)種主體(tǐ)資(zī)格。當然,我(wǒ)(wǒ)們目前還沒有看到什麽時候能真的實現強人工(gōng)智能,所以目前在讨論強人工(gōng)智能屬性或者是法律上地位的時候,基本上屬于一(yī)種屠龍之術,主要着眼于未來,而那個未來什麽時候到來我(wǒ)(wǒ)們猶未可知(zhī)。

那麽我(wǒ)(wǒ)們現在的弱人工(gōng)智能時代,對于他是不是要能夠獨立承擔刑事責任,基本上沒有太大(dà)争議,因爲他本質上是一(yī)種工(gōng)具。比如我(wǒ)(wǒ)們現在很多汽車(chē)上已經使用了自動駕駛的技術,如果一(yī)個人在開(kāi)自動駕駛的汽車(chē)的時候出了車(chē)禍,這個車(chē)禍的刑事責任,包括民事責任究竟應該由誰來承擔?問題隻在于是由坐在這個車(chē)裏的駕駛員(yuán),還是由開(kāi)發這套人工(gōng)系統的程序員(yuán)或者是公司去(qù)承擔?不過我(wǒ)(wǒ)今天要講的不是人工(gōng)智能法律屬性的問題,而是它的應用問題。

二、人工(gōng)智能爲什麽不“智能”?

我(wǒ)(wǒ)相信就目前而言,作爲我(wǒ)(wǒ)們法律從業者都接觸過一(yī)些所謂的一(yī)些人工(gōng)智能的應用。但僅就我(wǒ)(wǒ)個人感受而言,我(wǒ)(wǒ)覺得這些都不算很智能,不知(zhī)道大(dà)家有沒有相同的感受。很多打着智能旗号的東西,其實用起來并不是很智能,或者說隻實現了一(yī)半,隻有人工(gōng)沒有智能。因爲很多應用,比如現在的類案檢索,檢索完了還是有大(dà)量的工(gōng)作需要我(wǒ)(wǒ)們自己去(qù)做,并不是很智能。那究竟是爲什麽人工(gōng)智能不智能?這就需要去(qù)探究一(yī)下(xià)人工(gōng)智能的工(gōng)作邏輯。

人工(gōng)智能基于計算機技術,跟計算機技術原理都是想通的。我(wǒ)(wǒ)們對一(yī)台計算機發出指令,然後它應當給出我(wǒ)(wǒ)們想要的結果。過去(qù)我(wǒ)(wǒ)們在微機房輸入電(diàn)腦做計算,與現在的人工(gōng)智能兩者之間有什麽區别呢?最主要的區别就在于使用的語言不同。

過去(qù)使用計算機做計算,我(wǒ)(wǒ)們使用的是計算機語言。以前我(wǒ)(wǒ)們學計算機課的時候都學過DOS系統,輸入各種指令“/......”。那就是純粹的計算機語言,也就是我(wǒ)(wǒ)們使用的都是計算機能直接讀懂的東西,是經過簡單的二進制代碼轉換的,是計算機的語言。

可是在人工(gōng)智能時代,我(wǒ)(wǒ)們想要達到的是使用我(wǒ)(wǒ)們人類自己的語言,直接跟計算機進行對話(huà),然後再讓計算機得出一(yī)個我(wǒ)(wǒ)們能夠直接看得懂的東西出來,而無需我(wǒ)(wǒ)們再對計算機語言進行翻譯了。等于說這些翻譯的過程都是計算機自己在做,他能直接聽(tīng)得懂我(wǒ)(wǒ)們說的話(huà),也就是所謂的自然語言,比如我(wǒ)(wǒ)現在所講的中(zhōng)文,外(wài)國人可能講英文法語或其他的語言,不管是哪種語言,隻要是人類用的,直接對着一(yī)台電(diàn)腦說出指令,然後電(diàn)腦也能夠反饋給我(wǒ)(wǒ)們一(yī)個能夠直接看得懂、聽(tīng)得懂的結果。這就是人工(gōng)智能跟過去(qù)的計算機一(yī)個非常大(dà)的區别。但想要達到這樣的效果,其實是非常困難的。比如我(wǒ)(wǒ)對這台計算機說,我(wǒ)(wǒ)明天要做韬涵小(xiǎo)講請你給我(wǒ)(wǒ)做一(yī)份PPT。它首先要聽(tīng)得懂我(wǒ)(wǒ)講這句話(huà)是什麽意思,我(wǒ)(wǒ)講的這些中(zhōng)文表達的含義是什麽,因爲它需要把這些自然語言翻譯成計算機能聽(tīng)得懂的語言,然後還要識别我(wǒ)(wǒ)想要的東西是什麽,“幫我(wǒ)(wǒ)做一(yī)個PPT”,比如主題是關于人工(gōng)智能的,然後人工(gōng)智能自己會去(qù)檢索“人工(gōng)智能”是什麽,再根據所有的檢索結果,自己學習、理解什麽是“人工(gōng)智能”,再然後是做什麽樣的PPT等等。經過這一(yī)系列的學習過程,最後他能做出一(yī)個東西交給我(wǒ)(wǒ)。這一(yī)系列的過程,主要涉及到三方面的東西:第一(yī)、數據庫。要有一(yī)個非常非常龐大(dà)的數據庫供人工(gōng)智能“學習”;第二、算法模型。也就是基于數據庫“學習”的能力。比如我(wǒ)(wǒ)要做一(yī)個關于人工(gōng)智能的 PPT,就需要人工(gōng)智能根據一(yī)定的标準從海量的材料中(zhōng)檢索有關的内容,然後進行分(fēn)析,哪些是内容是與目标最相關的、最合适的;第三、計算。根據自己檢索的結果做一(yī)個PPT出來,整個過程全部由計算機自己做出來。這就是爲什麽現在的人工(gōng)智能的實現非常困難的原因。人工(gōng)智能目前在法學領域中(zhōng),首先是在法學研究當中(zhōng)的應用,主要利用這樣的新技術輔助研究,屬于實證研究的一(yī)類。這種新興的實證研究有很多名字,比如分(fēn)析法學、計算法學、計量法學或者數據法學,通過人工(gōng)智能對海量的數據進行分(fēn)析,以前我(wǒ)(wǒ)們人力沒有辦法統計的一(yī)些數據,依靠人工(gōng)智能的力量進行分(fēn)析,無限接近于全樣本的研究。所謂的全樣本就是與研究相關的全部數據,根據統計學的觀點,數據越接近于全樣本,得出來的結論正确率越高。以前人工(gōng)時代我(wǒ)(wǒ)們幾乎不可能做到全樣本研究,但是現在大(dà)數據的發展,人工(gōng)智能技術的成熟,就使得我(wǒ)(wǒ)們可以現在接近實現全樣本研究。比如我(wǒ)(wǒ)們現在基于一(yī)些個案做類案的研究,過去(qù)的方法是進行抽樣調查,例如從1萬個案件當中(zhōng)抽取1000個或2000個樣本進行研究。現在借助人工(gōng)智能,我(wǒ)(wǒ)們可以對所有相關判例進行分(fēn)析。這個工(gōng)作量如果是用人工(gōng)的話(huà)将無法想象,但是借助人工(gōng)智能就可以實現。

第二個是我(wǒ)(wǒ)們律師都比較熟悉的一(yī)些應用,例如智慧法院等司法工(gōng)具,現在已經有很多法院在做,包括我(wǒ)(wǒ)們使用平時使用的阿爾法系統也都屬于人工(gōng)智能的應用。未來可能有當事人直接到法院說對着人工(gōng)智能機器人說我(wǒ)(wǒ)想立案,這個機器人就可以跟他交流,問她想立什麽案子,民事還是刑事,說出你的立案理由等,然後這個機器人就可以幫他去(qù)立案,甚至可以直接幫他出一(yī)份起訴書(shū)。現在有些應用已經接近于實現這些目标了。

就人工(gōng)智能的應用而言,以我(wǒ)(wǒ)自己爲例,去(qù)年我(wǒ)(wǒ)發表的一(yī)篇文章就使用了人工(gōng)智能大(dà)數據分(fēn)析技術。這篇論文以新中(zhōng)國成立以來所頒布的法律做爲研究樣本,大(dà)概有34萬條法律文本。通過對這些樣本進行關鍵詞的檢索之後,得出約8萬份與“營商(shāng)環境”相關的,最後再對這8萬份樣本進行分(fēn)析。這項研究使用了LDA、TF-IDF等算法檢索出現頻(pín)率較高的關鍵詞,根據關鍵詞出現的頻(pín)率,計算每個文本跟目标文本之間的關聯度,最後根據關聯度做可視化分(fēn)布圖。例如下(xià)面這張圖,上面有20個聚類,代表着20個主題,圖上每一(yī)個點代表着一(yī)個文本,也就是一(yī)個法律法規。比如編号15的聚類的關鍵詞是“稅收”,中(zhōng)心點就是跟這個關鍵詞關系最爲緊密的一(yī)份法律法規,而其他與這個關鍵詞相關的文本依其與中(zhōng)心點文本關聯度聚集在周圍,離(lí)這個中(zhōng)心越近的說明跟“稅收”這個詞關聯度越高,靠邊上的就代表關聯度稍低一(yī)些。不同顔色代表着不同的主題聚類。

圖片

上述人工(gōng)智能在法學研究中(zhōng)的應用使用了一(yī)項核心技術叫“自然語言分(fēn)析”,英文叫做 NLP (natural language processing) 。人工(gōng)智能之所以難,就在于要讓計算機能聽(tīng)懂我(wǒ)(wǒ)們的自然語言,計算機理解自然語言的技術就被稱爲自然語言分(fēn)析。回到剛才講的“工(gōng)智能爲什麽不智能”的問題,與自然語言分(fēn)析這項技術目前在中(zhōng)文領域内的發展緩慢(màn)有很大(dà)關系。原因有以下(xià)幾方面:

第一(yī)、漢語的難度。漢語是表意文字,不像英文是表音文字,每一(yī)個漢字都有它自己的含義。輸入每一(yī)個漢字的時候,計算機都需要去(qù)理解這個字的含義,當這些文字組合在一(yī)起時,難度也會大(dà)幅提高。

第二、法律語言不統一(yī)。我(wǒ)(wǒ)國的法律語言目前還沒有實現統一(yī)化,相信大(dà)家也能夠感受得到,比如我(wǒ)(wǒ)們在法庭上辯論的時候,或者在寫法律文書(shū)的時候,很多概念或理論并沒有統一(yī)的定義或用法。再比如一(yī)些外(wài)文的法律詞彙,每個學者都可以提出自己的翻譯版本。甚至會爲了創造新詞而故意使用一(yī)個新概念。

第三、法律語料庫不完備。這個問題與前兩個問題相關,因爲我(wǒ)(wǒ)們沒有統一(yī)的法律語言或者法律術語,所以無法建立完備的語料庫。另外(wài)一(yī)個很重要的原因,中(zhōng)國的法學本科生(shēng)大(dà)都是文科背景,導緻了法學人才缺乏理工(gōng)科的知(zhī)識背景,更缺少計算機科學與法學的交叉人才,因此這方面的技術發展是比較滞後的。法律自然語言分(fēn)析的發展需要既懂計算機技術、又(yòu)懂法律的專門人才才能做好。

第四、專用算法模型的欠缺,這個問題與第三個問題類似,不再展開(kāi)了。

第五、個人非常在意的一(yī)個原因是預設價值的缺失。每一(yī)次自然語言分(fēn)析,也就是人工(gōng)智能需要确定找哪些東西的時候,都是需要我(wǒ)(wǒ)們對其進行價值預設,即應該依照怎樣的标準去(qù)理解目标内容。這個理解的過程其實就是在進行價值判斷,當一(yī)個詞有不同的理解方式時,選擇哪種理解方式或内容就代表着不同的價值取向,傳達了不同的價值觀。所以每一(yī)次做自然語言分(fēn)析,特别是法律自然語言分(fēn)析,如果要讓計算機明白(bái)法律詞彙的含義,一(yī)個前提是對有争議的概念确定其含義。而應當由誰去(qù)确定?誰又(yòu)有權去(qù)确定?是不是隻能由國家去(qù)解釋,或者是做這些技術的人去(qù)解釋,目前仍然沒有定論。這是目前對于人工(gōng)智能,特别是在司法中(zhōng)應用的時候,不僅是我(wǒ)(wǒ)們國家,在全世界都有這樣的擔憂。例如,其中(zhōng)的人工(gōng)智能算法是否需要公開(kāi)的問題。如果公開(kāi)算法,很容易被有些人針對該算法誘導人工(gōng)智能做出有利于自己的判斷;但如果不公開(kāi),因爲公衆不知(zhī)道一(yī)個結論是怎麽算出的,難以消除公衆對其中(zhōng)暗箱操作的懷疑。

個人看法

以下(xià)面兩個圖片爲例:

圖片

第一(yī)個圖片相信很多人不陌生(shēng),是權力遊戲裏的主角——龍媽,她身後是一(yī)條龍,彰顯她的權力。

第二個圖片,是中(zhōng)國古代皇帝身上穿的龍袍。這條龍印在龍袍身上同樣是權力的象征。

這兩個東西都是龍,也都是權力的象征。龍的英文是Dragon ,可是當我(wǒ)(wǒ)們說dragon的時候具體(tǐ)指的是哪條龍?對一(yī)個詞義的理解的影響不是單純地僅限于這一(yī)個詞而已,它代表着是一(yī)種話(huà)語權。英文當中(zhōng)的dragon其實指是西方文化裏邊的龍,它往往是邪惡的象征,在西方神話(huà)裏出現的時候通常是反派角色。而中(zhōng)國的龍恰恰相反,是祥瑞的象征,跟西方dragon的含義完全不同,所以我(wǒ)(wǒ)們有了一(yī)個專用詞,Loong。這個Loong在清朝末期就出現了,就是爲了對抗西方給我(wǒ)(wǒ)們貼的标簽。所以對于同樣的一(yī)個詞怎麽去(qù)解釋,不僅僅是一(yī)個解釋的問題,更是一(yī)種争奪話(huà)語權的問題。

這個問題可以結合下(xià)面的事例進一(yī)步說明。今年的2月25日,習總書(shū)記在中(zhōng)央政治局第三十七次集體(tǐ)學習上的講話(huà),專門講到了人權的話(huà)題。這個話(huà)題以前很敏感的,但是今年是破冰之年,習總書(shū)記專門講到,要“堅定不移的走中(zhōng)國人權發展道路,更好推動我(wǒ)(wǒ)國人權事業發展”,強調“人權是曆史的、具體(tǐ)的、現實的,不能脫離(lí)不同國家的社會政治條件和曆史文化傳統空談人權。評價一(yī)個國家是否有人權,不能以别的國家标準來衡量,更不能搞雙重标準,甚至把人權當作幹涉别國内政的政治工(gōng)具。”而且還提出要“發展我(wǒ)(wǒ)國人權學科體(tǐ)系、學術體(tǐ)系、話(huà)語體(tǐ)系”。所以對于這樣一(yī)個法律概念——人權。我(wǒ)(wǒ)們怎麽去(qù)解釋它,就不僅僅是一(yī)個學術問題,更是一(yī)個争奪話(huà)語權的問題。所以,在未來,我(wǒ)(wǒ)認爲同時也是現在的當務之急之一(yī),我(wǒ)(wǒ)國的法律職業共同體(tǐ)應推動法律術語的統一(yī)化、标準化。

首先要探索在通用語向法律術語轉化的生(shēng)成機制,即日常用語如何轉化爲法律術語。

其次,實現法律體(tǐ)系内部的統一(yī)性、完備性。至少要統一(yī)已有詞彙的含義,這其實是非常有意義的:第一(yī),可以避免很多無畏的争議;第二,限制司法權,通過對一(yī)些詞義的标準化解釋,可以限制司法解釋不當的擴張。如果業屆和學界對一(yī)個詞的含義形成共識,司法解釋就不能夠随意的進行擴大(dà)或限縮。

再次,要開(kāi)發專項的檢索體(tǐ)系,推動案例彙編。現在在推進案例檢索、類案檢索、同案同判的工(gōng)作,而在一(yī)些案件中(zhōng),某一(yī)關鍵事實的定性,或者某一(yī)個關鍵事物(wù)的解釋,就會對案件走向有很大(dà)影響。因此,未來也許不僅限于檢索類案,可能會具體(tǐ)到對某一(yī)個詞的含義怎麽理解,某一(yī)個行爲或者是某一(yī)個物(wù)品怎麽理解進行檢索,并提供給法官。

最後,建立中(zhōng)國特色社會主義法律話(huà)語體(tǐ)系。目前随着我(wǒ)(wǒ)國法治建設的發展,我(wǒ)(wǒ)們已經提出了很多專有的概念、理念,但還沒有建立我(wǒ)(wǒ)國專屬的法律話(huà)語體(tǐ)系。我(wǒ)(wǒ)國業界和學界在跟國外(wài)交流的時候還習慣用别人的觀點、别人的概念。未來我(wǒ)(wǒ)們應該提出我(wǒ)(wǒ)們對某一(yī)個概念的看法和定義,這是一(yī)種話(huà)語權的争奪,對未來業界和學界的發展至關重要。