生存，還是毀滅？借著Sora說說人工智能

王鶴璇

2024年03月01日 00:00 原創(chuàng) 來源：汽車之家發(fā)布于:河北

收藏 (0條) 舉報/糾錯向編輯提問

　　[汽車之家新鮮技術(shù)解讀]　　在2024年2月15日，我們的正月初六，在一片祥和中，OpenAI發(fā)布了視頻生成模型的最新系統(tǒng)，Sora。變革的車輪又一次加快了自己的步伐，在未來的日子里，我們是會被碾壓，還是搭上高速發(fā)展的列車？Sora與汽車行業(yè)在近期會有哪些交集？我嘗試著從自己的小認(rèn)知中淺淺展望，為了能方便大家理解，關(guān)于OpenAI的歷史，我也羅列了一些。

◆ 認(rèn)識Sora母公司OpenAI

　　OpenAI作為主攻人工智能的企業(yè)，創(chuàng)立的初衷是為了對抗人工智能存在的風(fēng)險，并且與咱們汽車行業(yè)的老熟人，埃隆·馬斯克有著千絲萬縷的聯(lián)系。說來話長，咱慢慢縷。2012年，馬斯克認(rèn)識了戴密斯·哈薩比斯，哈薩比斯就是后來顛覆圍棋界的AlphaGo之父，哈薩比斯創(chuàng)辦了一家名為“DeepMind”的公司，試圖打造一種能像人類一樣學(xué)習(xí)、思考的機器，吸引馬斯克除了DeepMind尖端技術(shù)，更重要的是哈薩比斯對于人工智能的警惕性。

『AlphaGo之父，哈薩比斯』

　　哈薩比斯認(rèn)為機器如果進(jìn)化成了超級智能，在未知邏輯下可能做出把人類消滅的決定。馬斯克也曾表示他之所以要打造可以飛往火星的火箭，是為了應(yīng)對在發(fā)生世界大戰(zhàn)等人類文明、物種面臨危機時，星際移民或許是一種可能保存人類物種、文明的方式。除了火箭，還有后來的腦機接口，我們都可以看到馬斯克對于人類物種、文明滅絕的警惕性。在這樣的警覺下，兩人一見如故，馬斯克向哈薩比斯創(chuàng)立的DeepMind投資了500萬美元。

　　關(guān)于人工智能毀滅人類的邏輯，《超級智能》一書提出的“回形針”有著很好的比喻，如果一臺機器的唯一目標(biāo)就是最大化地量產(chǎn)回形針，當(dāng)它擁有足夠的資源調(diào)控能力，那它有可能會發(fā)明些匪夷所思的技術(shù)，只為了把宇宙中能用的資源都轉(zhuǎn)化成回形針，人工智能的目的不一定是直接毀滅人類，人類的毀滅只是順便。

　　在DeepMind發(fā)展的同時，咱繼續(xù)跟著馬斯克的視角看人工智能。在2013年馬斯克的生日派對上，另一個人工智能的領(lǐng)頭人，谷歌公司的創(chuàng)始人之一拉里·佩奇跟馬斯克爭論了一番，生日派對上跟主人抬杠多少顯得有些不禮貌，佩奇指責(zé)馬斯克是 “ 物種主義者 ”，只偏袒自己這個物種的生存，佩奇認(rèn)為，如果有一天機器的智力，甚至機器的意識，都超過了人類，會迫使人類去適應(yīng)環(huán)境，從而得到新的進(jìn)化。

谷歌創(chuàng)始人謝爾蓋·布林（左）和拉里·佩奇（右）

　　兩人的爭論不僅僅停留在嘴上，同年年底，谷歌收購了DeepMind公司。馬斯克嘗試過籌錢給DeepMind融資，以此來阻止這筆交易，但馬斯克還是失敗了。

『現(xiàn)在搜到的DeepMind已經(jīng)有谷歌標(biāo)識了』

　　他轉(zhuǎn)頭去找了奧特曼，奧特曼和馬斯克決定創(chuàng)辦一個非營利性的人工智能研究實驗室，他們將其命名為 “ OpenAI ”。實驗室的軟件是開源的，將努力對抗谷歌在人工智能領(lǐng)域日漸強大的主導(dǎo)地位。后來OpenAI發(fā)布了很多家喻戶曉的產(chǎn)品，但事情并沒有像馬斯克期待的那樣。

　　2016年4月，OpenAI發(fā)布OpenAI Gym公共測試版，這是強化學(xué)習(xí)研究平臺。12月，OpenAI發(fā)布“Universe”軟件平臺，用于測量和訓(xùn)練AI在全球游戲、網(wǎng)站和其他應(yīng)用匯總的通用智能。

　　2018年，公司發(fā)布了一篇名為《通過生成式預(yù)訓(xùn)練來改進(jìn)語言理解》的論文，介紹了生成式預(yù)訓(xùn)練轉(zhuǎn)換器（GPT）的概念。GPT是神經(jīng)網(wǎng)絡(luò)是受人類大腦結(jié)構(gòu)和功能啟發(fā)的機器學(xué)習(xí)模型，用于訓(xùn)練大量由人生成的文本數(shù)據(jù)集。

　　有人把生成式人工智能比作原子能，開啟了生存還是滅亡的議題。為什么這么講？我們來看下生成式人工智能的名詞解釋以及它的運行原理。生成式人工智能（英語：Generative artificial intelligence，或稱Generative AI、生成式AI、產(chǎn)生式AI）能夠產(chǎn)生文字、圖像或其他媒體以回應(yīng)提示工程，ChatGPT就是生成式人工智能。區(qū)別于以往基于數(shù)據(jù)庫的搜索、預(yù)算能力，生成式AI可以產(chǎn)生與訓(xùn)練數(shù)據(jù)相似但具有一定程度新穎性的新內(nèi)容，打開自我進(jìn)化的路線。

　　用來處理生成式人工智能的最突出框架包括了生成對抗網(wǎng)絡(luò)，生成對抗網(wǎng)絡(luò)通過生成和判別兩個神經(jīng)網(wǎng)絡(luò)互相博弈的方式進(jìn)行學(xué)習(xí)。生成網(wǎng)絡(luò)從潛在空間中隨機取樣作為輸入樣本，生成的結(jié)果盡量模仿訓(xùn)練集中的真實樣本。判別網(wǎng)絡(luò)對生成網(wǎng)絡(luò)進(jìn)行辨別，否定它認(rèn)為的不真實樣本。

『生成對抗網(wǎng)絡(luò)示意圖』

　　生成網(wǎng)絡(luò)產(chǎn)出的內(nèi)容，要盡可能的通過判別網(wǎng)絡(luò)的識別，只要識別不出來內(nèi)容有假，則生成的內(nèi)容越貼近真實。博弈過程中不需要清晰的邏輯，只要生成對抗網(wǎng)絡(luò)的數(shù)據(jù)庫、算力足夠大，就可以產(chǎn)出更優(yōu)的內(nèi)容。博弈過程就好比我不需要對你說真話，只需讓你辨別不出我的話錯在哪里，你自然認(rèn)為我說的是真話。

『美劇：Lie to me（來，騙我）海報』

　　生成網(wǎng)絡(luò)不斷的說話，辨別網(wǎng)絡(luò)不斷篩錯。到我們眼前的，即是辨別網(wǎng)絡(luò)找不到錯誤的內(nèi)容，算力、數(shù)據(jù)庫越大，生成數(shù)據(jù)越多、判別能力越強，內(nèi)容也就愈加沒有BUG，人工智能進(jìn)入大力出奇跡的時代。

　　馬斯克對OpenAI公司的運作方式擔(dān)憂，認(rèn)為該公司沒有足夠關(guān)注人工智能可能帶來的風(fēng)險，而是過度關(guān)注商業(yè)應(yīng)用。因為安全理念問題，馬斯克與奧特曼基本決裂，2018年2月馬斯克辭去董事會席位。

　　接著OpenAI團隊開發(fā)了GPT-1，這是他們的第一個語言模型，包含超過7,000本未發(fā)表書籍的BookCorpus為基礎(chǔ)進(jìn)行“訓(xùn)練”。這個模型最終演變成GPT-2，可訓(xùn)練的樣本來自800萬個網(wǎng)頁，含有15億個參數(shù)，這些訓(xùn)練值使得文本預(yù)測成為可能。

　　2019年3月，OpenAI LP子公司成立，目的為盈利所用，該公司隨后與微軟合作，并在同年7月得到微軟10億美元的投資，并且為了實現(xiàn)人工智能的算力，微軟還為OpenAI設(shè)計了超級計算機。

『微軟超級計算機』

　　2020年6月OpenAI宣布GPT-3語言模型；同年微軟宣布建成一臺排名世界前五的超級計算機，專門用于在Azure公有云上訓(xùn)練超大規(guī)模的人工智能模型。這一超級計算機由微軟與OpenAI合作研發(fā)，擁有超過28.5萬個CPU核心、1萬個GPU、每GPU擁有400Gbps網(wǎng)絡(luò)帶寬的單一系統(tǒng)超級計算機。那數(shù)據(jù)庫有多大，以GPT-3為例，它已經(jīng)將互聯(lián)網(wǎng)上幾乎所有文本數(shù)據(jù)作為訓(xùn)練語料，過濾后的訓(xùn)練數(shù)據(jù)達(dá)5000億的單詞數(shù)，維基百科內(nèi)容夠大不？僅占了GPT-3數(shù)據(jù)的0.6%。

　　2021年OpenAI推出DALL-E，這是一種深度學(xué)習(xí)模型，可以從自然語言描述中生成數(shù)字圖像；2022年11月，OpenAI發(fā)布自然語言生成模型ChatGPT。

　　2023年3月，OpenAI發(fā)布了官方ChatGPT API，并允許第三方開發(fā)者利用該API將ChatGPT集成到他們的網(wǎng)站、產(chǎn)品和服務(wù)中，印象中那段時間各個品牌的智能AI如雨后春素，我認(rèn)為這與ChatGPT API開放授權(quán)高度相關(guān)。

　　同期，OpenAI布了GPT-4。至于GPT-4有多強，它除了能夠接受文本和圖像輸入外，OpenAI宣布更新后的技術(shù)通過了模擬法學(xué)院律師考試，得分在組內(nèi)應(yīng)試者的前10%；相比之下，之前版本的GPT-3.5成績還在倒數(shù)10%。

　　表格顯示，在法學(xué)考試中民事訴訟GPT-4得分率61.1%，人類考生59%；憲法GPT-4得分率69.4%，人類考生72%；合同法GPT-4得分率88.1%，人類考生70%；刑法GPT-4得分率81.1%，人類考生71%；證據(jù)法GPT-4得分率85.2%，人類考生65%；物權(quán)法GPT-4得分率79.7%，人類考生65%；侵權(quán)行為法GPT-4得分率64.9%，人類考生71%。

　　人工智能在越來越多的，人類曾引以為傲的領(lǐng)域超過人類。前沿科學(xué)家對人工智能的不可控也越來越擔(dān)憂。人工智能的進(jìn)化是通過海量數(shù)據(jù)在巨量級的模型上訓(xùn)練出來的，而這些數(shù)據(jù)無法都經(jīng)過人工清洗，因此里邊會包含虛假、偏見、無用、有害、不合乎人類價值觀的訓(xùn)練樣本，因此產(chǎn)出的內(nèi)容同樣無法保證不包含以上內(nèi)容。

　　為了解決價值觀問題，由谷歌跳槽到OpenAI的首席科學(xué)家、董事會成員Ilya Sutskever成立了超級對齊項目研發(fā)團隊，計劃未來4年投入20%算力，用AI監(jiān)督AI的方式，解決人工智能“AI對齊”問題�！癆I對齊”的意思是，要求AI系統(tǒng)的目標(biāo)要和人類的價值觀與利益相一致。

　　Ilya Sutskever認(rèn)為人工智能的發(fā)展，安全優(yōu)先于速度，奧特曼似乎對此并不認(rèn)可，后來Ilya Sutskever出于安全考慮，對董事會提出了奧特曼的罷免，之后這件事在全球鬧得沸沸揚揚，奧特曼在遭罷免之后，又回到了OpenAI。

　　當(dāng)下，在2023年對罷免奧特曼提出贊成票的三位原董事會成員，均已不在最新的董事會成員名單之上。

　　2024年2月15日，OpenAI發(fā)布了Sora，該模型能夠生成長達(dá)1分鐘的視頻。

◆ 簡單認(rèn)識Sora

　　有了以上的知識儲備，認(rèn)識Sora就簡單多了。Sora的底層，采用的是Transformer架構(gòu)，建立在過去的DALL·E和GPT的基礎(chǔ)之上，采用了DALL·E3中的重述技術(shù)。整個流程大家可以簡單的理解為Sora通過GPT的理解能力，對其描述的事件搜索資料庫，再對資料庫內(nèi)容進(jìn)行整理拼接，生成我們所描述的事件，過程同樣生成對抗網(wǎng)絡(luò)的大力出奇跡的模式。在Sora之前，OpenAI的產(chǎn)品就已經(jīng)具備生成視頻的能力，只不過不太盡人意。

更多精彩視頻，盡在汽車之家視頻平臺

　　2023年的OpenAI還是個傻子，單就威爾史密斯吃意大利面的這套動作來看，AI還沒具備基本的生存能力，吃飯。2024年的正月，Sora做出來的視頻下方可以看到。

◆ Sora對汽車行業(yè)的影響

　　Sora對汽車行業(yè)的影響有限，但對媒體行業(yè)，我認(rèn)為沖擊不小。前段時間，有媒體自購車所做的碰撞視頻在業(yè)內(nèi)引起過一波討論，我們也從技術(shù)的的角度進(jìn)行了解讀，無論是自購車碰撞亦或是真實的事故，對我們的安全知識學(xué)習(xí)都起到了正面意義。而Sora的到來，對真實的沖擊會有多大？

　　接下來我們來看一段Sora生成的視頻，該視頻的文內(nèi)輸入內(nèi)容為，“無人機拍攝的海浪沖擊著大蘇爾迦雷角海灘海灘上崎嶇的懸崖。藍(lán)色的海水拍打著白色的波浪，夕陽的金色光芒照亮了巖石海岸。遠(yuǎn)處有一座小島，島上有一座燈塔，懸崖邊上長滿了綠色的灌木叢。從公路到海灘的陡峭落差是堪稱壯舉，懸崖的邊緣突出在海面上。畫面捕捉到海岸原始美景和太平洋海岸公路崎嶇景觀”。

更多精彩視頻，盡在汽車之家視頻平臺

　　該視頻我在沒有給提示前，被我抓來驗證真?zhèn)蔚?個同事坦言并不知道是Sora生成的，就連我在知道答案的前提下，也未能找出該視頻中的物理BUG。

　　聊到這里相信大家已經(jīng)猜出了我要說什么，虛擬內(nèi)容越來越真實，成本越來越低，網(wǎng)絡(luò)難免會充斥各種很難辨別的“非真實”消息，對公眾識別真假的能力提出了更高的要求，對天真的朋友可能會是極大的考驗，想想家庭群中的養(yǎng)生信息。

『汽車的眼睛，攝像頭』

　　另一方面，我想試著展望Sora對智能駕駛的推動作用，大家都知道當(dāng)下汽車已經(jīng)具備“圖像”識別能力，以往遇到事故，想要復(fù)盤測試，需要在虛幻引擎生成場景還得建模、貼圖甚至放置攝像機等工作，尤其是一些非主流事故，現(xiàn)場還原難度大，收益也不高。

『黑客帝國：覺醒；虛幻引擎5打造』

　　若能利用Sora視頻，將邊角案例事故場景還原出來了，作為自動駕駛系統(tǒng)的圖像輸入去學(xué)習(xí)，或許能夠大幅提升系統(tǒng)對邊角案例的學(xué)習(xí)效率。不過這個比例需要把握好，否則智能駕駛一樣會脫離現(xiàn)實世界。

◆ 對Sora的態(tài)度

　　Sora的到來，我認(rèn)為首先會影響很多行業(yè)的起跑線，經(jīng)驗、技術(shù)的壁壘不再牢固。舉個例子，以往要想做動畫短片，除了要有好的創(chuàng)意，動畫軟件的學(xué)習(xí)使用恐怕也需要3、5年的時間。現(xiàn)在通過Sora，從有好的創(chuàng)意到產(chǎn)出優(yōu)秀內(nèi)容，大家認(rèn)為會是多久呢？

　　我們再來看看來自AI的回復(fù)，AI表示可能面臨失業(yè)的人群是視覺效果藝術(shù)家和動畫師、平面設(shè)計師、電影和視頻編輯、作家和編劇、演員和配音演員、導(dǎo)演和制片人中涉及高度重復(fù)性任務(wù)的工作。例如，基本的視頻編輯或簡單的平面設(shè)計任務(wù)可能會被自動化；可以標(biāo)準(zhǔn)化或模板化的制作和后期制作任務(wù)可能會被自動化。

　　以下畫作來自AI生成，關(guān)于藝術(shù)，人類最偉大最自豪的文化產(chǎn)物，人工智能已經(jīng)表達(dá)出了十分高超的水平。

『AI生成畫作太空歌劇院』

　　我們再來看看真實世界中，影視人是什么態(tài)度。編劇余飛表示，“雖然我對畫面、聲音不是很內(nèi)行，但是以我的觀影經(jīng)驗來說，Sora生成的畫面質(zhì)量是很厲害的，比一般的導(dǎo)演拍的都好”。

　　紀(jì)錄片導(dǎo)演歐大明則認(rèn)為“我看了AI生成的視頻、圖像，質(zhì)感都是冷冰冰的。比如走在東京街頭那個戴著墨鏡的女人，她的表情里沒有溫度，我感受不到氣息。對于影像作品而言，最重要的是創(chuàng)作者的痕跡，留下你的審美和表達(dá)，哪怕作品中存在一些誤差，那也是人的氣息……那些人和人之間的喜怒哀樂，是一種體感。AI最做不到的事情，可能就是共情了”。

　　兩位影視行業(yè)的前輩的態(tài)度，很好的總結(jié)了Sora到來的可能性，余飛老師認(rèn)為Sora會比“一般”更優(yōu)秀；而隨著Sora虛擬內(nèi)容充斥網(wǎng)絡(luò)時，歐大明老師看到了有一樣?xùn)|西會變得更加珍貴，那便是真實與人性。（文/汽車之家王鶴璇）

參考、引用資料：

初心、盈利、人類危機：奧特曼正式回歸OpenAI，但錯的可能是他——知危
什么是OpenAI？帶你詳細(xì)了解OpenAI的發(fā)展經(jīng)歷——數(shù)字極客
“硅谷新思想”有效利他主義！一文解析OpenAI宮斗背后真正的“無形之手”——財聯(lián)社
42個中國人被Sora沖擊的一周——燕青王之言
OpenAI資料——維基百科