[汽車之家 新鮮技術(shù)解讀] 在2024年2月15日,我們的正月初六,在一片祥和中,OpenAI發(fā)布了視頻生成模型的最新系統(tǒng),Sora。變革的車輪又一次加快了自己的步伐,在未來的日子里,我們是會被碾壓,還是搭上高速發(fā)展的列車?Sora與汽車行業(yè)在近期會有哪些交集?我嘗試著從自己的小認(rèn)知中淺淺展望,為了能方便大家理解,關(guān)于OpenAI的歷史,我也羅列了一些。
◆ 認(rèn)識Sora母公司OpenAI
OpenAI作為主攻人工智能的企業(yè),創(chuàng)立的初衷是為了對抗人工智能存在的風(fēng)險,并且與咱們汽車行業(yè)的老熟人,埃隆·馬斯克有著千絲萬縷的聯(lián)系。說來話長,咱慢慢縷。2012年,馬斯克認(rèn)識了戴密斯·哈薩比斯,哈薩比斯就是后來顛覆圍棋界的AlphaGo之父,哈薩比斯創(chuàng)辦了一家名為“DeepMind”的公司,試圖打造一種能像人類一樣學(xué)習(xí)、思考的機器,吸引馬斯克除了DeepMind尖端技術(shù),更重要的是哈薩比斯對于人工智能的警惕性。
『AlphaGo之父,哈薩比斯』
哈薩比斯認(rèn)為機器如果進(jìn)化成了超級智能,在未知邏輯下可能做出把人類消滅的決定。馬斯克也曾表示他之所以要打造可以飛往火星的火箭,是為了應(yīng)對在發(fā)生世界大戰(zhàn)等人類文明、物種面臨危機時,星際移民或許是一種可能保存人類物種、文明的方式。除了火箭,還有后來的腦機接口,我們都可以看到馬斯克對于人類物種、文明滅絕的警惕性。在這樣的警覺下,兩人一見如故,馬斯克向哈薩比斯創(chuàng)立的DeepMind投資了500萬美元。
關(guān)于人工智能毀滅人類的邏輯,《超級智能》一書提出的“回形針”有著很好的比喻,如果一臺機器的唯一目標(biāo)就是最大化地量產(chǎn)回形針,當(dāng)它擁有足夠的資源調(diào)控能力,那它有可能會發(fā)明些匪夷所思的技術(shù),只為了把宇宙中能用的資源都轉(zhuǎn)化成回形針,人工智能的目的不一定是直接毀滅人類,人類的毀滅只是順便。
在DeepMind發(fā)展的同時,咱繼續(xù)跟著馬斯克的視角看人工智能。在2013年馬斯克的生日派對上,另一個人工智能的領(lǐng)頭人,谷歌公司的創(chuàng)始人之一拉里·佩奇跟馬斯克爭論了一番,生日派對上跟主人抬杠多少顯得有些不禮貌,佩奇指責(zé)馬斯克是 “ 物種主義者 ”,只偏袒自己這個物種的生存,佩奇認(rèn)為,如果有一天機器的智力,甚至機器的意識,都超過了人類,會迫使人類去適應(yīng)環(huán)境,從而得到新的進(jìn)化。
谷歌創(chuàng)始人謝爾蓋·布林(左)和拉里·佩奇(右)
兩人的爭論不僅僅停留在嘴上,同年年底,谷歌收購了DeepMind公司。馬斯克嘗試過籌錢給DeepMind融資,以此來阻止這筆交易,但馬斯克還是失敗了。
『現(xiàn)在搜到的DeepMind已經(jīng)有谷歌標(biāo)識了』
他轉(zhuǎn)頭去找了奧特曼,奧特曼和馬斯克決定創(chuàng)辦一個非營利性的人工智能研究實驗室,他們將其命名為 “ OpenAI ”。實驗室的軟件是開源的,將努力對抗谷歌在人工智能領(lǐng)域日漸強大的主導(dǎo)地位。后來OpenAI發(fā)布了很多家喻戶曉的產(chǎn)品,但事情并沒有像馬斯克期待的那樣。
2016年4月,OpenAI發(fā)布OpenAI Gym公共測試版,這是強化學(xué)習(xí)研究平臺。12月,OpenAI發(fā)布“Universe”軟件平臺,用于測量和訓(xùn)練AI在全球游戲、網(wǎng)站和其他應(yīng)用匯總的通用智能。
2018年,公司發(fā)布了一篇名為《通過生成式預(yù)訓(xùn)練來改進(jìn)語言理解》的論文,介紹了生成式預(yù)訓(xùn)練轉(zhuǎn)換器(GPT)的概念。GPT是神經(jīng)網(wǎng)絡(luò)是受人類大腦結(jié)構(gòu)和功能啟發(fā)的機器學(xué)習(xí)模型,用于訓(xùn)練大量由人生成的文本數(shù)據(jù)集。
有人把生成式人工智能比作原子能,開啟了生存還是滅亡的議題。為什么這么講?我們來看下生成式人工智能的名詞解釋以及它的運行原理。生成式人工智能(英語:Generative artificial intelligence,或稱Generative AI、生成式AI、產(chǎn)生式AI)能夠產(chǎn)生文字、圖像或其他媒體以回應(yīng)提示工程,ChatGPT就是生成式人工智能。區(qū)別于以往基于數(shù)據(jù)庫的搜索、預(yù)算能力,生成式AI可以產(chǎn)生與訓(xùn)練數(shù)據(jù)相似但具有一定程度新穎性的新內(nèi)容,打開自我進(jìn)化的路線。
用來處理生成式人工智能的最突出框架包括了生成對抗網(wǎng)絡(luò),生成對抗網(wǎng)絡(luò)通過生成和判別兩個神經(jīng)網(wǎng)絡(luò)互相博弈的方式進(jìn)行學(xué)習(xí)。生成網(wǎng)絡(luò)從潛在空間中隨機取樣作為輸入樣本,生成的結(jié)果盡量模仿訓(xùn)練集中的真實樣本。判別網(wǎng)絡(luò)對生成網(wǎng)絡(luò)進(jìn)行辨別,否定它認(rèn)為的不真實樣本。
『生成對抗網(wǎng)絡(luò)示意圖』
生成網(wǎng)絡(luò)產(chǎn)出的內(nèi)容,要盡可能的通過判別網(wǎng)絡(luò)的識別,只要識別不出來內(nèi)容有假,則生成的內(nèi)容越貼近真實。博弈過程中不需要清晰的邏輯,只要生成對抗網(wǎng)絡(luò)的數(shù)據(jù)庫、算力足夠大,就可以產(chǎn)出更優(yōu)的內(nèi)容。博弈過程就好比我不需要對你說真話,只需讓你辨別不出我的話錯在哪里,你自然認(rèn)為我說的是真話。
『美劇:Lie to me(來,騙我) 海報』
生成網(wǎng)絡(luò)不斷的說話,辨別網(wǎng)絡(luò)不斷篩錯。到我們眼前的,即是辨別網(wǎng)絡(luò)找不到錯誤的內(nèi)容,算力、數(shù)據(jù)庫越大,生成數(shù)據(jù)越多、判別能力越強,內(nèi)容也就愈加沒有BUG,人工智能進(jìn)入大力出奇跡的時代。
馬斯克對OpenAI公司的運作方式擔(dān)憂,認(rèn)為該公司沒有足夠關(guān)注人工智能可能帶來的風(fēng)險,而是過度關(guān)注商業(yè)應(yīng)用。因為安全理念問題,馬斯克與奧特曼基本決裂,2018年2月馬斯克辭去董事會席位。
接著OpenAI團隊開發(fā)了GPT-1,這是他們的第一個語言模型,包含超過7,000本未發(fā)表書籍的BookCorpus為基礎(chǔ)進(jìn)行“訓(xùn)練”。這個模型最終演變成GPT-2,可訓(xùn)練的樣本來自800萬個網(wǎng)頁,含有15億個參數(shù),這些訓(xùn)練值使得文本預(yù)測成為可能。
2019年3月,OpenAI LP子公司成立,目的為盈利所用,該公司隨后與微軟合作,并在同年7月得到微軟10億美元的投資,并且為了實現(xiàn)人工智能的算力,微軟還為OpenAI設(shè)計了超級計算機。
『微軟超級計算機』
2020年6月OpenAI宣布GPT-3語言模型;同年微軟宣布建成一臺排名世界前五的超級計算機,專門用于在Azure公有云上訓(xùn)練超大規(guī)模的人工智能模型。這一超級計算機由微軟與OpenAI合作研發(fā),擁有超過28.5萬個CPU核心、1萬個GPU、每GPU擁有400Gbps網(wǎng)絡(luò)帶寬的單一系統(tǒng)超級計算機。那數(shù)據(jù)庫有多大,以GPT-3為例,它已經(jīng)將互聯(lián)網(wǎng)上幾乎所有文本數(shù)據(jù)作為訓(xùn)練語料,過濾后的訓(xùn)練數(shù)據(jù)達(dá)5000億的單詞數(shù),維基百科內(nèi)容夠大不?僅占了GPT-3數(shù)據(jù)的0.6%。
2021年OpenAI推出DALL-E,這是一種深度學(xué)習(xí)模型,可以從自然語言描述中生成數(shù)字圖像;2022年11月,OpenAI發(fā)布自然語言生成模型ChatGPT。
2023年3月,OpenAI發(fā)布了官方ChatGPT API,并允許第三方開發(fā)者利用該API將ChatGPT集成到他們的網(wǎng)站、產(chǎn)品和服務(wù)中,印象中那段時間各個品牌的智能AI如雨后春素,我認(rèn)為這與ChatGPT API開放授權(quán)高度相關(guān)。
同期,OpenAI布了GPT-4。至于GPT-4有多強,它除了能夠接受文本和圖像輸入外,OpenAI宣布更新后的技術(shù)通過了模擬法學(xué)院律師考試,得分在組內(nèi)應(yīng)試者的前10%;相比之下,之前版本的GPT-3.5成績還在倒數(shù)10%。
表格顯示,在法學(xué)考試中民事訴訟GPT-4得分率61.1%,人類考生59%;憲法GPT-4得分率69.4%,人類考生72%;合同法GPT-4得分率88.1%,人類考生70%;刑法GPT-4得分率81.1%,人類考生71%;證據(jù)法GPT-4得分率85.2%,人類考生65%;物權(quán)法GPT-4得分率79.7%,人類考生65%;侵權(quán)行為法GPT-4得分率64.9%,人類考生71%。
人工智能在越來越多的,人類曾引以為傲的領(lǐng)域超過人類。前沿科學(xué)家對人工智能的不可控也越來越擔(dān)憂。人工智能的進(jìn)化是通過海量數(shù)據(jù)在巨量級的模型上訓(xùn)練出來的,而這些數(shù)據(jù)無法都經(jīng)過人工清洗,因此里邊會包含虛假、偏見、無用、有害、不合乎人類價值觀的訓(xùn)練樣本,因此產(chǎn)出的內(nèi)容同樣無法保證不包含以上內(nèi)容。
為了解決價值觀問題,由谷歌跳槽到OpenAI的首席科學(xué)家、董事會成員Ilya Sutskever成立了超級對齊項目研發(fā)團隊,計劃未來4年投入20%算力,用AI監(jiān)督AI的方式,解決人工智能“AI對齊”問題!癆I對齊”的意思是,要求AI系統(tǒng)的目標(biāo)要和人類的價值觀與利益相一致。
Ilya Sutskever認(rèn)為人工智能的發(fā)展,安全優(yōu)先于速度,奧特曼似乎對此并不認(rèn)可,后來Ilya Sutskever出于安全考慮,對董事會提出了奧特曼的罷免,之后這件事在全球鬧得沸沸揚揚,奧特曼在遭罷免之后,又回到了OpenAI。
當(dāng)下,在2023年對罷免奧特曼提出贊成票的三位原董事會成員,均已不在最新的董事會成員名單之上。
2024年2月15日,OpenAI發(fā)布了Sora,該模型能夠生成長達(dá)1分鐘的視頻。
◆ 簡單認(rèn)識Sora
有了以上的知識儲備,認(rèn)識Sora就簡單多了。Sora的底層,采用的是Transformer架構(gòu),建立在過去的DALL·E和GPT的基礎(chǔ)之上,采用了DALL·E3中的重述技術(shù)。整個流程大家可以簡單的理解為Sora通過GPT的理解能力,對其描述的事件搜索資料庫,再對資料庫內(nèi)容進(jìn)行整理拼接,生成我們所描述的事件,過程同樣生成對抗網(wǎng)絡(luò)的大力出奇跡的模式。在Sora之前,OpenAI的產(chǎn)品就已經(jīng)具備生成視頻的能力,只不過不太盡人意。
2023年的OpenAI還是個傻子,單就威爾史密斯吃意大利面的這套動作來看,AI還沒具備基本的生存能力,吃飯。2024年的正月,Sora做出來的視頻下方可以看到。
◆ Sora對汽車行業(yè)的影響
Sora對汽車行業(yè)的影響有限,但對媒體行業(yè),我認(rèn)為沖擊不小。前段時間,有媒體自購車所做的碰撞視頻在業(yè)內(nèi)引起過一波討論,我們也從技術(shù)的的角度進(jìn)行了解讀,無論是自購車碰撞亦或是真實的事故,對我們的安全知識學(xué)習(xí)都起到了正面意義。而Sora的到來,對真實的沖擊會有多大?
接下來我們來看一段Sora生成的視頻,該視頻的文內(nèi)輸入內(nèi)容為,“無人機拍攝的海浪沖擊著大蘇爾迦雷角海灘海灘上崎嶇的懸崖。藍(lán)色的海水拍打著白色的波浪,夕陽的金色光芒照亮了巖石海岸。遠(yuǎn)處有一座小島,島上有一座燈塔,懸崖邊上長滿了綠色的灌木叢。從公路到海灘的陡峭落差是堪稱壯舉,懸崖的邊緣突出在海面上。畫面捕捉到海岸原始美景和太平洋海岸公路崎嶇景觀”。
該視頻我在沒有給提示前,被我抓來驗證真?zhèn)蔚?個同事坦言并不知道是Sora生成的,就連我在知道答案的前提下,也未能找出該視頻中的物理BUG。
聊到這里相信大家已經(jīng)猜出了我要說什么,虛擬內(nèi)容越來越真實,成本越來越低,網(wǎng)絡(luò)難免會充斥各種很難辨別的“非真實”消息,對公眾識別真假的能力提出了更高的要求,對天真的朋友可能會是極大的考驗,想想家庭群中的養(yǎng)生信息。
『汽車的眼睛,攝像頭』
另一方面,我想試著展望Sora對智能駕駛的推動作用,大家都知道當(dāng)下汽車已經(jīng)具備“圖像”識別能力,以往遇到事故,想要復(fù)盤測試,需要在虛幻引擎生成場景還得建模、貼圖甚至放置攝像機等工作,尤其是一些非主流事故,現(xiàn)場還原難度大,收益也不高。
『黑客帝國:覺醒;虛幻引擎5打造』
若能利用Sora視頻,將邊角案例事故場景還原出來了,作為自動駕駛系統(tǒng)的圖像輸入去學(xué)習(xí),或許能夠大幅提升系統(tǒng)對邊角案例的學(xué)習(xí)效率。不過這個比例需要把握好,否則智能駕駛一樣會脫離現(xiàn)實世界。
◆ 對Sora的態(tài)度
Sora的到來,我認(rèn)為首先會影響很多行業(yè)的起跑線,經(jīng)驗、技術(shù)的壁壘不再牢固。舉個例子,以往要想做動畫短片,除了要有好的創(chuàng)意,動畫軟件的學(xué)習(xí)使用恐怕也需要3、5年的時間。現(xiàn)在通過Sora,從有好的創(chuàng)意到產(chǎn)出優(yōu)秀內(nèi)容,大家認(rèn)為會是多久呢?
我們再來看看來自AI的回復(fù),AI表示可能面臨失業(yè)的人群是視覺效果藝術(shù)家和動畫師、平面設(shè)計師、電影和視頻編輯、作家和編劇、演員和配音演員、導(dǎo)演和制片人中涉及高度重復(fù)性任務(wù)的工作。例如,基本的視頻編輯或簡單的平面設(shè)計任務(wù)可能會被自動化;可以標(biāo)準(zhǔn)化或模板化的制作和后期制作任務(wù)可能會被自動化。
以下畫作來自AI生成,關(guān)于藝術(shù),人類最偉大最自豪的文化產(chǎn)物,人工智能已經(jīng)表達(dá)出了十分高超的水平。
『AI生成畫作 太空歌劇院』
我們再來看看真實世界中,影視人是什么態(tài)度。編劇余飛表示,“雖然我對畫面、聲音不是很內(nèi)行,但是以我的觀影經(jīng)驗來說,Sora生成的畫面質(zhì)量是很厲害的,比一般的導(dǎo)演拍的都好”。
紀(jì)錄片導(dǎo)演歐大明則認(rèn)為“我看了AI生成的視頻、圖像,質(zhì)感都是冷冰冰的。比如走在東京街頭那個戴著墨鏡的女人,她的表情里沒有溫度,我感受不到氣息。對于影像作品而言,最重要的是創(chuàng)作者的痕跡,留下你的審美和表達(dá),哪怕作品中存在一些誤差,那也是人的氣息……那些人和人之間的喜怒哀樂,是一種體感。AI最做不到的事情,可能就是共情了”。
兩位影視行業(yè)的前輩的態(tài)度,很好的總結(jié)了Sora到來的可能性,余飛老師認(rèn)為Sora會比“一般”更優(yōu)秀;而隨著Sora虛擬內(nèi)容充斥網(wǎng)絡(luò)時,歐大明老師看到了有一樣?xùn)|西會變得更加珍貴,那便是真實與人性。(文/汽車之家 王鶴璇)
參考、引用資料:
初心、盈利、人類危機:奧特曼正式回歸OpenAI,但錯的可能是他——知危
什么是OpenAI?帶你詳細(xì)了解OpenAI的發(fā)展經(jīng)歷——數(shù)字極客
“硅谷新思想”有效利他主義!一文解析OpenAI宮斗背后真正的“無形之手”——財聯(lián)社
42個中國人被Sora沖擊的一周——燕青 王之言
OpenAI資料——維基百科
好評理由:
差評理由: