2022年,人工智能帶給人類更多驚喜
◎?qū)嵙?xí)記者 都 芃
即將過去的2022年,對于人工智能來說是值得銘記的一年。大批人工智能相關(guān)應(yīng)用走出實(shí)驗(yàn)室,向著大范圍落地實(shí)踐不斷邁進(jìn)。AI“黑科技”加持下的北京冬奧會異彩紛呈;無人駕駛開啟多城試點(diǎn),未來交通更進(jìn)一步;AI繪畫以假亂真令人著迷,藝術(shù)創(chuàng)作或許不再是人類專屬……
無論是底層技術(shù)不斷突破,還是各類應(yīng)用百花齊放,在過去的一年,人工智能向我們展示了它的無限可能。我們相信這只是人工智能的冰山一角,未來它還有更多潛力等待我們?nèi)ネ诰颉?/p>
隨著技術(shù)的不斷成熟,落地應(yīng)用不斷創(chuàng)新,人工智能或?qū)⒄嬲淖兡阄业纳睢?/p>
AI“黑科技”照亮北京冬奧會
助力天氣預(yù)報、比賽轉(zhuǎn)播和手語播報等
2月4日,全球矚目的2022年北京冬奧會正式拉開帷幕。人工智能等技術(shù)的應(yīng)用為本屆冬奧會增添了別樣的“科技之美”。
在此次冬奧會上,由中國科學(xué)院院士、北京大學(xué)副校長、北京大學(xué)重慶大數(shù)據(jù)研究院首席科學(xué)家張平文領(lǐng)銜研制的人工智能MOML算法賦能天氣預(yù)報模型,使冬奧會天氣預(yù)報更加精準(zhǔn)。人工智能算法在融合、處理信息中的先天優(yōu)勢,使其在一定程度上可以代替預(yù)報員在會商中進(jìn)行信息整合、分析,通過數(shù)據(jù)挖掘與學(xué)習(xí),將預(yù)報員的經(jīng)驗(yàn)內(nèi)化在算法中,在提高天氣預(yù)報效率的同時,也進(jìn)一步提高了預(yù)報的準(zhǔn)確率。
在本屆冬奧會自由式滑雪女子大跳臺決賽中,中國選手谷愛凌以“逆天”的精彩表現(xiàn)獲得個人首金。在比賽轉(zhuǎn)播過程中,百度智能云通過“3D+AI”技術(shù)打造出的“同場競技”系統(tǒng),將單人比賽項目變成“多人比賽”,實(shí)現(xiàn)冠、亞軍比賽畫面的三維恢復(fù)和虛擬疊加,方便觀眾看到不同選手的實(shí)時動作;同時,通過技術(shù)手段對運(yùn)動員動作進(jìn)行量化分析,將滑行速度、騰空高度、落地遠(yuǎn)度、旋轉(zhuǎn)角度等一系列運(yùn)動數(shù)據(jù)與原始畫面疊加起來,使觀眾可以更直觀地從流暢性、完成度、難度、多樣性和美觀度等角度看懂選手之間的技術(shù)動作差異。
在北京冬奧會開幕的同一天,央視新聞AI手語主播也正式上崗,她在冬奧會新聞播報、賽事直播和現(xiàn)場采訪中,為聽障人士送上了實(shí)時手語翻譯服務(wù)。憑借精確的手語翻譯引擎,該AI手語主播可懂度達(dá)85%以上,可將冰雪賽事的文字及音視頻內(nèi)容,快速精準(zhǔn)地轉(zhuǎn)化為手語。
騰訊“混元”AI大模型登頂VCR榜單
展現(xiàn)了其在多模態(tài)理解領(lǐng)域的強(qiáng)大實(shí)力
5月31日,騰訊“混元”AI大模型在多模態(tài)理解領(lǐng)域國際權(quán)威榜單VCR(Visual Commonsense Reasoning,視覺常識推理)中登頂,兩個單項成績和總成績均位列第一。這是繼在跨模態(tài)檢索領(lǐng)域大滿貫、CLUE自然語言理解分類榜及CLUE總榜登頂后,“混元”AI大模型的又一重大突破,展現(xiàn)了其在多模態(tài)理解領(lǐng)域的強(qiáng)大實(shí)力。
與跨模態(tài)理解任務(wù)不同的是,多模態(tài)理解任務(wù)要求計算機(jī)除了能夠做到識別層次的感知(如分類檢測等),還需要達(dá)到認(rèn)知層次的感知(如判斷意圖、邏輯推理等)。
此次登頂VCR榜首的“混元”AI大模型由騰訊廣告多媒體AI團(tuán)隊自主研發(fā),同時借助騰訊太極機(jī)器學(xué)習(xí)平臺的圖形處理器算力和訓(xùn)練加速框架,在預(yù)訓(xùn)練任務(wù)、訓(xùn)練方式上進(jìn)行了諸多創(chuàng)新改進(jìn)和設(shè)計,有效提升了模型性能。
截至目前,“混元”AI大模型在MSR-VTT、MSVD、CLUE、VCR等多個領(lǐng)域的AI權(quán)威榜單中取得了第一名的成績,并刷新多項行業(yè)歷史紀(jì)錄。這意味著,“混元”在自然語言理解、多模態(tài)理解、跨模態(tài)理解等領(lǐng)域的技術(shù)實(shí)力已得到驗(yàn)證。
谷歌工程師鬧烏龍,稱AI存在意識
人工智能所謂的“人格”更多只是模仿人類罷了
谷歌AI工程師鬧烏龍,稱LaMDA語言模型有意識,引發(fā)業(yè)界對“AI是否擁有自主意識”的討論。
今年6月,谷歌公司AI工程師萊莫因認(rèn)為對話應(yīng)用語言模型LaMDA具有了“自主意識”,并對此出具了長達(dá)21頁的證據(jù)。萊莫因認(rèn)為LaMDA具有意識的原因有三:一是LaMDA以前所未有的方式高效、創(chuàng)造性地使用語言;二是它以與人類相似的方式分享感覺;三是它會表達(dá)內(nèi)省和想象——既會擔(dān)憂未來,也會追憶過去。
LaMDA是谷歌在2021年開發(fā)者大會上公布的大型自然語言對話模型,它可以模擬任何帶有知識屬性的實(shí)體,通過“擬人”的方式,在與人類親切自然的對話中為用戶答疑解惑,傳遞更多知識。
萊莫因的觀點(diǎn)和證據(jù)引起了業(yè)內(nèi)的廣泛關(guān)注。不久后,谷歌發(fā)表聲明稱,萊莫因違反了“就業(yè)和數(shù)據(jù)安全政策”,將其解雇。谷歌表示,經(jīng)過廣泛地審查,他們發(fā)現(xiàn)萊莫因關(guān)于LaMDA是有生命的說法是完全沒有根據(jù)的。
專家普遍認(rèn)為,當(dāng)下人工智能具有的所謂“人格”,更多只是模仿人類的語言風(fēng)格,有自我意識、有感知能力的AI應(yīng)該具備能動性,并具有獨(dú)特的視角看待人和事,但目前AI還只是人們設(shè)計的一個計算機(jī)系統(tǒng),作為工具來做一些特定之事。
全球首個圖、文、音三模態(tài)大模型誕生
“紫東太初”實(shí)現(xiàn)“以圖生音”和“以音生圖”
9月1日,在上海舉辦的2022世界人工智能大會上,由武漢人工智能研究院、中國科學(xué)院自動化研究所和華為技術(shù)有限公司聯(lián)合研發(fā)的“紫東太初”多模態(tài)大模型項目獲得了此次大會的最高獎項!白蠔|太初”是全球首個圖、文、音三模態(tài)大模型,開創(chuàng)性地實(shí)現(xiàn)了圖像、文本、語音三模態(tài)數(shù)據(jù)間的“統(tǒng)一表示”與“相互生成”,實(shí)現(xiàn)了“以圖生音”和“以音生圖”,理解和生成能力更接近人類,為打造多模態(tài)人工智能行業(yè)應(yīng)用提供創(chuàng)新基礎(chǔ),向通用人工智能邁出了重要一步。
“紫東太初”三模態(tài)間的相互轉(zhuǎn)換和生成,其核心原理是視覺、文本、語音不同模態(tài)通過各自編碼器映射到統(tǒng)一語義空間,然后通過多頭自注意力機(jī)制學(xué)習(xí)模態(tài)之間的語義關(guān)聯(lián)以及特征對齊,形成多模態(tài)統(tǒng)一知識表示;之后,再利用編碼后的多模態(tài)特征,通過解碼器分別生成文本、圖像和語音。
“紫東太初”憑借四大突破,有效助力以多模態(tài)認(rèn)知為核心的通用人工智能發(fā)展。一是首次提出多層次、多任務(wù)跨模態(tài)自監(jiān)督學(xué)習(xí)框架,支持從詞條級走向模態(tài)級、樣本級的三級預(yù)訓(xùn)練自監(jiān)督學(xué)習(xí)方式;二是首次完成弱關(guān)聯(lián)多模態(tài)數(shù)據(jù)語義統(tǒng)一表示,減少數(shù)據(jù)收集與清洗代價;三是首次實(shí)現(xiàn)多模態(tài)理解與生成任務(wù)的統(tǒng)一建模,支持跨模態(tài)檢索、多模態(tài)分類、語音識別、圖像生成等理解與生成任務(wù);四是首次實(shí)現(xiàn)無監(jiān)督超越有監(jiān)督方法,基于5%—10%的數(shù)據(jù)標(biāo)注,實(shí)現(xiàn)100%的有監(jiān)督學(xué)習(xí)效果。
AI打破矩陣乘法計算速度紀(jì)錄
解決了50年來數(shù)學(xué)領(lǐng)域一個懸而未決的問題
10月,英國《自然》雜志封面以“矩陣游戲”為題,發(fā)表了人工智能公司“深度思維”團(tuán)隊的最新發(fā)現(xiàn):AI可以解決矩陣乘法問題。這款名為“AlphaTensor”的AI系統(tǒng)能自行發(fā)現(xiàn)新算法,從而解決了50年來數(shù)學(xué)領(lǐng)域一個懸而未決的問題——找到兩個矩陣相乘最快的方法。這是第一個可為矩陣乘法等基本任務(wù)發(fā)現(xiàn)新穎、高效且正確算法的AI系統(tǒng)。
數(shù)學(xué)在計算機(jī)編程中經(jīng)常出現(xiàn),通常作為描述和操縱現(xiàn)實(shí)世界現(xiàn)象表示的一種手段。例如,它可用于表示計算機(jī)屏幕上的像素、天氣狀況或人工網(wǎng)絡(luò)中的節(jié)點(diǎn)。在這種情況下,使用數(shù)學(xué)的主要方式之一,就是對矩陣進(jìn)行計算。矩陣越大,工作量也越大,計算機(jī)科學(xué)家開始花費(fèi)大量時間和精力開發(fā)更加有效的算法來完成相關(guān)工作。
在此次最新成果中,“深度思維”團(tuán)隊研究人員探究了是否有可能使用基于強(qiáng)化學(xué)習(xí)的AI系統(tǒng)來創(chuàng)建新算法,從而使計算步驟比現(xiàn)有算法更少。
為了找到答案,他們從游戲系統(tǒng)中尋找靈感。在構(gòu)建了一些初步系統(tǒng)之后,研究團(tuán)隊將重點(diǎn)轉(zhuǎn)向了樹搜索,這是系統(tǒng)在特定情況下查看各種方案的一種方法。
接下來,研究人員將允許系統(tǒng)創(chuàng)建自己的算法,進(jìn)一步提高效率。他們發(fā)現(xiàn),在許多情況下,系統(tǒng)選擇的算法比人類創(chuàng)建的算法更好!吧疃人季S”團(tuán)隊希望,未來AI能更多地用來幫助攻克數(shù)學(xué)和科學(xué)領(lǐng)域的一些重要的難題。
2022中國人工智能創(chuàng)新發(fā)展指數(shù)公布
全面反映我國人工智能發(fā)展態(tài)勢
11月18日,第五屆世界聲博會暨2022科大訊飛全球1024開發(fā)者節(jié)開幕式上,中國電子信息產(chǎn)業(yè)發(fā)展研究院(又稱賽迪研究院)發(fā)布了2022中國人工智能創(chuàng)新發(fā)展指數(shù)(合肥指數(shù))。
這是國內(nèi)首個以地區(qū)冠名的全國性人工智能專題研究成果,旨在全面系統(tǒng)地反映我國人工智能的發(fā)展態(tài)勢。中國電子信息產(chǎn)業(yè)發(fā)展研究院從發(fā)展環(huán)境、創(chuàng)新能力、基礎(chǔ)配套、資本投入和產(chǎn)業(yè)實(shí)力5個維度,構(gòu)建了中國人工智能創(chuàng)新發(fā)展指數(shù),也就是“合肥指數(shù)”的評價體系。
近年來,我國人工智能步入與經(jīng)濟(jì)深度融合應(yīng)用新階段,智能化轉(zhuǎn)型全面推進(jìn),人工智能產(chǎn)業(yè)在全球的影響力不斷增強(qiáng)。2021年,我國人工智能的研發(fā)強(qiáng)度為19.4%,從業(yè)人數(shù)增加到31萬人,占全球比重的5.3%。2017年至2021年,我國人工智能產(chǎn)業(yè)規(guī)模增長了2.6倍,占全球比重提升到16.8%。專利申請量占全球比重持續(xù)擴(kuò)大,從2012年的13%增長到2021年的70.9%。創(chuàng)新能力上,我國人工智能研發(fā)投入力度不斷加大,從業(yè)人數(shù)不斷增加。
從總體指數(shù)來看,北京、廣東和上海處于人工智能領(lǐng)域的領(lǐng)跑地位,安徽則緊隨其后,排在全國的第6位。合肥已經(jīng)成為人工智能領(lǐng)域、科技創(chuàng)新與產(chǎn)業(yè)發(fā)展最活躍的城市之一。
ESMFold預(yù)測六億多種蛋白質(zhì)結(jié)構(gòu)
預(yù)測速度比“阿爾法折疊”快60倍
英國“深度思維”公司8月曾宣布,其開發(fā)的人工智能程序“阿爾法折疊”已預(yù)測出約100萬個物種的超過2億種蛋白質(zhì)結(jié)構(gòu),幾乎涵蓋了科學(xué)界已編錄的每一種蛋白質(zhì)結(jié)構(gòu)。但就在今年11月,元宇宙平臺公司(Meta)研究人員利用人工智能模型ESMFold預(yù)測了來自細(xì)菌、病毒和其他尚未被表征微生物的6億多種蛋白質(zhì)結(jié)構(gòu)。
在此次最新研究中,研究團(tuán)隊利用大型語言模型來預(yù)測這些蛋白質(zhì)結(jié)構(gòu)。據(jù)悉,語言模型通常需要大量文本進(jìn)行訓(xùn)練,為將這一模型應(yīng)用于蛋白質(zhì)結(jié)構(gòu)預(yù)測,研究團(tuán)隊利用已知的蛋白質(zhì)序列來訓(xùn)練它,這些已知的蛋白質(zhì)可由20個不同氨基酸組成的鏈來表達(dá),每個氨基酸由一個字母表示。然后,ESMFold學(xué)會了用模糊的氨基酸比例“自動完成”蛋白質(zhì)結(jié)構(gòu)預(yù)測。
該團(tuán)隊負(fù)責(zé)人亞歷山大·里維斯表示,這些訓(xùn)練讓ESMFold對包含蛋白質(zhì)形狀信息的蛋白質(zhì)序列有了直觀了解。而且,與“阿爾法折疊”一樣,這一模型能將這些了解到的信息與已知蛋白質(zhì)結(jié)構(gòu)和序列之間的關(guān)系信息結(jié)合,生成預(yù)測結(jié)構(gòu)。
團(tuán)隊指出,ESMFold的預(yù)測雖然不像“阿爾法折疊”那么準(zhǔn)確,但在預(yù)測速度上要快60倍,這意味著它可將結(jié)構(gòu)預(yù)測數(shù)據(jù)庫擴(kuò)展到更大。
首創(chuàng)蛋白質(zhì)動態(tài)結(jié)構(gòu)AI建模方法
對理解生命過程、研發(fā)新型藥物有著重要意義
12月8日,西湖大學(xué)公布了該校人工智能講席教授李子青團(tuán)隊聯(lián)合廈門大學(xué)、杭州德睿智藥科技有限公司首創(chuàng)研發(fā)的能夠刻畫蛋白質(zhì)構(gòu)象變化與親和力預(yù)測的AI模型——ProtMD。這是第一個嘗試解析蛋白質(zhì)動態(tài)構(gòu)象的人工智能模型,可輔助藥物化學(xué)專家更加精準(zhǔn)地篩選出高活性小分子,從而加速臨床前藥物研發(fā)。
此前谷歌旗下公司研發(fā)的“阿爾法折疊2”能夠利用人工智能準(zhǔn)確預(yù)測蛋白質(zhì)的三維結(jié)構(gòu),對結(jié)構(gòu)生物學(xué)、藥物設(shè)計乃至整個科學(xué)界都產(chǎn)生了巨大影響。但“阿爾法折疊2”只能預(yù)測蛋白質(zhì)在一個瞬間的靜態(tài)結(jié)構(gòu),尚未能解決蛋白質(zhì)結(jié)構(gòu)動態(tài)變化的預(yù)測。李子青團(tuán)隊此次開發(fā)的AI模型,在給定藥物分子和靶點(diǎn)蛋白的情況下,可預(yù)測藥物分子與生物體內(nèi)靶點(diǎn)蛋白質(zhì)結(jié)合(柔性對接)后蛋白質(zhì)結(jié)構(gòu)的變化過程,推斷藥物與靶標(biāo)蛋白結(jié)合的穩(wěn)定性,預(yù)測藥物功能,從而提升AI藥物設(shè)計的精度和效率。
李子青表示,預(yù)測蛋白質(zhì)結(jié)構(gòu)的動態(tài)變化對理解生命過程、研發(fā)新型藥物都有著十分重要的意義。尤其在AI藥物設(shè)計中,通過對藥物分子與靶點(diǎn)蛋白結(jié)合后的動態(tài)結(jié)構(gòu)變化進(jìn)行預(yù)測,評估藥物—靶點(diǎn)結(jié)合親和力和藥物效果,是提高AI藥物篩選準(zhǔn)確性和效能的重要思路。
多城市推動自動駕駛行業(yè)發(fā)展
我國自動駕駛行業(yè)正式向L3級邁進(jìn)
2022年是自動駕駛行業(yè)具有里程碑意義的一年,有關(guān)政策密集出臺,相關(guān)應(yīng)用從研發(fā)測試走向大規(guī)模商業(yè)化試點(diǎn)。當(dāng)前,全國近30個城市已累計為80余家企業(yè)發(fā)放了超過1000張道路測試牌照,允許高等級智能網(wǎng)聯(lián)汽車在特定場景、特殊區(qū)域內(nèi)開展規(guī)模化載人載物測試示范。越來越多的城市正在推進(jìn)更高等級的自動駕駛商業(yè)化。
今年8月1日,《深圳經(jīng)濟(jì)特區(qū)智能網(wǎng)聯(lián)汽車管理條例》開始實(shí)行,該條例提出L3級自動駕駛在行政區(qū)全域開放道路測試、示范應(yīng)用,探索開展商業(yè)化運(yùn)營試點(diǎn),標(biāo)志著我國自動駕駛行業(yè)正式向L3級邁進(jìn)。
此后,重慶、武漢等地政府部門也先后發(fā)布了自動駕駛?cè)珶o人商業(yè)化試點(diǎn)政策,并向百度發(fā)放全國首批無人化示范運(yùn)營資格,允許車內(nèi)無安全員的自動駕駛車輛在社會道路上開展商業(yè)化服務(wù)。
此外,為推動智能網(wǎng)聯(lián)汽車產(chǎn)業(yè)健康有序發(fā)展,工業(yè)和信息化部會同公安部還組織起草了《關(guān)于開展智能網(wǎng)聯(lián)汽車準(zhǔn)入和上路通行試點(diǎn)工作的通知(征求意見稿)》,擬遴選符合條件的道路機(jī)動車輛生產(chǎn)企業(yè)和具備量產(chǎn)條件的搭載自動駕駛功能的智能網(wǎng)聯(lián)汽車產(chǎn)品,開展準(zhǔn)入試點(diǎn);對通過準(zhǔn)入試點(diǎn)的智能網(wǎng)聯(lián)汽車產(chǎn)品,在試點(diǎn)城市的限定公共道路區(qū)域內(nèi)開展上路通行試點(diǎn)。
AI繪畫火了,AIGC元年開啟
未來預(yù)計能夠產(chǎn)生萬億級經(jīng)濟(jì)價值
今年8月,在美國科羅拉多州舉辦的新興數(shù)字藝術(shù)家競賽中,參賽者杰森·艾倫提交的AIGC繪畫作品——《太空歌劇院》,獲得了此次比賽“數(shù)字藝術(shù)/數(shù)字修飾照片”類別一等獎。沒有繪畫基礎(chǔ)的杰森·艾倫借用了一款名叫Midjourney的AI繪圖工具,通過一個類似“文字游戲”的過程,輸入題材、光線、場景、角度、氛圍等有關(guān)畫面效果的關(guān)鍵詞后,得到了初始作品,并在反復(fù)調(diào)整和修改后最終完成了這組“太空歌劇院”數(shù)字藝術(shù)作品。
這一年,AI繪畫小程序、網(wǎng)站等開始迅猛增長,而美圖秀秀、抖音等軟件也加入了AI畫圖功能。抖音平臺數(shù)據(jù)顯示,截至12月6日,已有超2428.4萬人使用該特效,迅速飆升至特效潮流榜第一位。AI繪畫的百度指數(shù)也從日均兩三千上升到日均3萬,火爆程度可見一斑。
AI繪畫的火爆也讓AIGC這一概念逐漸進(jìn)入大眾視野。
所謂AIGC(AI Generated Content),即基于人工智能技術(shù)自動生成內(nèi)容的新型生產(chǎn)范式。其技術(shù)主要涉及兩個方面:自然語言處理(NLP)和AIGC生成算法。其中,自然語言處理是實(shí)現(xiàn)人與計算機(jī)之間通過自然語言進(jìn)行交互的手段。
最初,AIGC可生成的內(nèi)容形式以文字為主,經(jīng)過2022年指數(shù)級的發(fā)展,目前AIGC技術(shù)可生成的內(nèi)容形式已經(jīng)拓展到了包括文字、圖像、視頻、語音、代碼、機(jī)器人動作等多種內(nèi)容形式,2022年也因此被稱為“AIGC元年”。生成式AI讓機(jī)器開始大規(guī)模涉足知識類和創(chuàng)造性工作,未來預(yù)計能夠產(chǎn)生數(shù)萬億美元的經(jīng)濟(jì)價值。(科技日報)