2022 超全的 AI 圈研究合集義均這知名博主 Louis Bouchard 自制視頻解加短篇析,對小也超級友。雖然世仍在復蘇但研究并有放慢其熱的步伐尤其是在工智能領(lǐng)。此外,年人們對 AI 倫理、偏見黃山理和透明都有了新重視。人智能和我對人腦的解及其與工智能的系在不斷展,在不的將來,些改善我生活質(zhì)量應用將大光彩。知博主 Louis Bouchard 也在自己的博中盤點了 2022 年 32 項(!)AI 技術(shù)突破。接下讓我們一看看,這令人驚艷研究都有些吧!文地址:https://www.louisbouchard.ai/ 2022-ai-recap/LaMA:基于傅里葉卷成山分辨率穩(wěn)的大型掩修復你肯經(jīng)歷過這情況:你你的朋友了一張很的照片。果,你發(fā)有人在你后,毀了要發(fā)到朋圈或者小書的照片但現(xiàn)在,不再是問?;诟?葉卷積的辨率穩(wěn)健大型掩碼復方法,以讓使用輕松清除像中不需的內(nèi)容。論是人,是垃圾桶能輕松消。它就像你口袋里專業(yè) ps 設(shè)計師,只需輕輕按,就能松清除。然看似簡,但圖像復是許多 AI 研究人員長期來一直需解決的問。論文鏈:https://arxiv.org/ abs / 2109.07161項目地址:https://github.com/ saic-mdal / lamaColab Demo:https://colab.research.google.com/github/saic-mdal/lama/blob/master/colab/LaMa_inpainting.ipynb視頻講解:https://youtu.be/ Ia79AvGzveQ短篇分析:https://www.louisbouchard.ai/ lama/STIT:基于 GAN 的真實視頻臉編輯你定有過這的經(jīng)歷:看電影時會發(fā)現(xiàn)電中的演員起來要比人年輕得?!峨p子手》中的爾?史密之前,這要專業(yè)人花費數(shù)百至數(shù)千小的工作,動編輯這演員出現(xiàn)場景。但用 AI,你可以在分鐘內(nèi)完。事實上許多技術(shù)以讓你增笑容,讓看起來更輕或更老所有這些是使用基人工智能算法自動成的。它視頻中被為基于 AI 的面部操作(AI-based face manipulations),代表 2022 年的最新技術(shù)水赤鷩論文鏈接https://arxiv.org/ abs / 2201.08361項目地址https://github.com/ rotemtzaban / STIT視頻講解:https://youtu.be/ mqItu9XoUgk短篇分析:https://www.louisbouchard.ai/ stitch-it-in-time/NeROIC:利用在線圖庫的經(jīng)渲染神渲染可以過物體、物或場景圖片,在間中生成真的 3D 模型。有了墨家項技,你只需有某物體幾張圖片就可以要機器了解些圖片中物體,并擬出它在間中的樣。通過圖來理解物的物理形,這對人來說很容,因為我了解真實世界。但于只能看像素的機來說,這一個完全同的挑戰(zhàn)生成的模如何融入場景?如照片的光條件和角不同,生的模型也因此變化該怎么辦這些都是 Snapchat 和南加州大在這項新究中需要決的問題論文鏈接https://arxiv.org/ abs / 2201.02533項目地址https://github.com/ snap-research / NeROIC視頻講解:https://youtu.be/ 88Pl9zD1Z78短篇分析:https://www.louisbouchard.ai/ neroic/SpeechPainter:文本條件下的語修復對于像來說,于機器學的修復技不僅可以除其中的容,而且能根據(jù)背信息填充像的缺失分。對于頻修復來,其挑戰(zhàn)于不僅要持幀與幀間的一致,而且要免生成錯的偽影。時,當你功地將一人從視頻「踢出去之后,還要把他 / 她的聲音也白翟并刪才行。為,谷歌的究人員提了一種全的語音修方法,可糾正視頻的語法、音,甚至除背景噪。論文鏈:https://arxiv.org/ abs / 2202.07273視頻講解:https://youtu.be/ zIIc4bRf5Hg短篇分析https://www.louisbouchard.ai/ speech-inpainting-with-ai/GFP-GAN:利用生成性部先驗,現(xiàn)真實世的盲臉修你是否有些珍藏的照片,因年代久遠畫質(zhì)模糊不用擔心有了盲臉復技術(shù)(Blind Face Restoration),你的回憶會被久彌新。個全新且費的 AI 模型可以在一瞬宣山復你的大分舊照片即使修復的照片畫非常低,也能很好工作。這之前通常一個相當的挑戰(zhàn)。酷的是,可以按照己喜歡的式進行嘗。他們已開源了代,創(chuàng)建了個演示和線應用程供大家試。相信這技術(shù)一定你大吃一!論文鏈:https://arxiv.org/ abs / 2101.04061項目地址:https://github.com/ TencentARC / GFPGANColab Demo:https://colab.research.google.com/drive/1sVsoBd9AjckIXThgtZhGrHRfFI6UUYOo在線應用:https://huggingface.co/ spaces / akhaliq / GFPGAN視頻講解:https://youtu.be/ nLDVtzcSeqM短篇分析:https://www.louisbouchard.ai/ gfp-gan/4D-Net:多模態(tài)對齊的學自動駕駛車如何「觀六路」你可能聽過車企正使用的 LiDAR 傳感器或他奇怪的機。但它是如何工的,它們何觀察這世界,以它們與我相比究竟到了什么同?論文接:https://arxiv.org/ abs / 2109.01066與特斯拉只岳山用像頭來了世界不同大多數(shù)自駕駛汽車商,比如 Waymo,使用的普通攝像和 3D LiDAR 傳感器。它們鴟會普通相機樣生成圖,而是生 3D 點云,利用 RGB 傳感信息,量物體之的距離,算它們投到物體的沖激光的播時間。管如此,們?nèi)绾斡?地結(jié)合這信息并讓輛理解它車輛最終看到什么自動駕駛否足夠安?Waymo 和谷歌的一篇夔牛究論文將解答這些題。視頻解:https://youtu.be/ 0nJMnw1Ldks短篇分析:https://www.louisbouchard.ai/ waymo-lidar/Instant NeRF:基于多辨率哈希碼的即時經(jīng)圖元如通過照片擬世界的子?使用 AI 模型,人們皮山將拍攝的像變成高量的 3D 模型。這項具騶吾挑性的任務(wù)讓研究人通過 2D 圖像,創(chuàng)建始均體或在三維世中的樣子通過基于希編碼的經(jīng)圖元(graphical primitives),英偉達現(xiàn) 5 秒訓練 NeRF,并獲得了更蓋國效果。在到兩年的究中,將 NeRF 的訓練速提高了 1000 多倍。論文接:https://arxiv.org/ abs / 2201.05989項目地址:https://github.com/ NVlabs / instant-ngp視頻講解:https://youtu.be/ UHQZBQOVAIU短篇分析:https://www.louisbouchard.ai/nvidia-photos-into-3d-scenes/DALL?E 2:基于 CLIP 特征的文本生成圖模型去年OpenAI 發(fā)布了文本-圖像生成模竹山 DALL?E?,F(xiàn)在,升級版 DALL?E 2 又來了。DALL?E 2 不僅可以從文本生逼真的圖,其輸出分辨率是者的四倍不過,性方面的提好像不足令 OpenAI 滿足,為此們還讓 DALL?E 2 學會了一項新能:圖像復。也就說,你可用 DALL?E 2 編輯圖像,或者女薎任何想要新元素,如在背景加上一只烈鳥。論鏈接:https://arxiv.org/ abs / 2204.06125視頻講解:https://youtu.be/ rdGVbPI42sA短篇分析:https://www.louisbouchard.ai/openais-new-model-dall-e-2-is-amazing/MyStyle:個性化生成先驗歌和特拉夫大學提了一個非強大的 DeepFake 技術(shù)。擁有了,你幾乎所不能。需給一個拍上百張片,就可對其圖像行編碼,修復、編或創(chuàng)建出何想要的子。這既人驚奇又人恐懼,其是當你到生成的果時。論鏈接:https://arxiv.org/ abs / 2203.17272項目地址:https://mystyle-personalized-prior.github.io/視頻講解:https://youtu.be/ BNWAEvFfFvQ短篇分析:https://www.louisbouchard.ai/ mystyle/OPT:開放預訓練 Transformer 語言模型GPT-3 如此強大的原,在于其構(gòu)和大小它有 1750 億個參數(shù),是類大腦中經(jīng)元數(shù)量兩倍!如巨大的神網(wǎng)絡(luò)使該型幾乎學了整個互網(wǎng)的內(nèi)容了解我們何書寫、換和理解本。就在們驚嘆于 GPT-3 的強大功能時,Meta 向開源社區(qū)邁了一大步他們發(fā)布一個同樣大的模型并且,該型已經(jīng)完開源了!模型不僅有超過千級別的參,并且, GPT-3 相比,OPT-175B 更加開放及于訪問。文鏈接:https://arxiv.org/ abs / 2205.01068項目地址:https://github.com/ facebookresearch / metaseq視頻鏈接https://youtu.be/ Ejg0OunCi9U短篇分析:https://www.louisbouchard.ai/ opt-meta/BlobGAN:空間離的場景表對于如何述一個場,Adobe 研究團隊給出了個新的方:BlobGAN。BlobGAN 使用「斑點」(blob)來描述場景的對象。究人員可移動這些點,將它變大、變,甚至可刪除,這圖像中斑所代表的體都會產(chǎn)同樣的效。正如作在他們的果中分享那樣,你以通過復斑點,在據(jù)集中創(chuàng)新的圖像現(xiàn)在,BlobGAN 的代碼已經(jīng)楚辭源,興趣的小伴,抓緊上手試試!論文鏈:https://arxiv.org/ abs / 2205.02837項目地址:https://github.com/ dave-epstein / blobgan視頻講解:https://youtu.be/ mnEzjpiA_4E短篇分析:https://www.louisbouchard.ai/ blobgan/Gato:通才智能DeepMind 構(gòu)建了一個一的「通」智能體 Gato??梢酝?Atari 游戲、做幕圖像、人聊天、能控制機臂!更令震驚的是它只訓練次并使用同的權(quán)重便能完成有任務(wù)。Gato 是一個多模智能體。意味著它可以為圖創(chuàng)建標題也能作為天機器人答問題。然 GPT-3 也能陪你聊天但很明顯Gato 可以做到多。畢竟能聊天的 AI 常有,能陪玩戲的不常。論文鏈:https://arxiv.org/ abs / 2205.06175視頻講解:https://youtu.be/ xZKSWNv6Esc短篇分析https://www.louisbouchard.ai/ deepmind-gato/Imagen:具有深語言理解文本到圖的擴散模如果你認 DALL?E 2 很優(yōu)秀,么不妨看這個來自 Google Brain 的新模型 ——Imagen—— 可以做些什。DALL?E 很神奇,但生的圖像往缺乏真實,這就是歌團隊研的 Imagen 所要解決的題。根據(jù)較文本到像模型的準,Imagen 在大型語言型的文本入對文本-圖像的合方面成效著。生成圖像既天行空,又實可信。文鏈接:https://arxiv.org/ abs / 2205.11487項目地址:https://imagen.research.google/視頻講解https://youtu.be/ qhtYPhPWCsI短篇分析:https://www.louisbouchard.ai/ google-brain-imagen/DALL·E Mini一組小扎驚悚圖曾 Twitter 上風靡一陣這組 San 值狂掉的作文文,自 DALL?E mini 之手。作為 DALL?E 家族的「青春青鳥,DALL?E mini 是勝在免費開。代碼已,下一個魔改的人又會是誰?項目地:https://github.com/ borisdayma / dalle-mini在線體驗:https://huggingface.co/ spaces / dalle-mini / dalle-mini視頻講解https://youtu.be/ K3bZXXjW788短篇分析:https://www.louisbouchard.ai/ dalle-mini/NLLB:不落下任一種語言Meta AI 發(fā)布的這款 NLLB-200 模型,模型命名念來自「落下任何種語言」No Language Left Behind),在 200 多種語言上實現(xiàn)靈恝意互譯。究的亮點于:研究讓大多數(shù)資源語言練提升多數(shù)量級,時實現(xiàn)了 200 + 語言翻譯的 SOTA 結(jié)果。論文鏈接https://research.facebook.com/ publications / no-language-left-behind/項目地址https://github.com/ facebookresearch / fairseq / tree / nllb在線體驗https://nllb.metademolab.com/視頻講解:https://youtu.be/ 2G4NeG17Eis短篇分析:https://www.louisbouchard.ai/ no-language-left-behind/Dual-Shutter 光學振動感系統(tǒng)聲也能被看?這篇獲 CVPR 2022 最佳論文榮灌灌獎的究,提出一種新穎 Dual-Shutter 方法,通過用「慢速相機(130FPS)同時檢測個場景源高速(高 63kHz)表面振動,并通捕獲由音源引起的動來實現(xiàn)由此便可實現(xiàn)樂器分離、噪的消除等種需求。文鏈接:https://openaccess.thecvf.com/ content / CVPR2022 / papers / Sheinin_Dual-Shutter_Optical_Vibration_Sensing_CVPR_2022_paper.pdf項目地址:https://imaging.cs.cmu.edu/ vibration/視頻講解:https://youtu.be/ n1M8ZVspJcs短篇分析:https://www.louisbouchard.ai/ cvpr-2022-best-paper/Make-A-Scene:基于場景且有舜先驗的文到圖像生Make-A-Scene 不僅僅是「泰山個 DALL?E」。雖然 DALL?E 可以根據(jù)本提示生隨機圖像這確實很,但同時限制了用對生成結(jié)的控制。 Meta 的目標是推動創(chuàng)意達,將這文本到圖的趨勢與前的草圖圖像模型結(jié)合,從產(chǎn)生「Make-A-Scene」:文本草圖條件像生成之的奇妙融。論文鏈:https://arxiv.org/ abs / 2203.13131視頻講解:https://youtu.be/ K3bZXXjW788短篇分析https://www.louisbouchard.ai/ make-a-scene/BANMo:從任意視頻構(gòu)建目標 3D 動畫模型基于 Meta 的這項研,你只需定捕獲可形對象的意視頻,如上傳幾小貓小狗視頻,BANMo 便可通過將自數(shù)千張像的 2D 線索整合到規(guī)范空中,進而建一個可輯的動畫 3D 模型,且無羊患定義形狀板。論文接:https://arxiv.org/ abs / 2112.12761項目地址:https://github.com/ facebookresearch / banmo視頻講解:https://youtu.be/ jDTy-liFoCQ短篇分析https://www.louisbouchard.ai/ banmo/用潛在擴散模型盂山高分辨率像合成今大火的圖生成模型 DALL?E、Imagen 以及強勢出的 Stable Diffusion,這些強大的像生成模有什么共點?除了計算成本大量訓練間之外,們都基于同的擴散制。擴散型最近在多數(shù)圖像務(wù)中取得 SOTA 結(jié)果,包括隋書用 DALL?E 的文本到圖像,還許多其他圖像生成關(guān)的任務(wù)如圖像修、風格轉(zhuǎn)或圖像超辨率。論鏈接:https://arxiv.org/ abs / 2112.10752項目地址:https://github.com/ CompVis / latent-diffusion視頻講解:https://youtu.be/ RGBNdD3Wn-g短篇分析:https://www.louisbouchard.ai/ latent-diffusion-models/PSG:基于場的圖像生模型AI 可以幫你確識別圖中的物體但是理解體與環(huán)境間的關(guān)系沒有那么松。為此來自南洋工對研究員提出了種基于全分割的全景圖生成panoptic scene graph generation,即 PSG)任務(wù)。相緣婦于統(tǒng)基于檢框的場景生成,PSG 任務(wù)要求全面地出圖像中所有關(guān)系包括物體物體間關(guān),物體與景間關(guān)系背景與背間關(guān)系)并用準確分割塊來位物體。文鏈接:https://arxiv.org/ abs / 2207.11247項目地址:https://psgdataset.org/在線應用:https://huggingface.co/ spaces / ECCV2022 / PSG視頻講解:https://youtu.be/ cSsE_H_0Cr8短篇分析:https://www.louisbouchard.ai/ psg/利用文本反轉(zhuǎn)實文本到圖的個性化成今年各廠的圖像成模型可是八仙過各顯神通但是如何模型生成定風格的像作品呢來自特拉夫大學的者和英偉合作推出一款個性圖像生成型,可以 DIY 你想要得到圖像。論鏈接:https://arxiv.org/ abs / 2208.01618項目地址:https://textual-inversion.github.io/視頻講解:https://youtu.be/ f3oXa7_SYek短篇分析:https://www.louisbouchard.ai/ imageworthoneword/用于通用視頻識別語言圖像訓練模型覺文本模的學習毫疑問已經(jīng)得了巨大功,然而何將這種的語言圖預訓練方擴展到視領(lǐng)域仍然一個懸而決的問題來自微軟中科院的者提出了種簡單而效的方法預訓練的言圖像模直接適應頻識別,不是從頭始預訓練模型。論鏈接:https://arxiv.org/ abs / 2208.02816項目地址:https://github.com/ microsoft / VideoX / tree / master / X-CLIP視頻講解:https://youtu.be/ seb4lmVPEe8短篇分析https://www.louisbouchard.ai/ general-video-recognition/Make-A-Video:一鍵文本生視頻模型家在畫布盡情作畫如此清晰暢的畫面你能想到頻的每一都是 AI 生成的嗎?MetaAI 推出的 Make-A-Video,只需簡單入幾個文,便可在秒內(nèi)生成同風格的頻,說成視頻版 DALL?E」也不為。論文鏈:https://arxiv.org/ abs / 2209.14792視頻講解:https://youtu.be/ MWwESVyHWto短篇分析https://www.louisbouchard.ai/ make-a-video/Whisper:大規(guī)模監(jiān)督語音別模型你沒有想過一個翻譯件可以快翻譯視頻的語音,至是那些自己都聽懂的語言OpenAI 開源的 Whisper 恰好就能做這一點。Whisper 在超過 68 萬小時的多種數(shù)據(jù)上練,能識嘈雜背景的多語種音并轉(zhuǎn)化文字,此還可勝任業(yè)術(shù)語的譯。論文接:https://arxiv.org/ abs / 2212.04356項目地址:https://github.com/ openai / whisper視頻講解:https://youtu.be/ uFOkMme19Zs短篇解析:https://www.louisbouchard.ai/ whisper/DreamFusion:用 2D 圖像生成 3D 模型文本生成圖像視頻,還 3D 模型~谷歌出的 DreamFusion 通過使用訓練的 2D 文本到圖像擴散型可一鍵成 3D 模型,在十億圖像本對上訓的擴散模推動了文到 3D 模型合成最新突破論文鏈接https://arxiv.org/ abs / 2209.14988視頻講解https://youtu.be/ epuU0VRIcjE短篇解析:https://www.louisbouchard.ai/ dreamfusion/Imagic:基于擴散模型真實圖像輯方法使 DALL?E 等文本圖像生模型,只輸入一行字便能得想要的圖,但 AI 生成的圖像有時候不那么完。來自谷、以色列工學院、茨曼科學究所的研者介紹了種基于擴模型的真圖像編輯法 ——Imagic,只用文就能實現(xiàn)實照片的 PS。例如,我們可改變一個的姿勢和圖同時保其原始特,或者我讓一只站的狗坐下讓一只鳥開翅膀。文鏈接:https://arxiv.org/ abs / 2210.09276項目地址:https://imagic-editing.github.io/視頻講解:https://youtu.be/ gbpPQ5kVJhM短篇分析:https://www.louisbouchard.ai/ imagic/eDiffi:更高品質(zhì)文本圖像成模型比 DALL?E 和 Stable Diffusion 更強的圖像合狌狌模來了!這是英偉達 eDiffi,它可以更準確生成更高質(zhì)的圖像此外加入筆模具,以為你的品增加更創(chuàng)造性和活性。論鏈接:https://arxiv.org/ abs / 2211.01324項目地址:https://deepimagination.cc/ eDiff-I/視頻講解:https://youtu.be/ grwp-ht_ixo短篇分析:https://www.louisbouchard.ai/ ediffi/Infinite Nature:從單幅像中學習然場景的限視圖生你有沒有過,隨手一張照片后就像打一扇門一飛進圖片呢?來自歌和康奈大學的學將這一想變?yōu)榱爽F(xiàn),這就是 InfiniteNature-Zero,他可從單圖像中生無限制的然場景視。論文鏈:https://arxiv.org/ abs / 2207.11148項目地址:https://infinite-nature.github.io/視頻講解https://youtu.be/ FQzGhukV-l0短篇分析:https://www.louisbouchard.ai/ infinitenature-zeroGalactica:用于科學耿山大言模型Meta 開發(fā)的 Galactica 是一種大型易傳言型,其大與 GPT-3 相當,但它擅的領(lǐng)域是學知識。模型可編政府白皮、新聞評、維基百頁面和代,它還知如何引用及如何編方程式。對人工智和科學來是一件大。論文鏈:https://arxiv.org/ abs / 2211.09085視頻講解:https://youtu.be/ 2GfxkCWWzLU短篇分析https://www.louisbouchard.ai/ galactica/RAD-NeRF:基于音頻空分解的實人像合成型自從 DeepFake 和 NeRF 的出現(xiàn),AI 換臉似乎已孟槐是空見慣了但有個問,AI 換的臉有時因為對不嘴型而露。RAD-NeRF 的出現(xiàn)可解決這一題,它可對視頻中出現(xiàn)的說者進行實的人像合,此外還持自定義像。論文接:https://arxiv.org/ abs / 2211.12368項目地址:https://me.kiui.moe/ radnerf/ChatGPT:為對話優(yōu)化語言模型2022 年度 AI 的重磅作怎么能少 ChatGPT,這個已經(jīng)鬼國全網(wǎng)并已被網(wǎng)友開出寫小黃、敲代碼各種應用萬能模型如果你還了解它,就快來看!視頻講:https://youtu.be/ AsFgn8vU-tQ短篇分析https://www.louisbouchard.ai/ chatgpt/可直接用于生使用的視人臉 re-aging雖然當下計算機視模型可以人臉的年進行生成風格遷移,但這也是看起來酷,在實應用中卻乎零作用現(xiàn)有的技通常存在面部特征失、分辨低和在后視頻幀中果不穩(wěn)定問題,往需要人工次編輯。近迪士尼布了第一可實用的完全自動的、可用生產(chǎn)使用視頻圖像 re-age 人臉的方法 FRAN(Face Re-Aging Network),正式告電影中化妝師改演員年齡覺效果的術(shù)落幕。文鏈接:https://dl.acm.org/ doi / pdf / 10.1145/3550454.3555520項目地址:https://studios.disneyresearch.com/ 2022/11/30 / production-ready-face-re-aging-for-visual-effects/視頻講解:https://youtu.be/ WC03N0NFfwk短篇分析:https://www.louisbouchard.ai/ disney-re-age/參考資料:https://www.louisbouchard.ai/2022-ai-recap/本文來自微公眾號:智元 (ID:AI_era)