科技行者OpenAI又一顆「重磅炸彈」:賦予AI藝術創造力

OpenAI又一顆「重磅炸彈」:賦予AI藝術創造力

OpenAI又一顆「重磅炸彈」:賦予AI藝術創造力

OpenAI又一顆「重磅炸彈」:賦予AI藝術創造力

2021年1月20日 12:22:54 科技行者
  • 分享文章到微信

    掃一掃
    分享文章到微信

  • 關注官方公眾號-科技行者

    掃一掃
    關注官方公眾號
    科技行者

面對無限的可能,我們只需要充滿期待。

來源:科技行者 2021年1月20日 12:22:54

關鍵字:人工智能 OpenAI

OpenAI再次投下一顆重磅炸彈。

本月初,曾于去年夏季推出高人氣語言模型GPT-3的OpenAI研究小組再次公布一套名為DALL-E的全新AI模型。雖然它在熱度上不及GPT-3,但卻很可能對AI的未來發展擁有更加深遠的影響。

簡而言之,DALL-E能夠將文本描述作為輸入,據此生成原始圖像輸出。(DALL-E這一名稱,源自對超現實主義藝術家薩爾瓦多·達利及皮克斯工作室創造的可愛機器人形象WALL-E的致敬。)

例如,當輸入“五角形綠色時鐘”、“火球”或者“建筑物墻面上的藍色南瓜壁畫”之后,DALL-E即可生成令人震驚的準確視覺效果。

OpenAI又一顆「重磅炸彈」:賦予AI藝術創造力

▲ 在要求生成“建筑物墻面上的藍色南瓜壁畫”后,OpenAI的全新深度學習模型DALL-E能夠生成以上原始圖像

DALL-E為什么意義重大?

首先,它預示著一種所謂“多模AI”的全新AI范式的出現。這種范式似乎代表著人工智能的未來面貌。以DALL-E為例,多模AI系統能夠對多種信息模式進行解釋、合成與翻譯,由此把情境、語言與圖像映射起來。雖然DALL-E并不是第一套多模AI方案,但卻擁有迄今為止最令人驚嘆的實際效果。

OpenAI聯合創始人Ilya Sutskever總結道,“這個世界不僅由文字 構成。人類在表達之余,還會訴諸視覺。視覺元素非常重要。”

目前存在的大部分AI系統只能處理一種數據類型。以自然語言處理模型(NLP模型,例如GPT-3)只能處理文本;計算機視覺模型(例如人臉識別系統)只能處理圖像。但人腦所表現出的智能明顯適應性更強,所能處理的信息也更為靈活。

人類能夠不斷從五種感官處接收并整合信息——我們也正是通過視覺、聽覺、觸覺、嗅覺與味覺的結合理解周遭世界。以此為基礎,我們又以語音、文本、肢體表達、面部表情與音樂等多種形式將信息傳遞回這個豐富多彩的世界。

通過將自然語言理解與視覺表示生成的能力結合起來(也就是將「閱讀」與「視覺」相結合),DALL-E再次證明多模AI中蘊藏的巨大潛力。

這還僅僅只是開始。在之后的幾個月乃至幾年中,新的AI系統有望將音頻、視頻、語音、圖像、書面文本、觸覺以及其他要素無縫銜接起來。隨著AI學會以越來越復雜的方式將多種信息結合起來,其理解世界并產生新穎洞見的能力也將迎來爆發式增長。

DALL-E還有另一層,或者說更為根本的重要意義:人類越來越無法否認人工智能中蘊含的巨大創造力。

DALL-E生成的圖像遠超人類的想象力范疇。這絕不只是對互聯網上的現成圖像進行簡單修改——相反,這些是前所未有的效果圖,其中的巧妙性與獨創性足以令藝術家們為之贊嘆。事實上,就連DALL-E的創造者們往往也理解不了其生成原理。

下面來看DALL-E的幾幅作品。首先是“一碗拉面表情符號”,接下來的一幅是“牛油果組成的企鵝”。如果這些成果來自人類設計師,我們無疑會將其視為實實在在的創作產物。既然如此,我們還有理由否定或者拒絕DALL-E嗎?

OpenAI又一顆「重磅炸彈」:賦予AI藝術創造力

▲ DALL-E根據“一碗拉面表情符號”輸出的圖像

OpenAI又一顆「重磅炸彈」:賦予AI藝術創造力

▲ DALL-E根據“牛油果組成的企鵝”生成的圖像

憑借這種強大的創造力,DALL-E足以在產品設計、時尚以及建筑等領域證明AI技術的現實意義。不久之后,人類設計師也許會習慣使用DALL-E等AI系統作為構思助手甚至是靈感來源。

舉個例子,在要求設計“甜甜圈風格的扶手椅”時,DALL-E帶來了種種富有構圖的選擇。當然,它的設計與外觀還頗具水準。不難想象,未來一定會有家具設計師反復使用DALL-E以探索模型輸出,調整輸入文本進行設計迭代,最終將AI元素引入自己的作品當中。從汽車到燈具、從珠寶到房屋,類似的創意過程將適用于眾多產品。

OpenAI又一顆「重磅炸彈」:賦予AI藝術創造力

▲ DALL-E根據“甜甜圈風格的扶手椅”生成的輸出圖像

當然,DALL-E還遠非完美,它所生成的圖像也并不總能準確表現輸入文本:例如,它經常會在顏色、數量或空間關系方面犯錯誤。

OpenAI公開發布的DALL-E工作示例已經由CLIP神經網絡進行排序與篩選。對于每項文本輸入,篩選后系統將僅顯示512個樣本中置信度最高前32個樣本。換句話說,DALL-E實際生成的圖像更多,只是其中大部分效果不佳。

綜上所述,DALL-E的創造能力令人驚訝,而這項技術本身也仍在快速迭代當中。

與AI技術的其他重大發展一樣,DALL-E再次讓我們想起一個古老的問題:機器的智能水平是否越來越接近人類?

一方面,DALL-E的誕生激發起關于超級智能技術的夸張表述。但在另一方面,以著名深度學習評論家Gary Marcus為代表的懷疑論者,則認為DALL-E并沒有給AI技術的發展帶來任何切實推動。

Marcus的觀點值得認真對待。深度學習(包括為DALL-E、GPT-3提供基礎的前沿transformer架構)在智能概念建模方面仍然存在著嚴重的局限性。

但從某種意義上講,這場爭論其實偏離了真正的重點。無論OpenAI的新模型是否代表著邁向“人工通用智能”的下一步,也無論深度學習能否真正帶來與人類擁有同等認知水平的機器智能成果,DALL-E本身仍然具備非凡的新能力——這已經成為不爭的事實。

DALL-E及其后續方案有望在人與機器間的創造關系中帶來新的可能性,并由此衍生出巨大的經濟價值,為新一波創新型初創企業及產品奠定基礎。

面對無限的可能,我們只需要充滿期待。

    无码自拍