作者 | 圖形起源CEO史海天
編輯 | 石亞瓊
今年AI生成圖像能力進步得非?????斓绞裁闯潭饶??三四月份的時候,AI還很難畫出一個正常的人臉,到九月份的時候,AI已經(jīng)可以把人臉畫的惟妙惟肖了。
(資料圖片)
要知道,我們對人臉的觀察是非常敏銳的,很容易能察覺到哪怕很細(xì)微的錯誤。
而下面這幾張圖都是用戶使用今天的AI在30s的時間里畫出來的圖:
用戶在Draft.art上創(chuàng)作的人像作品
可見,今天的AI對“人應(yīng)該長什么樣”的理解已經(jīng)非常準(zhǔn)確了。
AI和人不同的是,一旦它畫出了一張漂亮的人臉,它就可以持續(xù)地畫。而且隨著從更多的數(shù)據(jù)中學(xué)習(xí),水平還能不斷提高。
因此也難怪周圍美術(shù)行業(yè)的朋友感慨要失業(yè)了。
那么,AI“畫”一張圖的原理是什么?它的學(xué)習(xí)方式是什么?未來AI作畫會以多快的速度進步?AI作畫會如何影響創(chuàng)作者們的利益?
我們可以從第一性原理出發(fā),來逐個分析這幾個問題:
AI作圖的原理
AI創(chuàng)作能力的根源來自神經(jīng)網(wǎng)絡(luò)這項技術(shù)。
我們爭取用最簡單的方法給沒有知識背景的同學(xué)講清楚什么是神經(jīng)網(wǎng)絡(luò),為什么神經(jīng)網(wǎng)絡(luò)可以在30s的時間里把一張精美的圖像畫出來。
人的神經(jīng)元長這樣:
人的神經(jīng)元
科學(xué)家受人類神經(jīng)元啟發(fā),設(shè)計出的人工神經(jīng)網(wǎng)絡(luò)長下面這樣:
人工神經(jīng)網(wǎng)絡(luò)
一般講神經(jīng)網(wǎng)絡(luò)就是指這種人工的網(wǎng)絡(luò)。
其實實際的神經(jīng)網(wǎng)絡(luò)都是用數(shù)學(xué)公式表示的,沒有實體結(jié)構(gòu),圖里面的這些圈和連線是對神經(jīng)網(wǎng)絡(luò)的一種可視化呈現(xiàn)。
這些圓圈起什么作用呢,我們想象每個圓圈里都有一個計數(shù)器,當(dāng)這個計數(shù)器接收到左邊連線傳來的數(shù)時,會進行一次簡單的計算,然后把計算結(jié)果(也是一個數(shù))輸出,通過連線傳給右邊的圓圈,繼續(xù)重復(fù)類似的過程,直到數(shù)字從最右側(cè)的圓圈輸出。
我們腦子里的不同神經(jīng)元之間連接的強度是不一樣的,有些粗一點,有些細(xì)一點。正是這些連接強度,讓我們產(chǎn)生了記憶和知識。
對于計算機神經(jīng)網(wǎng)絡(luò)來說,也有相似的規(guī)律:圓圈和圓圈之間的連線的“權(quán)重”不同。權(quán)重是連線的一個屬性,當(dāng)數(shù)字在一條連線上傳遞的時候,要乘上這個連線代表的“權(quán)重”。因此,當(dāng)數(shù)字經(jīng)過這些連線以后,會因為乘過了不同的權(quán)重,導(dǎo)致輸出結(jié)果的改變。
因此,對于整張神經(jīng)網(wǎng)絡(luò)而言,其中的各個圓圈之間的連接權(quán)重,決定了神經(jīng)網(wǎng)絡(luò)的輸出!
神經(jīng)網(wǎng)絡(luò)連接
神經(jīng)網(wǎng)絡(luò)運行的過程是:
我們給神經(jīng)網(wǎng)絡(luò)左邊輸入一系列數(shù)字,神經(jīng)網(wǎng)絡(luò)會按照圓圈里的計算規(guī)則,和連線上的權(quán)重,把數(shù)字從左到右計算和傳遞,最終,從最右側(cè)的圓圈輸出一系列數(shù)字。輸入一組數(shù)、輸出另一組數(shù),這就是神經(jīng)網(wǎng)絡(luò)的運行過程。
為什么這樣一個網(wǎng)絡(luò)可以“生成圖片”呢?
我們看看圖片是什么:
計算機里的圖片是由像素組成的,每個像素代表一個顏色,當(dāng)像素排列的足夠多、足夠密集的時候,一張有內(nèi)容有顏色的圖片就出現(xiàn)了。
我們知道,眼睛看到的顏色是由光的三原色組成的,相似地,計算機里的顏色也是由3種基本色組合成的。
每個像素的顏色都可以用三種基本色(紅、綠、藍(lán))疊加出來。
像素顏色
那么,如果用數(shù)字來記錄每個像素中紅、綠、藍(lán)的比例,我們就可以把一張圖片表達成一張由數(shù)字組成的表格了:
圖片的像素表格
當(dāng)我們把這堆數(shù)字展開,按特定順序排成一排的時候,圖片就變成了一串?dāng)?shù)字。
反之,我們把一串符合長度要求的數(shù)字堆在一起,再從里面按照紅、綠、藍(lán)的比例還原出色彩的時候,我們就把一串?dāng)?shù)變成了一張“圖片”。
而文字又是什么呢?
假設(shè)計算機共存儲了10w個漢字,我們把十萬個數(shù)字“0”從左到右排列起來,讓每個漢字對應(yīng)一個位置并記錄其對應(yīng)關(guān)系。
當(dāng)我們想表達某個字的時候,我們找到這串?dāng)?shù)里對應(yīng)這個字的位置,然后把這個位置的0改為1,其余位置仍然是0。這樣,我們就可以把一個漢字轉(zhuǎn)化成這樣 0,0,0, ..., 1, ...,0,0 的一串?dāng)?shù)。
當(dāng)我們用多串這樣的數(shù)連在一起的時候,我們就可以表達一個包含多個漢字的句子了。
當(dāng)句子可以被轉(zhuǎn)化成一串?dāng)?shù)以后,就可以被輸入“神經(jīng)網(wǎng)絡(luò)”了。
比如我們把 1, 5, 4, 9, 3 這串?dāng)?shù)輸入神經(jīng)網(wǎng)絡(luò),意思就是,讓計算機把 1、5、4、9、3 分別加到第一排的這些圓圈上,并按照規(guī)則繼續(xù)往后傳遞。
數(shù)字輸入神經(jīng)網(wǎng)絡(luò)
數(shù)字們在神經(jīng)網(wǎng)絡(luò)的圓圈和連線之間不斷傳遞,最后通過最右側(cè)的圓圈輸出:
神經(jīng)網(wǎng)絡(luò)運算
輸出的結(jié)果也是一串?dāng)?shù)字。
此時,我們按照數(shù)字轉(zhuǎn)圖片的規(guī)則把輸出的這串?dāng)?shù)轉(zhuǎn)換成一張圖片,那么從原理上我們就實現(xiàn)了“通過句子生成圖片”的目標(biāo)。
只不過,當(dāng)我們沒有對神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練的時候,其輸出的數(shù)字是很隨機的,因此轉(zhuǎn)換出來的圖片內(nèi)容也是完全混亂的。
為了讓神經(jīng)網(wǎng)絡(luò)輸出“正確”的圖片,我們需要對神經(jīng)網(wǎng)絡(luò)進行“訓(xùn)練”。
按照前面的知識,我們知道影響神經(jīng)網(wǎng)絡(luò)輸出的是神經(jīng)網(wǎng)絡(luò)的權(quán)重。
那么如何改變神經(jīng)網(wǎng)絡(luò)里的連接權(quán)重,來讓神經(jīng)網(wǎng)絡(luò)輸出我們希望輸出的內(nèi)容呢?
比如我們想讓神經(jīng)網(wǎng)絡(luò)生成一只貓的圖片。
第一步,讓沒有訓(xùn)練過的(也就是隨機權(quán)重的)神經(jīng)網(wǎng)絡(luò)接收到“貓”這個詞,直接進行計算。按照我們上面的知識,代表“貓”的一串?dāng)?shù)經(jīng)過從左到右的傳遞后,出來的這串?dāng)?shù)可以轉(zhuǎn)化成一張圖片。
但此時因為沒有訓(xùn)練,得到的這個圖片是一堆亂碼,和貓沒有關(guān)系。
神經(jīng)網(wǎng)絡(luò)生成貓圖
我們粗略認(rèn)為,如果神經(jīng)網(wǎng)絡(luò)輸出的圖像和貓的圖像比較接近的話,說明神經(jīng)網(wǎng)絡(luò)“更理解”貓長什么樣,說明神經(jīng)網(wǎng)絡(luò)更會畫“貓”;如果和貓的圖像差距很大的話,證明神經(jīng)網(wǎng)絡(luò)不太會畫“貓”。
有知識背景的同學(xué)知道這里面存在很多隱含假設(shè),但是通俗來講,訓(xùn)練神經(jīng)網(wǎng)絡(luò)的基本思路就是希望就是通過改變神經(jīng)網(wǎng)絡(luò)的權(quán)重,使得神經(jīng)網(wǎng)絡(luò)輸出的圖片和正確圖片之間的差距變小。
如何量化兩張圖片之間的差距呢?
方法就是用代表兩張圖片的那兩串?dāng)?shù)直接做減法,相減后結(jié)果越接近0,說明兩張圖片“越像”。
訓(xùn)練后神經(jīng)網(wǎng)絡(luò)生成貓圖過程
那么我們?nèi)绾巫屔窠?jīng)網(wǎng)絡(luò)的權(quán)重朝著這種“結(jié)果差距變小”的方向改變呢?
這里用到了一個“反向傳播”的方法。“反向傳播”就是我們可以讓輸出結(jié)果之間的“差距”,去返回去改變神經(jīng)網(wǎng)絡(luò)的權(quán)重,讓代表結(jié)果的差距的信號在神經(jīng)網(wǎng)絡(luò)中“反向”傳播。感受一下這個過程:
訓(xùn)練過程
怎么用結(jié)果的差距改變權(quán)重呢?
最簡單的理解是,你讓一個權(quán)重增大一點,試試結(jié)果如何,如果結(jié)果的“差距”變小了,說明權(quán)重增大是正確的,那么你就真的增加這個權(quán)重;如果“差距”反而變大了,那就說明權(quán)重增大是錯誤的,你就減小這個權(quán)重。以此類推,在固定住其他權(quán)重的情況下,把每個權(quán)重都按這種方法優(yōu)化一下。經(jīng)過漫長的很多次循環(huán)之后,理想情況下,整個神經(jīng)網(wǎng)絡(luò)的權(quán)重分布就會讓輸出的結(jié)果越來越接近“正確”結(jié)果了!
訓(xùn)練結(jié)果反向訓(xùn)練
比如當(dāng)這樣優(yōu)化500輪之后,神經(jīng)網(wǎng)絡(luò)輸出的數(shù)字轉(zhuǎn)化成的圖片已經(jīng)很接近“正確”的貓的圖片了,那我們就可以認(rèn)為,這個神經(jīng)網(wǎng)絡(luò)已經(jīng)學(xué)會畫“貓”啦!
那么,理解了最基本的神經(jīng)網(wǎng)絡(luò)原理以后。我們看看今天最先進的AI生成技術(shù)是什么樣的。
它其實就是幾個不同神經(jīng)網(wǎng)絡(luò)的組合!大概長這個樣子:
(右圖是簡化版本)
里面有三個神經(jīng)網(wǎng)絡(luò)在起作用。
【句子轉(zhuǎn)換網(wǎng)絡(luò)】的作用就是把輸入的提示語轉(zhuǎn)化成一個后面網(wǎng)絡(luò)更好理解的數(shù)串。
【生成網(wǎng)絡(luò)】的作用是接收到代表提示語的數(shù)串和處理后的參考圖后,輸出一張圖像。
【放大網(wǎng)絡(luò)】的作用是把生成網(wǎng)絡(luò)輸出的圖像進一步放大,提高分辨率和清晰度。
根據(jù)上面的原理,其實一個網(wǎng)絡(luò)經(jīng)過大量訓(xùn)練,理論上就可以完成詞語轉(zhuǎn)換和生成圖片的全部任務(wù)。為什么要設(shè)計多個網(wǎng)絡(luò)分工的結(jié)構(gòu)呢,是因為經(jīng)過大量科學(xué)家的探索,發(fā)現(xiàn)這樣的結(jié)構(gòu),在訓(xùn)練成本上和出圖效果上都比較理想。
未來可能會出現(xiàn)更復(fù)雜的生成式AI模型設(shè)計,但神經(jīng)網(wǎng)絡(luò)的這種基本原理不會有太大的變化。
AI創(chuàng)作能力會如何變化?
明白了AI作圖的原理后,我們想知道未來AI創(chuàng)作會如何變化呢?
我們來做一個小實驗:
打開Draft.art,輸入提示語:“精靈寶可夢照片”
Draft官網(wǎng)
等待30s,得到的結(jié)果如下:
訓(xùn)練結(jié)果
可以發(fā)現(xiàn),AI畫出來的寶可夢不夠理想。
為什么AI有時候能畫出讓人驚喜的完美作品,比如前面的人臉;有時候又不夠理想?
這和AI學(xué)習(xí)到(用于訓(xùn)練)的數(shù)據(jù)有關(guān)。
我們找到今天知名的AI生成模型Stable Diffusion所用的真實訓(xùn)練數(shù)據(jù)看一看:
Stable Diffusion訓(xùn)練數(shù)據(jù)
可以發(fā)現(xiàn),Stable Diffusion主要學(xué)習(xí)的是真實照片,還有一少部分美術(shù)作品。
使用什么樣的數(shù)據(jù)訓(xùn)練AI,AI就會掌握這種數(shù)據(jù)代表的知識。因此如果數(shù)據(jù)里面缺少比如“寶可夢”等元素的時候,輸入“寶可夢”等關(guān)鍵詞,AI當(dāng)然就很難生成理想的結(jié)果。
我們進一步來驗證以上觀點:
我們試著對模型進行單獨地訓(xùn)練,增加一些我們希望學(xué)習(xí)的數(shù)據(jù)。
搜集一組寶可夢的圖片,我們讓AI針對這26張圖片進行新的一輪訓(xùn)練,
AI針對模型訓(xùn)練
訓(xùn)練約半個小時后,再次運行AI模型,輸入:“精靈寶可夢照片”
得到了下面一組截然不同的結(jié)果:
AI針對模型訓(xùn)練后生成結(jié)果
能看出來,訓(xùn)練后的AI明顯學(xué)習(xí)到了寶可夢的線條、配色、動物的特征和調(diào)皮的風(fēng)格。甚至能有機地把不同小精靈的特征結(jié)合在一起了。
而實現(xiàn)以上過程,我們只用了26張圖和20分鐘的訓(xùn)練時間。
可見,AI目前最大的問題不是“不夠聰明”,而是“書讀得太少”。
如果我們使用大規(guī)模的、精準(zhǔn)整理、完善標(biāo)注過的圖片數(shù)據(jù),供AI學(xué)習(xí),在特定領(lǐng)域下,AI生成的能力將會大幅度提高。
AI創(chuàng)作能力在未來短時間內(nèi)的進步速度,也將取決于各行各業(yè)收集和訓(xùn)練行業(yè)優(yōu)質(zhì)數(shù)據(jù)的工作。
AI會引發(fā)創(chuàng)作行為的范式轉(zhuǎn)移
首先說結(jié)論:
從2022年開始,AI生成會對視覺內(nèi)容的創(chuàng)作和分發(fā)帶來一次巨大的范式轉(zhuǎn)移。
范式轉(zhuǎn)移是托馬斯·庫恩在《科學(xué)革命的結(jié)構(gòu)》中提出的一個概念。
蒸汽機、電話、火車、計算機、互聯(lián)網(wǎng)行業(yè)的出現(xiàn)都是范式轉(zhuǎn)移的典型代表。
想象一下,在這些產(chǎn)業(yè)出現(xiàn)之前,人們已經(jīng)有了一整套成熟的辦法去解決生產(chǎn)、通信、交通等問題。
但當(dāng)這些新技術(shù)出現(xiàn)之后,此前的解決方案和相關(guān)產(chǎn)業(yè)在短時間內(nèi)就被徹底顛覆了;同時,圍繞新技術(shù)路線產(chǎn)生的產(chǎn)品快速接管了人們的需求。比如互聯(lián)網(wǎng)上出現(xiàn)的各種網(wǎng)站和智能手機上出現(xiàn)的各類app,分別替代了互聯(lián)網(wǎng)出現(xiàn)之前的各類線下服務(wù)——這就是范式轉(zhuǎn)移的力量。
為什么AI會帶來一次視覺創(chuàng)作的范式轉(zhuǎn)移呢?
我們從第一性原理出發(fā),看一看今天的視覺創(chuàng)作流程長什么樣:
以概念設(shè)計師為例,今天一位概念設(shè)計師的工作流程是:
接到需求——搜集參考——構(gòu)思——出圖——和甲方溝通修改
設(shè)計師理解需求后,一般會先找一找相關(guān)的作品,獲取思路。
概念設(shè)計師會在哪里找作品:
概念設(shè)計師常用官網(wǎng)
搜索引擎、Pinterest這樣的推薦引擎、Artstation這樣的原創(chuàng)作品網(wǎng)站。
設(shè)計師在搜索引擎上找到的圖片來自更上游的原創(chuàng)作品網(wǎng)站,比如artstation、behance等。
比如我們在Pinterest和A站上搜索“機器人”,能看到大量機器人的設(shè)計方案。
Pinterest和A站
設(shè)計師從這些作品中獲得什么?
獲得創(chuàng)意和想法。
比如,機器人的體型怎么設(shè)計好看;有哪些好看的配色方案;應(yīng)該選取圓潤還是銳利的線條特征;畫面中應(yīng)該有哪些機械元素;機器人的表情應(yīng)該長什么樣;有哪些材質(zhì);什么樣的光影更有表現(xiàn)力...
設(shè)計師人腦思考
這些創(chuàng)意由知名的設(shè)計師或藝術(shù)家,根據(jù)自己的生活觀察、天賦和行業(yè)經(jīng)驗創(chuàng)作出來,以圖片的形式發(fā)布在各個網(wǎng)站上,受到版權(quán)的保護,獲取收益。
而設(shè)計師為了獲取創(chuàng)意,通過搜索引擎、推薦系統(tǒng)、付費購買等辦法來搜集這些作品。
這些作品給設(shè)計師提供的創(chuàng)意,是設(shè)計師用來構(gòu)思方案的重要“原材料”。設(shè)計師用這些原材料結(jié)合自己的想法,圍繞設(shè)計需求,反復(fù)組合、探討、篩選,最終產(chǎn)生了新的方案。
AI創(chuàng)作帶來了什么改變呢?
AI因為能夠直接從互聯(lián)網(wǎng)上學(xué)習(xí)幾乎所有的圖片作品,并具有強大的抽象能力,因此AI幾乎可以把設(shè)計師需要的配色、構(gòu)圖、筆觸、線條、光影等細(xì)節(jié)都學(xué)習(xí)到。
AI擁有了這些視覺知識后,當(dāng)使用者給出一段提示語時,就能夠立刻在自己高達數(shù)百維的高維知識空間中尋找匹配的特征,快速進行排列組合,然后畫出一張組合了多個藝術(shù)家風(fēng)格和創(chuàng)意的作品。
AI模型創(chuàng)作
整個過程都是在1分鐘以內(nèi)完成的。
比如之前舉的機器人和仙人掌怪物的例子:
AI生成圖片效果
設(shè)計師的目標(biāo)是要設(shè)計一款致敬某個游戲畫風(fēng)的、方塊形態(tài)的仙人掌怪物角色。
雖然荒野亂斗、方塊形態(tài)、仙人掌、怪物,都不是生僻的概念,但是想在互聯(lián)網(wǎng)上直接找到一張同時結(jié)合了以上特征的方案,很難,很少。
而AI生成就不一樣了,這種多個特征的有機組合對AI來說非常容易
只要AI通過數(shù)據(jù)分別學(xué)習(xí)到了什么是荒野亂斗、什么是方塊、什么是仙人掌、什么是怪物角色,AI就可以毫不費力地把這些概念完美地融合在一起,真的像一個設(shè)計師一樣想出來一個靠譜的方案給你。
這是今天的互聯(lián)網(wǎng)圖片網(wǎng)站不具有的能力。
這顯然是非常鮮明的“新范式”特征——過去的解決方案望塵莫及。
“新范式”特征
這種范式帶來的核心變化是:
建立了一個可以不通過圖像傳遞創(chuàng)意的通路。
新范式核心變化
當(dāng)AI從源頭學(xué)習(xí)到藝術(shù)家的創(chuàng)意和情緒,并在終端按照具體需求畫出來的時候,中間大部分的圖片文件存儲、傳輸、分發(fā)和交易環(huán)節(jié),就失去了其價值。
所以我想AI創(chuàng)作最大的價值并不是畫圖本身,而是它帶來了一種全新的創(chuàng)意流通方式,在“創(chuàng)意—圖片—網(wǎng)站—圖片—創(chuàng)意”之間建立了一個更短的:
“創(chuàng)意—AI—創(chuàng)意”通路。
對創(chuàng)作者的影響
那么,這種新范式下,上游的創(chuàng)作者會受什么影響呢?
自AI創(chuàng)作逐漸走入公眾視野后,大量反對的聲音來自上游的藝術(shù)家。原因是AI對原有的圖片版權(quán)造成了巨大的破壞。
我們看下面這張圖:
500px上攝影作品
這是一張500px上的攝影作品。
500px是一個版權(quán)保護很好的攝影網(wǎng)站,當(dāng)你在這個圖片上點擊右鍵想保存的時候,他會提醒你這是某位藝術(shù)家的原創(chuàng)作品。
而計算機會怎么獲取這張圖片呢?
進入開發(fā)者模式,逐個檢查網(wǎng)頁元素,直到找到這張圖片所在的元素:
開發(fā)者模式對該照片的分析
點擊其來源鏈接:
https://drscdn.500px.org/photo/1054244408/q%3D80_m%3D2000/v2?sig=a7273d918c7482ba81dae3be9c139849e29ad29e442e8e8480eb7e17d8687b50
我們就直接得到了這張圖片的高清原始文件。
原始圖片
因此,計算機用腳本拿到一張圖片比人容易很多。哪怕圖片網(wǎng)站做了層層保護,讓我們無法用腳本獲取原圖,從原理上說,只要是人能看到的圖片,從技術(shù)上都變成被AI學(xué)習(xí)的數(shù)據(jù)。
因為可以截圖。
對于AI來說,裁掉一些邊角、有水印,都不是問題,你把截圖交給AI,它仍然能學(xué)習(xí)到圖片特征。
所以AI從原理上確實會對今天互聯(lián)網(wǎng)圖片版權(quán)產(chǎn)生影響。
如果AI會影響版權(quán)生意,那么過去以版權(quán)作為收入的藝術(shù)家們該怎么辦呢?
其實藝術(shù)家反而可以利用這個變量為自己獲得新的收益。
藝術(shù)家的貢獻在于能夠產(chǎn)生優(yōu)質(zhì)的“創(chuàng)意”,而下游創(chuàng)作者需要的正是“創(chuàng)意”本身。
創(chuàng)意是比圖片更本質(zhì)的價值載體,是這些圖片背后的價值。
因此如果能夠把藝術(shù)家在“創(chuàng)意”交易中的貢獻進行定價,那么理論上我們就可以為藝術(shù)家?guī)硪环N適應(yīng)AI創(chuàng)作的新型收益模式。
我們能不能量化藝術(shù)家在AI創(chuàng)作中的貢獻呢?
可以。
研究生成式AI的算法會發(fā)現(xiàn),在生成圖像的過程中引入一種“注意力機制”,就可以準(zhǔn)確定位詞語對畫面的影響。
比如我們用AI生成“一只熊和一只鳥的照片”,得到以下結(jié)果:
AI生成“一只熊和一只鳥的照片”
在生成過程中,如果我們對“熊”這個詞引入注意力機制,就可以把“熊”這個詞對畫面的貢獻記錄下來:
熊
同理,也可以把“鳥”這個詞對畫面的貢獻記錄下來:
鳥
我們可以清楚地看出“熊”和“鳥”兩個關(guān)鍵詞分別在不同的區(qū)域,以不同的強度對最終的圖像產(chǎn)生了影響。通過計算每個關(guān)鍵詞影響的區(qū)域面積和強度,我們就可以量化各個關(guān)鍵詞的貢獻了。
對神經(jīng)網(wǎng)絡(luò)來說,“熊”“鳥”等詞,和一位藝術(shù)家的名字是沒有差別的,可以使用同樣的方法量化它們的貢獻。
如果我們將藝術(shù)家關(guān)鍵詞對生成圖像的貢獻視為藝術(shù)家本人的貢獻,我們從原理上就可以為藝術(shù)家的創(chuàng)意價值定價了。
如何具體計算藝術(shù)家應(yīng)得的收益呢?
一次的生成費用乘以本次生成過程中某位藝術(shù)家的貢獻比例,就是這位藝術(shù)家在這次生成任務(wù)中產(chǎn)生的價值。
產(chǎn)生的價值扣除平臺的分成,就是藝術(shù)家理論上因貢獻創(chuàng)意產(chǎn)生的收益。
假設(shè)一個月內(nèi),平臺共生成1000w張作品,涉及該藝術(shù)家關(guān)鍵詞的作品有50w張,平均每張貢獻為0.2,每張的平均生成費用為1元,平臺分成20%,那么藝術(shù)家本月在平臺上的稅前收入為:50w×0.2×1元×80%=8萬元。
如果藝術(shù)家的關(guān)鍵詞出圖效果很好,被足夠多的用戶反復(fù)使用的時候,他的收入很快會超過傳統(tǒng)的版權(quán)收入。
需要注意的一點是,在AI新范式下創(chuàng)作,要考慮什么樣的內(nèi)容更利于AI學(xué)習(xí)和AI生成使用。
因為AI學(xué)習(xí)的是圖片內(nèi)容和提示詞的對應(yīng)關(guān)系,因此與其花大量時間創(chuàng)作一張包含很多內(nèi)容、畫面特征復(fù)雜、很難用一句畫描述清楚的作品,不如創(chuàng)作很多小作品。
比如,用統(tǒng)一的尺寸和構(gòu)圖、最好是三視圖,創(chuàng)作出一個角色后,更換不同的裝備、發(fā)色、身材,出一整套圖。然后清晰、詳細(xì)地用語言描述每個圖的特點,用的什么裝備、代表哪種身材、發(fā)色是什么、角度是什么。
創(chuàng)作的時候就想象使用者在進行AI生成的時候,會對AI提出哪些要求,按照這些維度去創(chuàng)作圖像和提示語。這樣的數(shù)據(jù)會更容易被AI學(xué)習(xí),更利于用戶使用和付費。
AI新范式下創(chuàng)作
經(jīng)常使用AI創(chuàng)作的朋友會發(fā)現(xiàn),國外AI創(chuàng)作論壇里公開的提示語中經(jīng)常會包含一些特定的人名,他們很多是CG領(lǐng)域的知名藝術(shù)家。
比如上圖的這位greg rutkowski,就是A站上的一位波蘭藝術(shù)家。
A站上的一位波蘭藝術(shù)家
他的作品估計被收錄進了訓(xùn)練數(shù)據(jù)當(dāng)中,所以可以被AI生成出來。
因為他的畫面風(fēng)格鮮明,類似油畫的厚重筆觸和有史詩感的配色風(fēng)格,放在提示語中會大大提高最終的畫面效果,因此今天很多用戶都把他的名字作為提示語的一部分。
藝術(shù)家的風(fēng)格分析
如果greg rutkowski在一個根據(jù)關(guān)鍵詞計算貢獻給他分成的平臺上入駐,為這個平臺提供自己作品的高清數(shù)據(jù)集,號召用戶使用其關(guān)鍵詞生成作品,按照他今天可能每天上百萬次的關(guān)鍵詞引用頻率,也許已經(jīng)實現(xiàn)日入數(shù)萬甚至數(shù)十萬的收益了。
總結(jié)
最后放一些作者的思考。
一直以來,藝術(shù)創(chuàng)作和設(shè)計都是少數(shù)人的工作。
雖然大多數(shù)人都有審美,能判斷好的內(nèi)容,但兩個因素限制了普通人創(chuàng)作它們:一個是創(chuàng)意,普通人不可能每天在海量的作品中學(xué)習(xí)積累創(chuàng)意;另一個是表達,就算腦子里有一個畫面,要做成圖像,總得借助些技能。比如素描、油畫、水彩,包括3D建模,對普通人來講都有很高的門檻。
今天的AI解決兩個問題:一個是學(xué)習(xí)創(chuàng)意,它比以往的模型都能更準(zhǔn)確地學(xué)習(xí)畫面中的創(chuàng)意,而且學(xué)習(xí)的范圍是整個互聯(lián)網(wǎng)當(dāng)中的圖像,沒有任何一個勤奮的畫家能夠?qū)W這么多作品。二是視覺表達,AI在理解創(chuàng)意的基礎(chǔ)上,生產(chǎn)出一張圖像的速度遠(yuǎn)遠(yuǎn)高于人類畫師。同時邊際成本也很低,畫一張畫,也就是正向傳播一次神經(jīng)網(wǎng)絡(luò)的算力成本,大約在幾分錢到幾毛錢之間。也就是說今天的AI從底層改變了游戲規(guī)則,接下來會看到以下變化:
1)不會畫畫的人用AI生產(chǎn)高質(zhì)量視覺作品
2)互聯(lián)網(wǎng)上難以估量的圖像數(shù)據(jù)被重新組織起來,圍繞模型訓(xùn)練和數(shù)據(jù)標(biāo)注產(chǎn)生新的生意
3)圖片版權(quán)名存實亡,參與建立AI數(shù)據(jù)集成為藝術(shù)家的主要收益
4)傳統(tǒng)圖像處理軟件、3D建模軟件被圍繞AI范式建立的新工具取代
10年后再往回看,這可能會成為一個歷史節(jié)點。
新的節(jié)點
“鐵匠在啤酒中灑下眼淚,悲嘆自己沒有辦法在鐵路時代賣馬掌,但是這并不會使他們的馬掌更受歡迎。那些學(xué)習(xí)變成機械師的鐵匠才會保住自己的飯碗?!?/p>
關(guān)鍵詞: 神經(jīng)網(wǎng)絡(luò) 生成圖片 第一性原理
- 每日看點!從第一性原理出發(fā),分析AI會如何改變視覺內(nèi)容的創(chuàng)作和分發(fā)
- 全球觀察:中集再次向美國發(fā)運建筑模塊 將建硅谷地標(biāo)酒店
- 世界看熱訊:種田游戲的黃金時代來了嗎?
- 今日最新!世茂境外債務(wù)重組新進展!與大華銀行簽103億港元融資協(xié)議
- 世界聚焦:唾手可得還讓人上癮 如何監(jiān)管一顆檳榔?
- 世界熱資訊!華峰化學(xué)回應(yīng)氨綸價格下降:根據(jù)市場供需及原料走勢及時調(diào)整 以產(chǎn)定銷
- 環(huán)球微資訊!降溫20℃!寒潮藍(lán)色預(yù)警繼續(xù)發(fā)布 暴雨、大風(fēng) 這些地方注意
- 關(guān)注:拒絕“躺平”的中老年人,必須“重陽”
- 【環(huán)球新視野】英媒:匯豐控股考慮出售加拿大業(yè)務(wù) 價格或為70億美元
- 【全球快播報】突然翻紅!幾年前按斤賣 如今它身價倍增“一機難求”
- 世界視點!三位科學(xué)家榮獲2022年諾貝爾物理學(xué)獎
- 當(dāng)前報道:國慶假期義烏露營產(chǎn)品熱銷 商戶:南半球市場正升溫
- 世界觀天下!短袖換毛衣!今起湖南局地降溫將超20℃
- 世界觀點:修腳店要跑出第一個IPO嗎
- 每日快播:比亞迪與汽車租賃公司SIXT達成合作 將提供至少10萬輛電動車
- 天天看點:比亞迪:全球汽車租賃公司SIXT未來6年內(nèi)將向公司采購至少10萬臺新能源車
- 【世界新視野】福建出臺條例鼓勵適老設(shè)施發(fā)展
- 萬興科技旗下4款產(chǎn)品斬獲全球G2 Crowd大獎 加碼引才入湘招聘吸引力
- 金鉅環(huán)球高質(zhì)量金屬交易平臺,了解開發(fā)人網(wǎng)絡(luò)資源的可能性
- 廣東連南:瑤族同胞喜迎二十大暨豐收音樂節(jié)在千年瑤寨舉行
- 北京抽檢月餅全部合格 涉及全國各地61家食品生產(chǎn)
- 富陽電動自行車監(jiān)管實現(xiàn)“雙百” 電動自行車全鏈條
- 淮北黨建促融合引導(dǎo)外賣送餐行業(yè)發(fā)展 壓實網(wǎng)絡(luò)餐
- 安徽聯(lián)合整治網(wǎng)絡(luò)市場突出問題 規(guī)范競爭秩序
- 福建四部門聯(lián)合發(fā)文守護秋季學(xué)校食品安全 嚴(yán)厲打
- 黑龍江:“你點我檢”進超市 為消除廣大消費者對
- 上海中秋假期投訴舉報情況顯示:一般食品、化妝品等
- 遼寧阜新:試點“市場監(jiān)管網(wǎng)格化” 推進全員下沉參
- “土榨油”真的就那么好嗎?食用“土榨油”要持謹(jǐn)慎
- 街頭維修廣告騙局多 消費者切勿被“李鬼”蒙蔽要
- 1 每日看點!從第一性原理出發(fā),分析AI會如何改變視覺
- 2 全球觀察:中集再次向美國發(fā)運建筑模塊 將建硅谷地
- 3 世界看熱訊:種田游戲的黃金時代來了嗎?
- 4 今日最新!世茂境外債務(wù)重組新進展!與大華銀行簽10
- 5 世界聚焦:唾手可得還讓人上癮 如何監(jiān)管一顆檳榔?
- 6 世界熱資訊!華峰化學(xué)回應(yīng)氨綸價格下降:根據(jù)市場供
- 7 環(huán)球微資訊!降溫20℃!寒潮藍(lán)色預(yù)警繼續(xù)發(fā)布 暴雨
- 8 關(guān)注:拒絕“躺平”的中老年人,必須“重陽”
- 9 【環(huán)球新視野】英媒:匯豐控股考慮出售加拿大業(yè)務(wù)
- 10 【全球快播報】突然翻紅!幾年前按斤賣 如今它身價