圖片來(lái)源:圖蟲(chóng)創(chuàng)意
自今年3月份以來(lái),各種生成式AI工具層出不窮,有文字生成工具,圖片生成工具,視頻生成工具,語(yǔ)音生成工具,各種工具極大提高了我們的工作效率。但是AI工具畢竟是基于數(shù)據(jù)和模型來(lái)生成內(nèi)容,在實(shí)際使用中仍然會(huì)出現(xiàn)很多的問(wèn)題,喵喵這幾月頻繁使用這些AI工具,梳理了一些生成式AI工具在實(shí)際使用中會(huì)出現(xiàn)的問(wèn)題以及常用的解決辦法的局限,和大家探討,希望可以找到更加高效率的解決方法。
一、ChatGPT文字生成工具
ChatGPT是基于OpenAI的GPT架構(gòu),是生成式預(yù)訓(xùn)練模型,有大量的知識(shí)和能力進(jìn)行自然語(yǔ)言處理,是目前最熱門(mén)的AI內(nèi)容生成和對(duì)話(huà)工具,但大多數(shù)人在實(shí)際使用過(guò)程中仍然會(huì)有以下一些問(wèn)題。
1.數(shù)據(jù)更新的限制
ChatGPT最新的訓(xùn)練數(shù)據(jù)截止到2021年9月,所以在這之后發(fā)生的事件或最新的知識(shí)ChatGPT是不知道的。當(dāng)我們?cè)儐?wèn)它2021年9月之后的事情的時(shí)候,它會(huì)提示自己沒(méi)有2021年9月之后的數(shù)據(jù),并給到一些其他的回答。然而,在實(shí)際應(yīng)用中,我們肯定會(huì)時(shí)常需要詢(xún)問(wèn)當(dāng)前發(fā)生的資訊和最新的知識(shí),如果ChatGPT無(wú)法回答,那么對(duì)于使用者來(lái)說(shuō)是極大的不便。
圖片來(lái)源:chatGPT之前ChatGPT-4是有聯(lián)網(wǎng)功能插件的,但是現(xiàn)在這個(gè)功能無(wú)法使用了,所以ChatGPT又無(wú)法回答關(guān)于2021年9月之后的內(nèi)容了。雖然Webchatgpt谷歌插件可以實(shí)現(xiàn)聯(lián)網(wǎng),但是喵喵在使用過(guò)程中覺(jué)得還是比較雞肋的,體驗(yàn)并不是很好,且無(wú)法在移動(dòng)端應(yīng)用。
圖片來(lái)源:chatGPT2.AI幻覺(jué)
AI幻覺(jué),通俗易懂解釋就是AI在一本正經(jīng)地胡說(shuō)八道,輸出一些不正確的、胡編的內(nèi)容。造成AI幻覺(jué)的原因可能是數(shù)據(jù)訓(xùn)練集的原因,例如數(shù)據(jù)集缺失或者被壓縮,因?yàn)镃hatGPT是基于數(shù)據(jù)訓(xùn)練集來(lái)訓(xùn)練的,如果之前的訓(xùn)練數(shù)據(jù)集來(lái)自不準(zhǔn)確的源材料,或訓(xùn)練數(shù)據(jù)集缺失特定的推斷,那么它就有可能輸出缺乏常識(shí)或者不合邏輯的推斷。
3.缺乏真實(shí)經(jīng)驗(yàn)
ChatGPT可以提供基于數(shù)據(jù)的答案,但沒(méi)有人的情感、直覺(jué)或真實(shí)經(jīng)驗(yàn)。在處理某些情境、道德問(wèn)題或感情問(wèn)題不夠完美,并且它的回答是基于對(duì)提示詞的理解來(lái)生成的,所以有時(shí)可能會(huì)誤解含有雙關(guān)、諷刺或其他非字面意思的問(wèn)題。
4.冗長(zhǎng)或過(guò)度解釋
ChatGPT有時(shí)為了確保信息的準(zhǔn)確性,它可能會(huì)給出冗長(zhǎng)或重復(fù)的答案,總-分-總是它的回答結(jié)構(gòu)。要解決這個(gè)問(wèn)題我們可以在寫(xiě)提示詞的時(shí)候就做好限制,明確要求它以簡(jiǎn)潔明了的內(nèi)容回答我們的問(wèn)題。
圖片來(lái)源:chatGPT 圖片來(lái)源:chatGPT5.依賴(lài)用戶(hù)輸入的提示詞
ChatGPT的回答依賴(lài)于使用者的提示詞。如果問(wèn)題表述不清晰,ChatGPT可能無(wú)法提供準(zhǔn)確的答案。因此,想要用好ChatGPT,提示詞的編寫(xiě)變得尤為重要,如果使用者的語(yǔ)言組織能力差,或者沒(méi)有學(xué)習(xí)過(guò)一定提示詞編寫(xiě)結(jié)構(gòu),那么可能較難得到自己想要的回答,或者使用效率非常低。示例:小紅書(shū)文案編寫(xiě)提示詞模板
圖片來(lái)源:chatGPT二、Stable diffusion圖片生成工具
Stable Diffusion是一種文字生成圖像的生成式AI工具,它是完全開(kāi)源,我們可以根據(jù)自己的數(shù)據(jù)集訓(xùn)練自己的模型,以生成自己想要的圖片,Stable Diffusion是目前最熱門(mén)的圖片生成工具。但是在實(shí)際應(yīng)用中喵喵覺(jué)得還是有一些問(wèn)題,雖然這些問(wèn)題都有一定的解決辦法,但未達(dá)到喵喵想要的便捷和高效。
我們利用Stable diffusion生成圖片,圖片的風(fēng)格可以通過(guò)大模型或者Lycoris來(lái)控制,圖片的人物形象可以通過(guò)lora來(lái)控制,人物的動(dòng)作可以通過(guò)controlnet的openpose,canny來(lái)控,圖片的質(zhì)量的可以通過(guò)放大算法來(lái)控制,但這些插件在應(yīng)用中依然有一些不足。
1.生成符合場(chǎng)景的圖片是最困難
在生成符合提示詞場(chǎng)景圖片方面,目前的一些插件和解決方法都有一些弊端,無(wú)法最大化提高生圖效率。
(1)以圖生圖方式:如果我們找的網(wǎng)圖質(zhì)量差,或者找的網(wǎng)圖和想要的場(chǎng)景不完全一樣,那么以圖生圖也很難得到自己想要的場(chǎng)景,重繪幅度越大,隨機(jī)性越大,即使通過(guò)局部重繪,也很難把圖片繪制得和想要的場(chǎng)景完全一致。
(2)利用controlnet插件的canny預(yù)處理器:canny預(yù)處理器可以識(shí)別所上傳圖片的輪廓和元素,可以較大程度地還原原圖的人物動(dòng)作和場(chǎng)景。但是使用這個(gè)預(yù)處理器也有和圖生圖一樣的問(wèn)題,如果我們上傳的原圖質(zhì)量不好,canny預(yù)處理器識(shí)別的噪點(diǎn)過(guò)多,那么生出來(lái)的圖片和想要的場(chǎng)景相差也很大。如果上傳是比較干凈的線(xiàn)稿,canny預(yù)處理器可以識(shí)別較為清晰的輪廓,但生出來(lái)的圖能不能和我們想象的一樣還得看模型的選擇、提示詞的編寫(xiě)以及參數(shù)的調(diào)整。總之,想要生成自己想要的場(chǎng)景效率是比較慢的。
圖片來(lái)源:stable diffusion2.多人物的圖片生成是困難的
目前我們看到的很多大模型,lora模型基本都是單人物的模型,說(shuō)明其在多人物生成方面是有困難的。雖然有一些插件和方法可以控制多人物的圖片生成,但是喵喵在實(shí)踐中還是覺(jué)得有隨機(jī)性,并且效率也不是很高。
(1)在控制多人物動(dòng)作方面,可以使用controlnet插件的dw-openpose預(yù)處理器,處理方式也是找圖上傳,然后識(shí)別人物的動(dòng)作,再結(jié)合我們的提示詞進(jìn)行生圖,甚至可以使用幾個(gè)controlnet疊加生成,提高了生成圖片和原圖的相似度,包括人物數(shù)量,動(dòng)作,場(chǎng)景元素等。但是和圖生圖一樣,如果找到的網(wǎng)圖質(zhì)量不好,元素混亂,那么使用controlnet也很難得到一張適合的圖,要完全達(dá)到想要的圖片要求,還需要不斷調(diào)整模型、提示詞和參數(shù)。
圖片來(lái)源:stable diffusion(3)在固定多人物形象方面,使用latend couple和Composable LoRA疊加使用兩個(gè)lora,分別渲染兩個(gè)人物,生成多人物的圖片,但是兩個(gè)lora有時(shí)候是會(huì)相互污染,即使調(diào)整參數(shù),也不能百分百達(dá)到自己想要的效果,多人物生成的隨機(jī)性比較高。有時(shí)候調(diào)用lora還會(huì)影響整體的圖片風(fēng)格,這可能是大模型和lora模型的兼容問(wèn)題,也可能是lora的權(quán)重設(shè)置問(wèn)題,雖然調(diào)整lora的權(quán)重可以緩解,但是有時(shí)候調(diào)整lora權(quán)重之后人物形象特征就不那么明顯了。因此,整體來(lái)說(shuō),多人物生圖的效率是很慢的,需要不斷地調(diào)整。
三、runway gen2和pika等視頻生成工具
文字生成視頻、圖片變成動(dòng)態(tài)視頻也是近期的熱門(mén)工具,喵喵使用了runway gen2和pika,還有一個(gè)工具是animatediff,安裝了SD的插件,但是顯卡帶不動(dòng),爆顯存了,沒(méi)體驗(yàn)成功。整體的體驗(yàn)是pika的視頻更流暢,變形沒(méi)那么嚴(yán)重。
1.Animatediff
animatediff需要使用特定的大模型效果才更好,它是使用Stable diffusion一次性生成多張圖片,并把圖片組合在一起,使用一定的幀率組合成視頻。Animatediff只能生成幾秒的視頻。
圖片來(lái)源:animatediff2.runway gen2
runway gen2可以使用圖片生成視頻,也可以使用文字直接生成視頻,但是生成的視頻比較隨機(jī),有時(shí)候非常奇怪,要得到自己想要的視頻比較憑緣分。我們可以在discord上看到很多用戶(hù)的分享,有很多視頻丟失扭曲變形的。Konstantin的視頻
圖片來(lái)源:runway3.Pika
使用高質(zhì)量的圖片在pika上生成視頻效果相對(duì)比較好,pika目前在內(nèi)測(cè),只能在他們的discord中進(jìn)行視頻生成。我們可以使用文字生成視頻,也可以使用圖片生成視頻,視頻時(shí)長(zhǎng)3秒,且會(huì)損失畫(huà)質(zhì),如果我們提交的圖片畫(huà)質(zhì)本來(lái)就差,那么生出來(lái)的視頻的質(zhì)量會(huì)更差。因此,如果想要在pika上生成較好的視頻,注意上傳高清圖片。如果是使用文字生成,那么提示詞要寫(xiě)清晰,這樣才能得到自己想要的場(chǎng)景視頻。
圖片來(lái)源:pika(來(lái)源:Google SEO 喵喵)
以上內(nèi)容屬作者個(gè)人觀點(diǎn),不代表雨果跨境立場(chǎng)!本文經(jīng)原作者授權(quán)轉(zhuǎn)載,轉(zhuǎn)載需經(jīng)原作者授權(quán)同意。?