小说 星座 交友 视频 明星 新闻 NBA 足球 体育 美图 游戏 音乐 摄影 军事 笑话
社区 招聘 地图 美食 汽车 基金 两性 女性 法律 娱乐 时尚 彩票 宠物 股票 手机
购物 健康 银行 房产 儿童 旅游 大学 宗教 公益 考试 教育 外语 留学 科技 爱好
微博 电脑 桌面 招商 聊天 硬件 软件 建站 编程 邮箱 设计 数码 曲艺 棋牌 生活
QQ 二手汽车 生活助手 天气 直播 站长 婚嫁 租厂房 服务器 租赁 互联网 农产品 修理 搬家 UI素材
保洁 面辅料 牧业 出书 代工 物流 电影 电视 综艺 动漫 全知导航-八卦 秀场 减肥 美女 母婴
团购 特卖 家居 杀毒 手机应用 找加盟 找设计 找家政 众筹 找搬家 找代理 热门应用 找代工 找工作 找物流
找回收
谷歌,再次把AI作画卷出新高度

关键词:Parti,图像,谷歌,Imagen,文本,AI,单词,模型,生成,描述

谷歌最新提出来的一个AI——Parti

杨净 金磊 发自 凹非寺

量子位 | 公众号 QbitAI

朋友,你知道这个英文单词是什么吗?

Pneumonoultramicroscopicsilicovolcanoconiosis.

这个世界公认最长——由45个字母组成的单词,意思是“因肺部沉积火山矽质微粒所引起的疾病”(俗称火山矽肺病)。

但如果说,现在不是让你拼读这个单词,而是……把它给画出来呢?

(读都读不出来,还画画???)

谷歌最新提出来的一个AI——Parti,它就能轻松hold住这事。

在把这个单词“投喂”给Parti后,它就能有模有样地生成多张合情合理的肺部疾病图片:

但这只是Parti小试牛刀的能力,据谷歌介绍,它是目前最先进的“文本转图像”AI。

例如,跟它说句:“把悉尼歌剧院和巴黎铁塔做个结合”,输出结果是这样的:

(不知道的还真以为是画报呢)

而且在算法路数上,还不同于谷歌自家的Imagen,Parti可以说是把“AI作画”卷出了新高度。

就连谷歌AI负责人Jeff Dean也连发数条推文,玩得不亦乐乎:

可扩展到200亿参数:更逼真,更“聪明”

事实上,Parti的能力还不止于此。

得益于模型可扩展到200亿参数,一方面,它生成的图像更加细节逼真。

不管是短短几个字,还是五十多个个单词的小段落,都能清晰展现出来。

比如,The back of a violin,小提琴的背面。

亦或是照着梵高《星空》来描述的夜晚画面。ps,这段有67个单词。

结果Parti也不在话下,一揽子把各种风格的图全给你画出来了~

这也正是Parti的第二大能力,不光细节到位,风格也能做到多变。

还有像“浣熊穿正装,头戴礼帽,拄着拐杖,拿着个垃圾袋”这种奇特的描述,它也能在整出花活的同时还不落细节。

风格上,则有梵高风、埃及法老风、像素风、中国传统绘画风、抽象主义风……

甚至有时候它还会讲双关笑话。

(Toad’ay,癞蛤蟆)

具体在测试结果上,MS-COCO、Localized Narrative(LN,4倍长的描述)上FID分数,Parti都取得了最先进的结果。

尤其在MS-COCO零样本的FID得分仅为7.23,微调FID得分为3.22,超过了此前的Imagen和DALL-E 2。

所有组件都是Transformer

时隔一个月,谷歌再把AI作画卷出新高度,结果作者却说:秘诀很简单

Parti主要是将文本生成图像视作序列到序列之间建模。这有点类似于机器翻译,将文本标记作为编码器的输入,目标输出从文本变成了图像。

从结构上看,它的所有组件只有三部分:编码器、解码器以及图像标记器,且都是基于标准Transformer。

首先,使用基于Transformer的图像标记器ViT-VQGAN,将图像编码为离散的标记序列。

然后再通过Transformer的编码-解码结构,将参数扩展到200亿。

以往关于文本生成图像的研究,除了最早出现的GAN,大体可以分成两种思路。

一种是基于自回归模型,首先文本特征映射到图像特征,再使用类似于Transformer的序列架构,来学习语言输入和图像输出之间的关系。

这种方法的一个关键组成部分就是图像标记器,将每个图像转换为一个离散单元的序列。比如DALL-E和CogView,就采用了这一思路。

另一种则是这段时间以来进展频频的路线——基于扩散的文本到图像模型,比如DALL-E 2和Imagen。

他们摒弃了图像标记器,而是采用扩散模型来直接生成图像。可以看到的是,这些模型产生的图像质量更高,在MS-COCO零样本FID得分更好。

而Parti模型的成功,则证明了自回归模型可以用来改善文本生成图像的效果。

与此同时,Parti还引入并发布了新的基准测试——PartiPrompts,用于衡量模型在12个类别和11个挑战方面的能力。

但Parti还是有一定的局限性,研究人员也展示了一些bug:

比如,对否定的描述就没招了~

一个没有香蕉的盘子,旁边一个没有橙汁儿的玻璃杯。

还会犯一些常识性错误,例如不合理地缩放。比如这张图,机器人竟然比赛车高出好几倍。

一个穿着赛车服和黑色遮阳板的闪亮机器人自豪地站在一辆F1赛车前。太阳落在城市景观上。漫画书插图。

谷歌“自己卷自己”

在这项研究来自Google Research,团队中的华人居多。

研究核心工作人员包括Yuanzhong XuThang Luong等,目前均就职于谷歌从事AI相关研究工作。

(Thang Luong在谷歌学术上的引用量高达20000+)

△左:Yuanzhong Xu;右:Thang Luong

不过有意思的是,同为“说句话让AI作画”,同为出自谷歌之手的Imagen,它跟Parti还真有点千丝万缕的关系。

在Parti的GitHub的项目文档中就有提到:

感谢Imagen团队,他们在发布Imagen之前与我们分享了其最近完整的结果。

他们在CF-guidance方面的重要发现,对最终的Parti模型特别有帮助。

而且Imagen的作者之一Burcu Karagol Ayan,也参与到了Parti的项目中。

(有种谷歌“自己卷自己”那味了)

不仅如此,就连“隔壁”DALL-E 2的作者Aditya Ramesh,也给Parti在MS-COCO评价方面做了讨论工作。

以及DALL-Eval的作者们,也在Parti数据方面的工作提供了帮助。

One More Thing

有一说一,就“文本生成图像”这事,可不只是研究人员们的宠儿。

网友们在“玩”它这条路上,也是乐此不疲(脑洞不要太大好吧)。

前一阵子让Imagen画一幅宋朝“虎戴VR”,直接演变成AI作画大战。

△图:Imagen作画

DALL·E、MidJourney等“闻讯赶来”参与其中。

△ DALL·E作画

甚至还有把Wordle和 DALL-E 2搞到一起的:

……

不过回归到这次的Parti,好玩归好玩,但还是有网友提出了“直击灵魂”的问题:

啥时候商业化?要是自己“关门玩”就没意思了。

Parti论文地址:

https://parti.research.google/

GitHub项目地址:

https://github.com/google-research/parti

参考链接:

[1]https://twitter.com/lmthang/status/1539664610596225024

[2]https://gizmodo.com/new-browser-game-combines-dall-e-mini-and-wordle-1849105289

[3]https://imagen.research.google/

TIP:您正在快照阅读,阅读更多点击

发布日期:2022-07-02 00:42:26

以上由全知导航为您整理呈现.删除请联系: info@404886.com     

网友观点:
马上发表

网友评论仅供其表达个人看法,并不表明全知头条立场。请理想发言,恶性发现将由个人承担全部责任。

已为您加载完全部评论
相关推荐
回到顶部 意见反馈