把文本酿成画做,AI对艺术“下手”了

10小时前 (09:06:24)阅读1回复0
东乐
东乐
  • 管理员
  • 注册排名3
  • 经验值117620
  • 级别管理员
  • 主题23524
  • 回复0
楼主

来源:科技日报

科技日报记者 马爱平

1月初,美国人工智能公司OpenAI 推出两个逾越文本与图像次元的模子:DALL·E 和CLIP,前者能够基于文本生成图像,后者则能够基于文本对图片停止分类。那个打破阐明通过文字语言来把持视觉概念如今已经触手可及。天然语言处置和视觉处置的鸿沟已经被突破,多模态AI 系统正在逐渐成立。

“数据的来源或者形式是多种多样的,每一种都能够称为一种模态。例如图像、视频、声音、文字、红外、深度等都是差别模态的数据。单模态AI 系统只能处置单个模态的数据。例如关于人脸识别系统或者语音识别系统来说,它们各自只能处置图像和声音数据。”中国科学院主动化研究所副研究员黄岩在承受科技日报记者摘访时表达。

相对而言,多模态AI 系统能够同时处置不行一种模态的数据,并且可以连系多种模态数据停止综合阐发。“例如办事机器人系统或者无人驾驶系统就是典型的多模态系统,它们在导航的过程中会实时摘集视频、深度、红外等多种模态的数据,停止综合阐发后抉择适宜的行驶道路。”黄岩说。

差别条理使命强行联系关系会产生“壁垒”

就像人类有视觉、嗅觉、听觉一样,AI 也有本身的“眼鼻嘴”,而为了研究的针对性和深进,科学家们凡是会将其分为计算机视觉、天然语言处置、语音识别等研究范畴,分门别类地处理差别的现实问题。

天然语言处置与视觉处置别离是如何的过程,二者之间为什么会有壁垒?

语义是指文字、图像或符号之间的构成关系及意义。“天然语言处置与视觉处置,都重在对差别模态数据所包罗的语义信息停止识别和理解,但是两种数据的语义表示形式和处置办法差别,招致存在所谓的‘语义壁垒’。”黄岩说。

视觉处置中最常见的数据就是图像,每个图像是由差别像素点摆列而成的二维构造。像素点自己不具有任何语义类别信息,即无法仅凭一个像素点将其定义为图像数据,因为像素点自己只包罗0 到255 之间的一个像素值。

“例如关于一张人脸图像来说,假设我们只看此中某些像素点是无法识他人脸图像那一语义类别信息的。因而,目前计算机视觉范畴的研究人员更多研究的是若何让人工智能整合像素点数据,揣度那个数据聚集的语义类别。”黄岩说。

“语言数据最常见的就是句子,是由差别的词语序列化构成的一维构造。差别于图像像素,文本中每个词语已经包罗了十分明白的语义类别信息。而天然语言处置则是在词语的根底上,停止愈加高级的语义理解。”黄岩说,例如不异词语摆列的挨次差别将产生差别的语义、多个句子结合构成段落则能够推理出隐含语义信息。能够说,天然语言处置次要研究实现人与计算机间接用天然语言停止有效信息交换,那个过程包罗天然语言理解和天然语言生成。天然语言理解是指计算机可以理解人类语言的意义,读懂人类语言的潜在含义;天然语言生成则是指计算机能以天然语言文原来表达它想要到达的企图。

由此能够看出,天然语言处置要处理的问题的条理深度超越了计算机视觉,天然语言处置是以理解人类的世界为目标,而计算机视觉所完成的就是所见即所得。那是两个差别条理的使命。目前来说,天然语言处置在语义阐发层面来说要高于视觉处置,二者是不合错误等的。假设强行将两者停止语义联系关系的话,则会产生“语义壁垒”。

AI 突破天然语言处置和视觉处置的鸿沟

此前,OpenAI 斥巨资打造的天然语言处置模子GPT-3,拥有1750 亿超大参数量,是天然语言处置范畴最强AI 模子。人们发现GPT-3 不只可以答题、写文章、做翻译,还能生成代码、做数学推理、数据阐发、画图表、造造简历。自2020 年5 月初次推出以来,GPT-3 凭仗惊人的文本生成才能遭到普遍存眷。

与GPT-3 一样,DALL·E 也是一个具有120亿参数的基于Transformer 架构的语言模子,差别的是,GPT-3 生成的是文本,DALL·E 生成的是图像。

在互联网上,OpenAI 大秀了一把DALL·E的“超强想象力”,随意输进一句话,DALL·E 就能生成响应图片,那个图片内容可能是现实世界已经存在的,也可能是根据本身的理解创造出来的。

此前,关于视觉范畴的深度进修办法不断存在三大挑战——操练所需大量数据集的摘集和标注,会招致成本攀升;操练好的视觉模子一般只擅长一类使命,迁徙到其他使命需要破费浩荡成本;即便在基准测试中表示优良,在现实利用中可能也不如人意。

对此,OpenAI 结合开创人曾发文声称,语言模子或是一种处理计划,能够测验考试通过文原来修改和生成图像。基于那一愿景,CLIP 应运而生。只需要供给图像类此外文本描述,CLIP 就能将图像停止分类。

至此,AI 已经突破了天然语言处置和视觉处置的鸿沟。“那次要得益于计算机视觉范畴中语义类别阐发方面的飞速开展,使得AI 已经可以进一步停止更高条理的视觉语义理解。”黄岩说。

详细来说,跟着深度进修的鼓起,计算机视觉范畴从2012年至今已经接连霸占一般天然场景下的目标识别、检测、朋分等语义类别阐发使命。2015 年至今,越来越多的视觉研究者们起头提出和研究愈加高层的语义理解使命,包罗基于图像生成语言描述、用语言搜刮图片、面向图像的语言问答等。

“那些语义理解使命凡是都需要结合视觉模子和语言模子才气够处理,因而呈现了第一批横跨视觉范畴和语言范畴的研究者。”黄岩说,在他们鞭策下,两个范畴起头彼此借鉴优良模子息争决问题的构想,并进一步影响到更多传统视觉和语言处置使命。

多模态交互体例会带来全新的利用

跟着人工智能手艺开展,科学家也正在不竭打破差别研究范畴之间的边界,天然语言处置和视觉处置的穿插合成并非个例。

“语音识别事实上已经加进此中,比来业内呈现良多研究视觉+语音的新使命,例如基于一段语音生成人脸图像或者跳舞视频。”黄岩说,但是要重视到,语音其实与语言自己在内容上可能具有较大的重合性。在如今语音识别手艺十分成熟的前提下,完全能够先对语音停止识别将其转换为语言,进而把使命转换为语言与图像交互的常规问题。

无论是DALL·E 仍是CLIP,都摘用差别的办法在多模态进修范畴跨出了令人欣喜的一步。此后,文本和图像的边界能否会被进一步突破,能否顺畅地用文字“掌握”图像的分类和生成,将会给现实生活带来如何的改动,都值得等待。

关于多模态交互体例可能会带来哪些全新利用?黄岩举了两个具有代表性的例子。

第一个是手机的多模态语音助手。该手艺能够丰富目前手机语音智能助手的功用和利用范畴。目前的手机助手只能停止语音单模态交互,将来能够连系手机相册等视觉数据、以及收集空间中的语言数据来停止愈加多样化的选举、查询、问答等操做。

第二个是机器人的多模态导航。该手艺能够提拔办事机器人与人在视觉和语音(或语言)方面的交互才能,例如将来能够告诉机器人“往会议室看看有没有电脑”,机器人在理解语言指令的情状下,就可以连系视觉、深度等信息停止导航和查找。

0
回帖

把文本酿成画做,AI对艺术“下手”了 期待您的回复!

取消
载入表情清单……
载入颜色清单……
插入网络图片

取消确定

图片上传中
编辑器信息
提示信息