主讲嘉宾:范凌 同济大学设计人工智能实验室主任、博士生导师,未来论坛青年理事,特赞信息科技创始人及CEO
人工智能很多时候和自动化、重复性的工作有关。其实人工智能刚刚出现的时候,很多的学者和行业先驱就在思考人工智能能不能帮助我们。
我们在探讨人工智能的时候,尤其是过去几年,往往看到两种场景:一个是我们可能在很多杂志上都会看到一个表格,统计了哪些行业、工作最有可能被人工智能取代。
2013年一个牛津大学学者做的研究,看哪些行业最有可能在人工智能兴起的时候被取代,比如说像电话的接线员这些人等等;另一种艺术化的表达。如上图右侧Adam Levey的作品《一个未来没有工作的世界》。这个作品就是把一些工作的从业者放到博物馆成为展品,比如这里是“工厂的工人”,下面写着“在21世纪初灭绝了”。
不论是表格还是艺术作品,都在讲一个充满“恐慌”的人工智能未来,这个未来中人的工作可能会受到技术进步的威胁。Elon Musk、比尔·盖茨、霍金,都指出了人工智能可能会成为人类未来的威胁。
我们可以用象限图来对人机未来做个分析。上图横轴代表对人来说很简单的工作,另一端是很难的工作。虽然我们自己也描述不清楚,为什么做得好的工作都是难的工作,比如我们很难说清楚如何把主持做好,可能会说“熟能生巧”或者“天赋运气”。纵轴代表交给机器完成工作的意愿度,因为并不是工作我们都愿意交给机器做的。
我们讲机器取代人,都在讲左下角这个维度的工作,这是一种人与机器的“零和关系”——机器多做了人就少做了,这里的终极目标就是“自动化”。
我会集中探索右边这两个象限:本来就对人很难,机器完成度不算太高。机器帮忙的越多,人的能力就越强,我们叫赋能(empowerment)或者增强(augmentation)。
可以看到,很多使用人工智能来“增强”人类工作的例子,比如用word写作时,机器会提醒我们错别字,甚至帮我们完成句子。这都是基于大量的自然语言学习。这是一种“正和关系”,有了机器反而让我们的能力更强。
在过去10多年里,人工智能蓬勃发展、家喻户晓,既作为概念、技术,也作为一种社会状态。如果我们把人工智能比作大脑,就像人的左脑右脑一样,左脑代表了语言、分析、抽象、数字、逻辑。代表更高、更快、更强——是不是意味着识别的速度更快,识别的效果更好,分析的结果更准,这都是一些定量的维度。
所以在人工智能左脑的层面上,我们的研究成果还是很丰硕的,很像我们常说的“学好数理化,走遍天下都不怕”。但当我们数理化能力强的时候,大家开始意识到要去培养艺术修养。那么人工智能是不是也到了要去培养右脑的时候呢?
右脑是一些比较抽象的、感性的、系统的、真实的图像思维,所以人的右脑这些属性对于机器来说,人工智能能不能让我们变得更美?人工智能能不能让我们变得更平等?人工智能能不能让我们变得更善意?人工智能能不能让我们具有同理心?
人工智能的右脑,也就是人工智能在过去一直注重更高、更快、更强以后能不能带来更美好的生活,就像我们自己关注GDP的绝对数字以后,现在关注到我们的获得感。人工智能也是一样,在飞速发展以后开始逐步地帮助我们去思考右脑的问题。
创意,这个词比较广义,分为两种:一种是“表达性的创意”,没有专业训练的小孩会用画笔表达自己的想法或者感受,所以这种是有感而发的创意。这种创意往往我们会把它等同为艺术,很感性,也不需要计量它到底有没有价值,对了就是对了,别人也只需要去感受它,所以它是一种基于内在的自我表达,可能源自于记忆,可能源自于情感,可以源自于某种冲动,很像各种各样的艺术形态,不只是绘画,有雕塑也有音乐,表达性的创意更多的发自内心,不需要计较结果。
另外一种创意,则是类似我们看到的广告,我们使用的产品背后都有创意在,这些创意我们称之为叫“功能性的创意”,就是通过创意来解决一个问题,通过理性的分析创造一个答案,有明确的功能,有明确的方式可以度量,而且这种功能性的创意的出发点通常来自于外部。
这两张女性图像,上面这张是绘画作品,是表达性的创意,下面是电商的海报,是功能性创意。虽然风格似乎有接近的地方,但是出发点、目的完全不一样。上面是一种自我意识的表达,而下面是旨在销售、品牌的触达,有明确的功能性。
比较直白的说:表达性的创意约等于艺术,功能性的艺术可能约等于设计,设计都是有目的的,设计都是可衡量的,艺术都是表达的。
很有意思的是,如果大家用学术搜索创意这个词creativity,其实从无到有只有不到100年的历史,虽然整个创意在人类的世界贯穿了始终,但是创意这个词只有75年的历史,一开始和“想象”有关,慢慢才变为一种行动。所以我们研究创意其实是一个非常短暂的历史,这里面我们会对创意进行各种方式的演绎与延展。
创意这个词从无到有在过去的几十年里其实伴随着这样的一个趋势,我把它称之为叫“创意工具的发展”和“创意的大众化”。过去不讲创意,因为不觉得创意是一个有意识的创造。但是慢慢随着创意的工具更可触达,逐步把创意这个概念、方式放大了,大众化了。
第一个帮助艺术家绘画的工具,英文叫Camera Obscura,就是“暗房”,影像的一个方式。所以艺术家可以很容易的捕捉到透视,让更多的画家可以画更准的透视,是简单的工具。慢慢小孔成像Camera Obscura开始通过一些化学反应有了成像,有了照相机,照相机变成一个比较方便使用的光学仪器,光学相机、傻瓜相机,在30、40年前有了photoshop,然后数码相机让拍照变得更容易,现在我们每个人的手机都可以拍照。
这里举例的拍照或者图像维度的工具,其实变得越来越容易使用,因为越容易使用,越来越多的人会使用。原来Camera obscura全世界上千个艺术家在用,到现在几十亿的人在用手机,所以创意工具的发展自然而然带来的是创意的大众化和大爆发。
现在工具都和机器智能发生联系,创意工具也不例外,人工智能成为我们新的工具来做创造性的工作。
我们希望机器思考的方式和人思考的方式是一致的,所以给机器设定了很多思考的规则,但最后发现这个规则并不能带来更智能的结果。就像最早人类做飞机总想把飞机设计成鸟的样子,但是类鸟的飞机从来没有飞起来过,最后把飞行的原理抽象成为空机动力学,慢慢才形成之后的飞行器。
所以看看我们现在的飞行器,包括飞机、包括火箭,其实和鸟没有太多形状上的关系。人工智能也是一样,希望复现人思考的方式是走不通的。在过去10多年里逐步变成一种统计的逻辑,也就是说不追求因果关系而是追求关联关系。如果概
率上这些都发生过,通过学习这些概率,有可能产生新的结果。
所以创意的人工智能也是一样,我们通过创意变为数据,数据形成某种模型,这种模型带来运算,运算之后产生的结果进行评估,再来迭代这种运算的过程,这个就是人工智能之所以能够进入到创意领域就是走这样的一个流程。
如何让机器和创意发生联系?就像我们教一个人学习时,你要给他一本教科书,同理教机器能够进入到创意领域,第一先让机器开始理解创意。
10多年前,我当时还在普林斯顿大学,有一位年轻的教授李飞飞,现在已经是如雷贯耳的人工智能大牛,她做了一件事情,建立了一个数据集叫ImageNet,来帮助机器识别图像。当时这个工具是比较早期的,成功的可能性并不大,不像现在ImageNet已经成为我们数据里面的基础。但是当时看上去并不太完整,有一次李飞飞教授开玩笑说“早年的时候如果不是因为她是一个女性科学家,她可能连研究经费都申请不到”。
ImageNet让机器开始理解图像,现在绝大多数图象处理的人工智能都可能原自于ImageNet这个教科书,通过10多年的数据积累,现在准确率已经比人眼识别率还要高。这就是机器通过吸纳进数据,理解图像维度理解的越来越准,理解的越来越好。
我自己的研究团队做了一个数据集叫DesignNet,名字也算是致敬ImageNet。我们的数据集理解的是创意图像上面有什么字体、内容、风格、氛围、颜色的组合是怎么样的,所以这个数据集建立的是基于创意的知识和理解。
想象一下,对没有背景知识的人开始描述创意时,可能会说这是什么风格,颜色搭配是否互补等,可能会用一些比较简单的视觉和创意的词汇去描述创意的内容。我们建这个数据集,让机器也开始理解这方面的知识。
我们把创意变为数据的知识图谱,叫做“普罗米修斯”,可以不停的输入一些设计的问题,比如:什么是设计,它会产生一个知识图谱,有颜色、有字体、有大小等等。点进每一个知识图谱,比如说色彩这个关键字里面会延展出不同类型的知识关联。我们问它暖色和绿色有什么关系,它把绿色和暖色的关系用多个维度串联起来,可能是互补的,可能是代表某种文化含义的等等。
也可以问它一些设计的知识,它有另一种表现形式。问它什么是“衬线体”,衬线体是和曲线骨架有关的,大量在互联网上关于设计的知识都被聚集在像“普罗米修斯”这样一个知识体系里面,可以进行询问,所以我们把创意的知识库变成一个可搜索、可聚类、可分析、可连接、可关联的一个知识图谱,并且通过“普罗米修斯”前端的应用界面变成一个人可触达的创意知识库,这是我们做的把创意能够变为数据知识的事情。
把创意变为数据之后可以做哪些事?可以让机器识别创意的种类、识别创意的好坏、识别创意之间的关联;我们可以优化创意,比如说优化广告的内容、优化做出来的某种设计是不是符合设计的目的;我们还可以生成创意,从一个创意变为更多的创意,我们可以预测创意,预测功能性创意的好坏。
讲到智能识别,上图这个项目是谷歌的研究员Klingemann做的项目,非常有意思。大家看到上图可能最左边的是一个人,是一张油画作品,大家可能都能感受到在做什么工作,机器做的是在第一张人脸的雕塑和最后一张油画之间,用各个数据库里面的艺术作品做一个渐变,所以叫x Degrees of Separation,意思就是说任何的两个艺术作品都能够找到这样逐步转变过去的艺术演进,中间可能是5个作品,8个作品,能够很顺的把头和尾衔接起来。
这件事情有什么作用?大家可能不了解,这么多的艺术学者,在没有人工智能进入到艺术行业的创意里面之前,这件事情是不可能发生的,我们很难把两个作品中间的这种类似于不同刻度的渐变发现出来。恰恰是人工智能帮助创意人去更好理解创意深度,这样有了一个科技的武器去理解文科的内容,实现文理兼修,通过理科的角度理解文科,这是一件很重要的工作,因为这个过程里面创意开始被机器理解了,所以它才能够做这样的工作。
智能识别在功能型创意上用途很广泛,很多创意广告都是“千人千面”,不同的消费者、不同的用户画像会看到不同的创意内容。但是这些内容生产上来之后难免会出现各种各样的挑战和问题。所以我们这里的一个识别引擎叫T.Compliance ,识别这些内容的品牌,比如说这张图里面是清扬,里面的图像元素的合规情况;比如说这两批洗发水是不是最新的包装,如果不是应该替换为最新的包装,法规是否合规;“去屑拔头筹,清扬敢出头”,有没有违反广告法,有没有这些很绝对的词等。
其实机器通过识别功能性的创意内容里的核心元素,能够做到内容的理解和合规检测。有很多的创意都难免会撞车,不管有意还是无意。有意就是抄袭,无意就是大家英雄所见略同。这种情况下机器都有可能向提醒你把相似度的东西找出来。在海量的创意里面,机器其实可以帮助创意不管是使用者还是创意的生产者做更好创意维度的理解。
另一个智能生成的例子是在字体设计领域。做一套字体其实是很耗时的,尤其是中文的字体还有很多排列组合和修正,但是人工智能逐步的已经开始学习到一些字体的方法,可以智能的生成新的字体。过去每个字都需要老师傅一个一个的写出来。上图案例是卡内基梅隆大学的一个研究生用业余时间做的,它叫Zi2Zi,通过100个字的输入就能产生一套几千个字的字库。所以从100到几千个字的过程是由机器生成的,人进行一些修正,这是开源的项目,大家可以去找来尝试。
阿法狗战胜李世石是3、4年前的事情,那时候机器更擅长的解决确定问题、分类问题,但是在过去3、4年里机器逐步开始解决开放性问题,去做创造性的工作,主要就是基于类似于创意对抗网络等等的技术,开始能够做创造性的工作,也就是说没有最优解的,更多是多元工作。
是否会出现创意的机器?
这里就会产生到我们下一个思考的议题,是不是会出现创意的机器?
油画作品Edmond de Belamy2019年在佳士得拍卖行卖了43万美金,右下角的艺术家署名是一段代码,意思是这张画是通过一套算法,主要是对抗生成网络做成的一张油画。这个油画的算法作者其实是一个用算法来做艺术作品的工作室。
过去我们看到人创造出作品,现在我们看到纯机器创造出来的作品。我更想跟大家去探索的是这两种更复杂的情况:第一个叫“机器在环路中(machine-in-the-loop”:人对机器先提出一个假设,机器给人很多的建议,人再基于这些建议创造出一个作品。我们在做的一个蛮有意思的项目叫做“秀色可餐”。
上海张江的人工智能岛上有一个人工智能体验中心,我们希望能够不要像常规的体验中心那样罗列式的介绍人工智能各种各样的技术,而希望大家在里面体验。我们选择体验的场景就是吃饭,所以做了一个作品叫做“秀色可餐”,如果大家看动画视频,其实是我们后台的demo,前台是一个投影仪。我们把餐馆的菜单,比如说鱼香肉丝、宫保鸡丁、番茄炒蛋,把它抽象转译成一种绘画风格,我们把每一个菜名变成一个文字,然后这个文字有不同艺术家的风格。比如说在这里可能能看到的德库宁,这是一个荷兰的当代艺术家,毕加索,波拉克,罗斯科,或者是我自己特别喜欢的亨利卢梭,风格非常迥异的画家,这个字可以换风格,然后再变成一种笔触。
笔触通过投影仪投射到餐厅的桌布上,所以每个餐厅的桌布的形象都和这个餐桌菜单所下的单有关,我们希望不要让人工智能只变成冷冰冰的技术,而是可以看、可以闻、可以和我们的烟火气发生关联的这样的一种生活的一部分。
这个就是我们做的一个工作,这里面用的核心思想方法就叫“机器在环路中”,用人工智能机器帮助人的艺术家能够延展。画家画画是比较漫长的,但是在这里,可以迅速地通过机器把绘画复制很多倍,所以这个叫赋能人的创作。
另一个逻辑“人在环路中(Human-in-the-loop),核心观念和刚才讲的机器在环路中正好相对。机器算法创作出一些作品,人给予反馈,这些反馈能够让机器做更好的作品。机器可能做一千个、一万个、一亿个作品,人不同不断地给反馈,来训练机器。
我们与2×4——全球最著名的平面设计公司一起,和蚂蚁金服支付宝合作。当时我们提了一个概念,这个也是来自于创业中我们经常讲MVP(minimal viable product),最小的可行产品。这些小商家可能也有一个东西叫MVD(minimal viable design),最小可行的设计。如果商家仅需要一个设计,会是什么?我们觉得是“海报”。所以我们能不能让全世界最好的设计师通过机器,产生让千千万万中小商家不用花很多的设计费用的作品,就能够得到每个人不一样的定制化海报设计。
我们当时就和2×4等大概有50个不同的创意工作室合作,让机器不停的在数据库里找创意的元素,这些设计大师告诉机器哪些好哪些不好,就产生了一个海报生成的引擎。这个引擎任何一个商家输入名字,比如这里看到“熊熊奶茶小屋”,输入类型、地域、有一些和风格有关的提示词以后,就能够产生一张这个小店的海报,在支付宝上支付10元,这张海报就能打印出来,送到店家。所以换句话说,10元就可以拥有一个世界上最好的设计师训练过的作品。
2×4的创始人叫做Michael Rock,他是耶鲁大学的一个平面设计的教授,他自己的学术观点和企业能做的事情存在着鸿沟,所以当我们聊起这件事情时,他非常高兴,他觉得人工智能让人,让2×4这样的设计团队,成为机器闭环中的一部分,把更多的能力通过机器变得大众化。
我们前面看了很多的案例,各种各样的内容的制作、识别、生成、创意等等,哲学家、评论家会发出这样的问题:机器真的可以创意吗?我这里摘取了两个观点,一个观点来自著名计算机科学家、图灵奖获得者Dijkstra。他讲过一句很意思的话:“潜水艇能潜水,但是它真的能游泳吗?计算机会不会思考这个问题就像潜水艇会不会游泳一样”。机器不管是做了这么多的创意,还是辅助人做了这些多的创意,它真的会创意吗?
另一个角度是著名心理分析学家卡尔荣格讲的,他说“任何新的创造都不是通过思维来实现的,而是通过一种对于像玩东西一样的内驱”。所以我们没有玩具的时候我们自己想着玩,有了玩具之后产生某种互动,有更不一样的玩具我们可能完成新的花样。人工智能是不是人的一个新的玩具?这个玩具能够让我们人更有创造?这个是两种思考维度没有答案的问题,但是这是一个值得讨论的问题。
我想提一个比较实实在在的角度:乔布斯讲电脑和人关系的一段视频。视频中讲到人的行动力特别糟糕,人的行动力没有马好、没有狗好,没有绝大多数动物好。但是很聪明的是,人是可以发明工具的。所以当人骑上自行车以后就成为这个行动力最强的生物了。
乔布斯讲PC个人电脑就是人类思维的自行车,人工智能是不是在后个人电脑时代的创意思维的自行车呢?麦克卢汉曾说“我们先塑造了工具,然后工具塑造了我们,我们先塑造了创意的人工智能,然后人工智能塑造了我们”。
在我们自己的研究里面提了一个概念,主要想表达的是在创意中人机的正和关系,我们把它叫“脑机比”。取代关系就是前面最早《经济学人》杂志那种表格,多少可能性被取代,这种是零和关系,正和关系用脑机比这个概念来。就是机器越多机器作为思维的自行车能够给我们更多的创意和思维的空间,所以希望用脑机比。
我自己既是学者也是创业者,不管在学术领域还是做公司,我们的愿景都是一致的,就是用“科技赋能想象力”。我原来在加州大学伯克利分校,2015年机缘巧合拿到天使投资开始做企业。之后也有一系列很好的投资人进入到我们的公司,让我们不停的可以做尝试。在2017年初的时候我们成立了这个实验室,也是希望能够把我们自己在产业里面做的工作跟各个方方面面进行分享。
我自己其实做大学老师到现在已经快10多年了。大概2010年,我读到了一篇2004年的文章,这篇文章的作者叫Chris Anderson,他当时是美国一本杂志叫《连线》杂志的主编,他写了一篇文章,大家如果感兴趣在网上可以搜到,叫《理论的终结》。
他说可能未来随着大数据状态的出现,我们可能不再需要用假设小样本结论,就是理论化再通用化的方式来做研究,我们也许可以做全样本的研究。这个观点很打动我,也建立了希望能够产学研结合的方式来做自己工作的角度,所以我才会两只脚都要踏,一边在学术,一边在产业。
我们自己的团队其实也是一样的有产业和学术组合,我们实验室现在规模挺大的,除了我之外我们还有我的副主任,我们有一系列的研究员,有一堆背景各异的研究生,有些是误入这个行业的工科生,有些是误入这个行业的文科生,我们在这里有点文理兼修的意思,有些会写代码,有些人不会写代码,有些人是非常厉害的黑客,有些则是不停的反思人工智能对创造性的理解的批评家。我们还有一个叫脑机工作者的一个社群,所以组成了这样一个很有生机的产学研结合的环境。
大家想一想人类的发展历史,变相就是不停的有新的更高级的工具让我们的体力消耗变得更少。但是这个过程并没有让我们更闲着,让我们人类有了《诗经》,有了国风,有了艺术,有了文学。
无限的运算力就像无限的生产力一样,无限的产能一样是不是会让我们拥有更强的创造能力?我自己很感兴趣,把人工智能的右脑不作为一个结论,而作为一个问题,能够提问题恰恰是人和机器最本质的差异。也希望所有的听众我们能够一起在机器越来越强大的时代利用好机器,探索更多的未知。
原文转自:https://tech.sina.com.cn/scientist/2020-05-18/doc-iirczymk1792209.shtml