FutureTodayInstitute(简称FTI)近期发布了《年娱乐、媒体和技术趋势报告》,介绍了包括人工智能、合成媒体、区块链等共计16种前沿趋势,以及其中的项具体革新。通过阅读这份报告,让我们共同触碰技术与传媒业态的未来。
过去的几年里,传媒业见证了太多的技术迭变。我们在享受技术发展带来的各种便捷的同时,也在无声地承受着技术滥用的恶果。
智能设备、语音助手正变得越来越无微不至,合成媒体可以针对我们的口味和喜欢提供个性化服务,我们暴露于多元化、多接口的智能生态中。然而过去一年中大规模的数据泄露、假新闻泛滥,当机器开始复制我们的声音、预测我们的行为时,人类该何去何从?凛冬已至,针对科技公司的监管缩紧,契机与风险并存的信息时代或许已悄然面临拐点。
FutureTodayInstitute(简称FTI)近期发布了《年娱乐、媒体和技术趋势报告》,介绍了包括人工智能、合成媒体、区块链等共计16种前沿趋势,以及其中的项具体革新。本文对报告进行了精选摘编,以飨读者。正如Neo在《黑客帝国》的结尾所说:“我并不知道未来是什么样的。我来这儿不是告诉你一切是如何结束的,而是告诉你一切是怎样开启的。”
以下为报告全文,让我们共同触碰技术与传媒业态的未来。
趋势一:人工智能
AI已经不再是一种趋势,而是计算机时代的第三纪元。本篇报告从AI的不同方面汇总了娱乐、媒体和技术的趋势。在新闻业中,AI成为了各大新闻机构的宠儿。路透社的LynxInsight程序可以帮助记者挖掘大数据。《华盛顿邮报》的Heliograf被用来报道选举和体育赛事。杜克大学记者实验室的ClaimBuster则可以帮助记者进行事实核查。
弗兰肯算法的扩散
(ProliferationofFranken-algorithms)
算法只是定义和自动处理数据的规则。它们使用的是计算机可以理解的“如果……那么”逻辑。举个例子:如果网站浏览者的IP地址位于芝加哥,那么算法就允许他们直接进入;如果IP地址位于伦敦,则算法就会按照GDPR的要求先显示隐私和cookie政策。尽管人们可以直接按照自己想法设计某个算法,但是所有算法系统一起工作就有可能会带来问题。开发人员并不总是事先知道算法之间将如何一起工作。有时,几个开发人员团队都在独立地处理不同的算法和数据集,但是只有算法被设计出来以后才能看到如何运行。这也就是最近股市和电商网站出现崩溃的原因。对于像Facebook这样的大型公司而言这是一个艰巨的挑战,因为在任何特定时间,会有数十亿的算法同时工作,根本无法预测其运行结果。
专用、开放和自主开发的AI技术
(Proprietary,OpenandHomegrownAILanguages)
Python是一种具有许多预构建库和框架的先进的编程语言。麻省理工学院开发了一种名为Julia的开源语言,专注于数值计算,此外还有AI的提出者JohnMcCarthy于年创建的Lisp语言。各大公司正在开始构建和发布自己的软件包以及用于AI应用程序的独特编程语言。Uber用Python编写了自己的概率编程语言Pyro。不同于OSX与Android或者早期Mac与PC阵营的对立,这一举动意味着AI生态系统未来将走向分裂。市场会发现在不同的AI框架和语言之间转化代价高昂。
问题数据集
(ProblematicDataSets)
公司自主训练研制的AI并不具备代表性,因此不能被广泛采用。MIT的研究学者发布了一款名为“Norman”的AI用来捕获识别照片。他们做了一组对比实验,一组系统采用的是经过训练的标准数据,另一组则没有经过训练,结果令人大跌眼镜:采用标准数据的系统显示出来是“一个棒球手套的黑白照”,而另一个系统则显示出的是“一个白天在国外被枪杀的男人”。一些为了生成自然语言的新系统于年发布。虽然这些系统都事先经过训练,但它们曾经用来学习自然语言的Reddit和亚马逊上的评论却被删除了。原因在于:Reddit和Amazon评论员都偏向白人和男性,因此这些人的话并不能代表所有人。这说明开发人员仍然面临挑战。如今已经变得很难从真人那里获得真实的数据来训练系统了,而且由于新的隐私政策出现,开发人员只能更多地依赖公共数据集和有问题的数据集。
NormanAI与标准化AI的照片捕捉对比
数据的深层链接
(DeepLinking)
自智能手机问世以来,深层移动连接就已经使用户在手机所有软件中查找和共享数据。但是现在深层连接却让用户越来越难找到自己想要的信息。年,Yelp餐厅在其软件中标明了准确的联系信息,但是当客户点击时,他们就被跳转到Grubhub软件里订餐去了。即使客户关掉了软件并想直接打电话订餐,该软件仍将其转换成Grubhub上的号码,因为这样Grubhub可以将其归类为“营销”活动并向餐馆收取高额的佣金。如今深层链接有三种:传统深层链接,延迟深层链接和语境化深层链接。传统深层链接会从一个软件或网站重新定向您:如果单击某人在Twitter上发布的BaltimoreSun链接,那么理论上只要用户安装了BaltimoreSun软件,它就自动打开BaltimoreSun。延迟深层链接也直接链接到该软件(如果已安装),或直接链接到软件商店让用户先下载该软件。语境化深层链接的服务更强大,可以使用户直接从站点转到软件、从软件到站点或从软件到软件,还可以提供个性化信息,尽管故意向消费者隐瞒了整个过程。
AI云
(AIintheCloud)
过去一年,人工智能生态的领导企业一直在争夺“人工智能云共享”,以期成为值得信赖的AI远程服务提供者。在西方,该领域由亚马逊、微软和谷歌领导,其次是苹果、IBM、Salesforce、SAP和甲骨文。在亚洲,AI云由阿里巴巴等巨头主导。这是一个价值亿美元的行业,并且仍在迅速发展。纽约大学斯特恩商学院教授ArunSundararajan说:“(这场竞争的)收益是成为下一个技术时代的操作系统。”娱乐和媒体公司将在未来几年找到更多使用AI云的方式。
AI芯片组
(AIChipsets)
对我们来说,平常笔记本和手机上搭载的CPU性能已经在不断提升,却满足不了机器学习的要求。它们的问题在于,缺少足够的处理单元,去完成下一个计算机时代所需的连接和计算。这时就需要一组新型处理器,华为、Apple、IBM等企业都在试水新系统的构建和SoCs。简而言之,这意味着芯片已经可以在AI项目中发挥作用,并且有更快的速度和更精确的数据——也不难预料到,几家企业在未来即将开展竞争。特斯拉的新型定制AI芯片虽然不如最初描述得那么引人注目,但已于年4月发布。Google的Tensor处理单元(或TPU)是专门为AI的深度学习而构建的,旨在与该公司的TensorFlow系统配合使用。
图表2GoogleTensor处理单元
无处不在的数字助理
(UbiquitousDigitalAssistants)
Siri、Alexa和天猫等数字助理使用语义和自然语言处理我们的数据,有时甚至在我们不知道要问什么之前提前预测我们下一步想要或需要做什么。FTI模型在年预测,到年,将有近一半的美国人拥有并使用数字助理,而FTI模型将继续追踪这个方向的趋势。亚马逊和谷歌主导了智能语音市场,但数字助理是无处不在的。现在,有成千上万的可跟踪响应的数字助理软件和小程序。新闻机构、娱乐公司、营销商、信用卡公司、银行、地方政府机构(警察、公路管理)、政治运动以及许多其他活动也在通过数字助理传达重要信息。
利用短视频生成虚拟环境
(GeneratingVirtualEnvironmentsFromShortVideo)
芯片设计师Nvidia正在教AI用短视频片段构建逼真的3D环境,利用了此前生成对抗网络(GANs)的研究成果。Nvidia系统从开源数据集中生成的图形将用于自动驾驶领域。设计师使用了划分成不同类别(建筑物、天空、车辆、标志、树木、人)的短片段对GAN进行了训练,从而生成这些对象的新版本。自动生成虚拟环境的应用前景无穷:物流(仓库、工厂、运输中心)、城市规划模拟,甚至包括测试游乐园和购物中心内的客流量场景。
实际视频内容与AI生成内容
机器识别
(MachinesPerformingCognitiveWork)
公司不再仅仅依靠AI系统执行繁琐的重复性任务。更先进的系统正在企业帮助优化工作流程并主动生成策略。这意味着人们并没有被机器人完全取代;相反,机器人是按照人类的工作能力而创造出来的。从仓库到审计公司,人工智能系统开始执行认知任务——在此过程中,人类只需要执行基础的操作。
亚马逊的自动化系统帮助提高仓库的效率、指导员工完成工作。沃尔玛使用计算机视觉来查找熟烂的农产品,其AI系统可以对仅从堆中取出坏苹果的人进行检查。在新闻编辑室中,类似的系统可以帮助记者筛选非常庞大的数据集以查找异常或识别人员。
机器进程自动化
(RoboticProcessAutomation)
机器流程自动化(RPA)使企业能够在办公室内实现任务和流程的自动化,从而使员工可以把更多时间花在更有价值的工作上。
Google的Duplex是RPA的一种,用于向他人进行常规电话通话。亚马逊使用RPA筛选简历,然后再对最优秀的候选人进行排序。在银行业务中,BluePrism和AutomationAnyware可以帮助员工处理重复性工作,提高员工们的生产力水平。这项技术将使媒体和娱乐公司能够在客户服务等许多不同领域中节省成本以做出更好的实时预测。
机器人
(Bots)
基本意义上的机器人是指,为自动完成某一特定任务而设计的软件应用。在媒体领域,机器人可被分为两大类:新闻型机器人(newsbots)和生产力型机器人(productivitybots)。前者可以协助集合新闻信息,并自动为读者推送特定新闻事件;而生产力型机器人,则可以帮助新闻组织自动化他们的日常流程。
机器人的下一个重大进步不在技术方面,而是监管。在年的竞选中,我们看到了“僵尸网络”的复苏,“僵尸网络”是指发送误导性内容的计算机网络。由于人们对越来越多的机器人诈骗感到担忧,加利福尼亚州制定了一项新法律,该法律于年7月1日生效,要求机器人在在与人类的交往中必须清晰、醒目、合理地表明自己不是人类。
腾讯媒体+峰会现场Dreamwriter在写作
实时机器学习
(Real-TimeMachineLearning)
机器学习指的是一种应用算法来分析数据,从而可以更好地完成各种任务的系统,并且随着时间推移,它会越来越擅长这些任务。但这种系统也面临着效率问题:系统需要停下来解析数据。而最新研究表明,实时机器学习可以随数据获取而实时调整模型。这标志着数据移动方式以及我们检索信息方式的巨大变化。
比如说,即便是在多种语言混杂的情况下这种技术也能自动同声传译;它也可以对内容分发进行随时调整,从而为读者提供更具个性化的内容。比起刻板地使用历史数据(读者XX只喜欢体育类报道),实时偏好则能够将内容纳入推荐机制(读者XX在接下来的几天里对大选新闻的需求可能会更强烈)。
自然语言理解(NLU)
(NaturalLanguageUnderstanding(NLU))
对于Siri和Alexa等对话式AI系统而言,让机器准确了解某人的意思难度较大。这些系统都经过训练后最多可以理解语句中的代词。如果消费者问“狮子王在Cinemark剧院几点钟上映?然后在那附近停车”,系统会自动推断“那”的意思是“Cinemark剧院”。从技术上讲,此过程称为“插槽结转”。它可以使用句法语境来理解代词的意思,除非我们说了带有许多不同代词的复杂句子。事实是,在日常交流中我们的说话都很混乱随意、滥用单词,甚至只用语气词来传达意思。
年,亚马逊研究科学家在NLU方面取得了令人瞩目的进步,他们推出了新的架构,能够帮助Alexa在人类不说完整的句子的情况下也能很好地理解人类。
AmazonAlexa首页
机器阅读理解(MRC)
(MachineReadingComprehension(MRC))
MRC使得系统阅读大数据、推断含义并且立即得出答案的流程成为可能。举个例子,当你搜索时,你是希望系统直接给出一个确切答案,还是提供给你一堆“欲知后事如何请看更多超链”的URL合集?让机器自己找出问题所在,这就是MRC。
在未来,MRC是实现强人工智能的关键性步骤之一,而近期,它则可以协助我们把技术手册、历史地图和医疗记录等各种资料转化为易于搜索的信息集合。
自然语言生成(NLG)
(NaturalLanguageGeneration(NLG))
自然语言生成技术现今已被不少媒体与营销机构所应用,基于大规模的数据集来进行自动内容生产。NLG可实现的功能包括,集成关键词、提升SEO(SearchEngineOptimization,搜索引擎优化,即利用搜索引擎的规则来提升网站的搜索排名)以及为用户批量提供个性化的内容。
ArriaNLG、IBMWatson语音转文字技术、AmazonPolly、谷歌云语音转文字技术,叙事科学公司NarrativeScience和自动观察公司AutomatedInsights利用大型数据集构建叙事以帮助非数据科学界人士更好地了解其组织中正在发生的事情。NLG在各个专业领域都有无数的用例,可为律师、政客、医生、顾问、金融分析师、市场营销人员及其他人士提供帮助。
机器学习中的实时语境
(Real-TimeContextinMachineLearning)
IBM公司研发的ProjectDebater可以通过消化大量文本,从语境中找出逻辑漏洞、假消息。虽然目前处于测试阶段,但已经能够通过实时学习利用实际环境分辨真伪信息了。
ProjectDebater的工作原理
多任务强化学习算法
(GeneralReinforcementLearningAlgorithms)
AlphaZero的团队开发的新算法可以学习多个任务。比如AlphaZero不仅在围棋上无人可敌,在象棋和日本象棋中也出类拔萃。
更快的深度学习
(MuchFasterDeepLearning)
深度学习(DeepLearning,DL)是机器学习中相对较新的分支,也会很快无形地融入到各个组织机构当中。设计者会结合包括文本、图像、视频、演讲等类似内容在内的各种数据库使用较为特殊的深度学习算法。
从概念层面上来讲,它不算新,最近更新的是计算处理能力和可用数据的数量。落实到实践上,这就意味着更多的人类事务可以被计算机自动完成,比如设计软件写代码。
DL受计算机网络运行速度的制约:几年前,用ImageNet网站中的数据集来训练图像识别功能,可能要花费一个月或者更长时间;而现在,Facebook可以在一小时内实现相同的效果。随着计算机提速和硬件技术的提升,系统也会以更加“超人”的速度完成任务。
ImageNet