今日要闻 >雷锋网>强化学习如何真正实现任务自动化?不妨试试“两步走”策略!>正文

强化学习如何真正实现任务自动化?不妨试试“两步走”策略!

时间:2019-10-07 20:12:00  来源:雷锋网

雷锋网 AI 科技评论按:作为行为主义学派的重要技术,近年来,强化学习在 Atari 游戏领域大放异彩。然而,人们要想将强化学习技术真正应用于现实世界任务,还有很长的一段路要走。本文将真实世界强化学习任务抽象为「简化」和「求解」的两个步骤,从马尔科夫决策过程的角度,讨论了普适性的基于强化学习的自动化技术。

对于广大研究者来说,有朝一日能够在使用很少的人力的情况下,通过强化学习为现实世界中的任务生成自动化的解决方案是梦寐以求的事情1。不幸的是,现在看来,强化学习还很难实现这一目标。到目前为止,深度强化学习基本上还没有解决任何现实世界中的问题;即使是在非常理想的简单情况下,强化学习找到的解决方案往往也是十分脆弱的,无法泛化到新的环境中去。这意味着在每个任务中,涉及的人工工作(即针对特定任务的工程工作和超参数调优)是相当多的。

与此同时,当前的强化学习算法的样本效率往往很低,这也使得数据收集和计算的开销非常巨大。目前,基于强化学习的自动化解决方案与其它的替代方案(例如,使用一组机器人来设计一个解决方案,或者根本不使用自动化技术)相比,还是很弱。

尽管如此,强化学习(尤其是深度强化学习)技术,仍然因其巨大的潜力成为令人兴奋的研究领域。人们在强化学习领域取得的研究进展,能够直接转化为使复杂的、具有很高认知要求的任务更好地实现自动化的能力,这是人们目前集中精力重点攻关的研究方向。如果我们能够真正将强化学习发扬光大,我们就可以在不使用人力的情况下,完成目前需要大量人力参与的任务:只需要通过利用少量的数据进行大量的计算。

出于这种考虑,让我们进一步思考:通过强化学习将任务自动化究竟意味着什么?基本的解决过程可以被拆解为两个步骤:首先,通过将问题改写为一个马尔科夫决策过程(MDP)或者部分可观察马尔科夫决策过程(POMDP),从而将该问题简化为一个强化学习问题,然后对这个 MDP 或者 POMDP2问题的最优策略进行求解。接着,这个最优策略让我们能够完全地将该任务自动化,无需其它的人工工作就可以任意次地完成该任务。

尽管这个「两步走」的策略十分直接,但在我的印象中,并没有太多的强化学习研究人员从自动化的角度来思考他们的工作。而在我看来,自动化是思考强化学习的一个非常有用的视角,它确实影响了我对强化学习研究的思考方法。在本文中,我将首先更详细的介绍上面提到的「两步走」策略。

将任务简化为强化学习问题

当我们尝试通过强化学习对某个现实世界中的问题进行自动化时,首先要做的就是将该问题重构为一个马尔科夫决策过程。由于马尔科夫决策过程的框架十分通用,因此对于大多数问题来说,这一点是很容易做到的。这也正是强化学习可以节省大量人力的原因所在。除了找到解决方案,人们要做的唯一的任务就是以略有不同的形式将问题改写为马尔科夫决策过程(或部分可观察马尔科夫决策过程)。

不幸的是,并非所有的马尔科夫决策过程都同样容易解决。在大多数情况下,直接将问题简化为强化学习问题将会产生某些十分难以解决的问题。例如,如果某项任务的奖励非常稀疏,只有在任务中发生的情景结束时才能够获得奖励,那么我们很难计算出所有的奖励,更不用说解决任务了。但是,通过合理设计奖励函数(reward shaping)——加入将策略引导到真正的最优点的中间奖励,我们可以在很大程度上使强化学习算法面对的任务更加简单。

「sim2real」是另一种使我们更容易将任务简化为强化学习问题的技术,我们首先要手动设计一个模拟器(是一种能够对真实环境下的 MDP 进行近似的 MDP),然后在我们的模拟器上找到最优策略,最终将这个最优策略迁移到真实环境中。从一个模拟器中收集数据需要进行计算,但并不需要与现实世界进行交互,这种与现实世界的交互要比从模拟器中收集数据慢得多。因此,在需要收集大量数据的问题上,这是一种非常经济的方法3。

然而,这种技术也有很大的缺点:在改变 MDP 时,MDP 的最优策略也随之发生了变化。这意味着,即使我们的 MDP 求解器为我们提供了完美的解决方案(给出了确切的 MDP 最优策略),这种解决方案也可能在真实任务上表现得很糟糕!

对于「将任务简化为强化学习」的研究,是由以下问题驱动的:「我们如何才能将真实世界中的问题表示为 MDP,以致于当我们使用我们的 MDP 求解器时,最终得到的策略可以在真实任务上表现良好」?在该框架下,强化学习研究的子领域包括迁移学习、无监督强化学习、元学习、sim2real、奖励工程、人工智能安全等等。

求解 MDP

强化学习的核心是一个基本的问题:找到 MDP 的最优策略。MDP 是一种优美、简练的数学抽象,并不涉及现实世界中那些混乱的情况。在 MDP 的情况下,我们不必像在「将任务简化为强化学习问题」时那样,思考「这是正确的奖励函数吗?」或者「这样的解决方案能够迁移到其它任务上吗?」

真正完美的 MDP 只有一个,我们要做的就是找到具有最高期望受益的策略。

由于 MDP 框架具有很强的通用性,在我们发现一种能够为任意 MDP 找到最优策略的算法4之前,我们需要研究很多困难的问题。为了能够进一步进行研究,我们往往为给定的 MDP 做出一些假设。例如,我们可以假设状态空间是「表格式」的(离散的),或者是连续的(但是状态转移函数是符合利普希茨连续条件的),或者奖励函数的范围介于 [-1,1] 之间。这种简化过程使我们更容易对 MDP 进行推理,并且更容易从经验上说明我们提出的解决方案的有效性。

对二者的选择如何影响后续研究?

大多数强化学习领域的研究都关注于改进或理解上述两个方面中的某一个方面。从研究动机到评估策略,再到对结果的解释,对这二者的选择对一切后续的研究过程都会产生很大的影响。然而,研究社区目前无法很好地将二者进行区分。许多论文似乎同时涉及这两个层面,使得论文缺乏严谨性,研究人员各执一词,并且容易对结果产生误解。

具体而言,我们可以从这篇论文出发来窥探这个问题:Mnih 等人曾于 2015 年发表过一篇经典的深度强化学习论文「Human-level control through deep reinforcement learning」。这是第一篇明确说明深度强化学习算法可以利用高位像素输入进行学习,学会在玩游戏的过程中达到人类水平的文章,人们普遍认为这篇论文揭开了整个深度强化学习领域研究的序幕。首先,我想重点关注 Mnih 等人做出的一个选择:将所有的奖励裁剪到 [-1,1] 的区间中。

如果我们将这种对奖励的裁剪操作解释为对他们的 MDP 求解算法在算法层面上的选择,这显然是不合适的。「将奖励裁剪到 [-1,1] 之间并进行 Q-学习」显然是一种糟糕的算法。在求解算法找到的策略与最佳策略相差甚远的情况下随便提出一个 MDP 是十分容易的。但是,如果从另一个层面上看,我们将这种奖励裁剪操作看做一种强化学习简化技术,那么这种做法就显得十分明智了。

当我们使用一个深度神经网络函数近似器时,求解一个带有无界奖励的 MDP 问题是十分困难的,而求解带有有界奖励的 MDP 问题要容易得多。事实证明,对于大多数 Atari 游戏而言,带有 L1 有界奖励的最优策略与原始游戏的最佳策略非常相似。因此,对于这个问题,这是一种十分有用的简化技术,Mnih 等人也成功地应用过这项技术。

我们还可以找到一些其它强化学习的简化例子。首先,在折扣因子 γ= 0.99 时。由于 Atari游戏有一段一段的剧情(即每一段剧情最终都会结束),无论是否存在折扣因子,Q-学习都应该收敛。然而,由于深度强化学习是相当不稳定的,求解一个收敛较慢的 MDP 比求解一个收敛较快的 MDP 要困难一些,因此加入折扣因子是有帮助的。当然,将折扣因子从1更改为 0.99 会改变最优策略,但在本例中,这似乎无关紧要。我们最后针对于特定的 Atari 游戏的使用的简化启发式方法5是「根据生命损失决定 MDP 的终止」。当一个生命损失掉时就终止的 MDP 具有更短的情节,这使得信用分配更容易,也更容易求解;同样的,从经验上看,过早终止这些游戏似乎不会对最优策略产生太大影响。

那么,为什么我认为应该将这些算法决策视为面向强化学习简化的,而不是面向马尔科夫过程求解的呢?其中一个主要的原因就是:对算法的评估。

Mnih 等人以及此后的每一篇 Atari 深度强化学习论文,都将他们所有的游戏与原始的标准 Atari 环境进行了对比。这意味着,论文中提出的任何改进都将根据其对强化学习简化和 MDP 求解的影响自动进行评估。然而,将这两个因素交织在一起考虑是有问题的,可能会得出一些不合理的结论。

我们不妨考虑下面假设(但看起来合理)的情况。假如我们有一些用于「PONG」游戏的MDP。我们还有一种经过了各种简化处理(例如奖励裁剪以及折扣因子)的「PONG」游戏的 MDP(不妨称其为 GNOP)。令「PONG」的最优策略为 π*PONG,它能在游戏中得到 20 分的期望回报:VPONG(π*PONG)=20。类似地,GNOP 的最优策略 π*GNOP在 GNOP 中得到了 15 分:VGNOP(π*GNOP)=15。当然,由于奖励裁剪和折扣因子,GNOP 得到的期望回报要稍稍低一些。

实验结果表明,当我们在 PONG 游戏中运行策略 π*GNOP时,我们得到的回报为 18 分:VPONG(π*GNOP)=18。这说明,我们可以对较为简单的 MDP(即 GNOP)进行求解,然后仍然在我们真正关注的PONG 游戏的 MDP 上得到 90% 最优解,这种归约的效果还不错!但现在,不妨假设还存在另外一种策略 πmeh,使得 VGNOP(πmeh)=14,但 VPONG(πmeh)=196。

假如我是一个强化学习研究者,我想到了某种求解 MDP 的算法「novel()」,并设置了一个对比基线「baseline()」。我声称「novel()」能够比「baseline()」更好地找到最优策略。因此,我在标准的 Atari 环境下评估该算法,该评估过程在简化版的环境中进行训练但是在真实环境下进行评估。结果表明,baseline(GNOP)=πmeh,而 novel(GNOP)=π*GNOP。这真是太神奇了!

我的新算法比对比基线能够更好地找到 MDP 真正的最优策略。但是,当我在真实环境下进行评估时,我发现:VPONG(baseline(GNOP))=19,而 VPONG(novel(GNOP))=18。这时,相较于对比基线确实有所提升这一算法(确实相较于对比基线有所提升)看起来却不那么好了。如果我们只报告了在 PONG 上的评估结果,而不报告在 GNOP 上的评估结果,没有人会知道。

我认为,在当前的深度强化学习研究社区中,这样的评估标准是一个很大的问题。我怀疑,将「把任务简化为强化学习」和「求解 MDP」这两个问题交织在一起考虑,阻碍了我们对这两方面进展的认识。这个问题在 Atari 游戏中是最明显的,但在其它领域也是如此;例如,一些 MuJoCo 控制任务是具有情节的,但我们仍然使用折扣因子进行训练,并在没有折扣因子的情况下进行评估。

显然,解决这个问题的方法也是报告在 GNOP 上的评估结果。这很容易做到,我们只需要确定算法的哪些方面是面向强化学习简化的,哪些是面向 MDP 求解的,创建一个执行了所有简化操作的版本的环境,然后在这个新的 MDP 上评估算法和基线。在论文中明确指出每种简化操作的相关假设,可以更清楚地描述每种方法的局限性。

当我们研究 MDP 求解问题时,对 Atari 的简化结果是无关紧要的

现在,我想进一步讨论一些可能引起争议的问题:我认为,在 GNOP 上进行的评估实际上远比在 PONG 上进行的评估更加重要。这是为什么呢?

从大的方面来看,没有人真正关心我们能否学会玩 Atari 游戏。这是一个很棒的对比基准,因为它复杂、多样,有便于比较的人类基线,而且可以以较小的开销、快速地进行仿真。但说到底,我们直接研究 MDP 的集合才是最有用的,这一过程可以用来推动算法的进步,以解决复杂的 MDP。目前,这些 MDP 太复杂了,我们无法解决。不过这也没关系,我们可以对这些 MDP 进行简化,直到它们被解决为止,然后研究那些更受限制的领域的算法。策略是否能很好地迁移到其它的(原始的)MDP 集合或多或少与这个研究过程不相关。

此外,随着时间的推移,研究者们将通过消除对他们研究的 MDP 的简化操作来推进研究工作,越来越接近求解真实的、原始的 Atari。

例如,Hessel 等人于 2018 年提出「POPART」方法消除了奖励裁剪操作的要求。这是一项十分明智的技术,也是朝着真实的 Atari 环境下的策略学习前进的一大步(因为减少了一项简化操作)。然而,它也会使得求解 MDP 变得更加困难,这意味着我们可能无法立刻看到性能的提升。为了给出公平的评估结果,POPART 应该在带有未裁剪奖励的 Atari 环境下与基线方法进行对比,而此时 POPART 方法的优势更大(详见论文中的图 2)。它学到的策略会更好地迁移到原始的环境中(因为此时的最优策略更加接近真实环境下的最优策略),还是更差呢(由于难以优化)?这并不是我们所关注的!重要的是,在这个问题的范围内,POPART 的性能优于其它方案。

当然,同时进行对强化学习简化技术的研究也是十分重要的。对于这个问题,有许多有趣的研究途径,比如哪些简化操作是有效的,对哪些类型的任务的研究可以代替对其它类型的任务的研究,等等。对于这些类型的研究,Atari 可能仍然是一个很好的对比基准,并且在原始环境下的性能问题再次成为最重要的需要回答的问题。我只是想建议尽可能地将两者分开,并强调这些区别。

脚注

1. 自动化的目标是节省要付出的「工作」(effort)。粗略地说,「工作」指的是:「解决一项任务所需要的一切」。我们可以考虑许多任务中的需要付出的「工作」。在此,我想重点强调几类「工作」:人工工作、数据收集工作和计算工作。(显然还有其它类别的工作,但这里提到的是与强化学习最相关的)。这些类型的工作形成了各种层次结构。

人工工作是最昂贵的,因为它需要耗费一个人的时间和精力,人们可以利用这些时间和精力做别的事情;数据收集是第二昂贵的,因为它需要建立基础设置来与混乱的现实世界进行交互;计算是最廉价的,因为购买 CPU / GPU 的付出是相对较小的,而且算法常常可以并行化。我们几乎总是乐于将「工作」从一个更高的层次转化为一个更低的层次。例如,人人都爱计算器,它可以将两个数字相乘所需的工作从人工工作转化为计算工作。

2. 本文是从 MDP 的角度撰写的,但我所说的一切同时适用于 MDP 和 POMDP 问题。

3. 不可否认,构建模拟器也是需要耗费人力的。

4. 尽管我们并不一定需要找到所有 MDP 的最优策略,但是能够解决与我们关心的问题相关的所有 MDP 就足够了。考虑到我们所生活的世界的规律性,几乎可以肯定,这一集合要小得多。

5. 这些都是我注意到的,但如果你还发现了其它的方法,可以与大家分享!

6. 当然,实际上,对于这个特定的问题(PONG游戏,以及使用了奖励裁剪和折扣因子操作的简化环境),πmeh可能真实存在也可能不存在。但是请允许我在此给出这个例子!通常来说,这种情况没有理由不发生。

Viahttps://jacobbuckman.com/2019-09-23-automation-via-reinforcement-learning/雷锋网雷锋网


文章转载自网络,作者观点不代表本网站立场,如需处理请联系客服

最新文章最新视频

雷锋网其他文章

5家美律所向如涵发起集体诉讼,指控其招股书存在虚假、误导性声明

5家美律所向如涵发起集体诉讼,指控其招股书存在虚假、误导性声明

雷锋网消息 近日,美国多家律师事务所对“网红电商第一股”如涵发起集体诉讼,指控其招股说明书中存在虚假、误导性声明或未披露的信息,导致其IPO后股价一路下跌,损害了投资者利益。根据美国知名投资者关系律师事务所BernsteinLiebhard日前发布的新闻稿,包括KaplanFox&KilsheimerLLP、BernsteinLiebhardLLP、Block&LevitonLLP、BernsteinLiebhardLLP和GlancyProngay&MurrayLL在内的五家美国律师事务所在美国东部时间10月9日分别发表声明,称代表在2019年3月31日-10月7日间购买如涵控股美国存托凭证的投资者发起集体诉讼,对该公司进行调查并寻求索赔。BernsteinLiebhard律师事务所称,如涵的招股说明书中包含虚假和/或误导性陈述和/或未能披露相关信息。其声明着重指...

2019-10-13 17:34:00
Akamai:从CDN转战云交付,将成厂商出海“新管道”吗?

Akamai:从CDN转战云交付,将成厂商出海“新管道”吗?

在近十多年,人类出现过几次世界范围内的互联网流量高峰。比如,2002年的乔布斯在苹果发布会上的演讲,2008年的美国大选中奥巴马就职典礼,2012年的美国超级碗XLVI比赛,2016年里约奥运会创造了一个新纪录即直播流媒体量是往届的100倍,2018年世界杯法国夺冠之夜,全网流量再上高峰……除此之外,在中国,你能深刻感受到的是,以抖音、快手、B站为代表的短视频、移动直播平台纷纷登上国际舞台,这些平台对CDN(内容分发网络)技术非常依赖,但是其不仅仅满足于获得CDN服务,而是希望获得一整套的技术方案,如网络安全、边缘计算甚至AI。这背后谁在做最大的流量生意?如果说,每次流量高峰期是云厂商捕捉机遇、大肆宣传的机会,那实际上有个狠角色是大家不容忽视的——Akamai。作为全球第一大、商用程度最高的CDN公司,Akamai每日可以交付Web流量超过50TBps,在2019年3月份交付了超过83TB...

2019-10-12 18:12:00
亚马逊全面回应:涵盖人脸识别、假货等 10 个问题

亚马逊全面回应:涵盖人脸识别、假货等 10 个问题

随着亚马逊的业务触角延伸至众多领域,这家巨头肩上的社会责任也越来越重,并且意识到了许多具有争议的问题。本周四,亚马逊在其官方 Blog 上发布了一篇长达 1300 字的声明,表明了亚马逊在 10 个敏感问题方面的立场,其中包括最低工资、气候变化、工作场所多样性、假货、移民、以及人脸识别等方面。虽然亚马逊并未在这篇声明中提及反特斯拉的相关信息,但它承认了其面部识别技术 Rekognition 已被滥用——这项技术长期以来都用于寻找失踪儿童,或是作其他方面的用途,但现在已被滥用,需要尽快处于政府的监管之下。亚马逊在声明中说道:我们为所有 Rekognition 客户 (包括执法客户)提供正确的使用指导,并有明确的使用条约需要用户签订。然而,我们还是认为,政府应该采取行动来规范这项技术的使用,以确保它不会滥用。我们也已经提出了指导方针来建立相应的国家立法框架,以保护个人公民权利,并确保政府在应用...

2019-10-12 18:07:00
英特尔首席架构师Raja:未来10年计算架构的优化和提升将比过去50年还多

英特尔首席架构师Raja:未来10年计算架构的优化和提升将比过去50年还多

芯片算力的提升一次次推动了科技革命,反过来,新技术的发展也促进了计算力的提升。这种相互作用的关系在如今的英特尔身上尤为明显。2016年,英特尔前任CEO科再奇提出,英特尔正从一家PC公司转型为驱动云计算和以亿计的智能、互联计算设备的公司。随后,这种战略转型明确为快速从以PC为中心进入到以数据为中心。成为时代的王者从来都不是简单的事情,特别是跨越时代的成功。不过,英特尔为了能够快速满足大数据、AI、5G的需求,不仅增加了投资、加大力度广纳贤才,还在去年提出六大技术支柱战略。但要实现这些提升,挑战也十分巨大。英特尔高级副总裁、首席架构师,兼架构、图形与软件部门总经理Raja M. Koduri仅靠摩尔定律提升难以满足海量数据的需求过去几十年,在摩尔定律的持续作用下,芯片算力大幅提升,驱动了互联网以及移动互联网的快速发展。如今,我们正在进入以数据为中心的时代,IDC的预测,2015年到2025年...

2019-10-12 16:36:00
请来前阿里 CTO 当董事长,这家企业如何为购物中心生态化经营劈山搭桥?

请来前阿里 CTO 当董事长,这家企业如何为购物中心生态化经营劈山搭桥?

从数据 Collect 到数据 Connect大地上建满了炼油厂,而真正的油田却还没有被开发,这正是当前国内数据挖掘领域的真实写照。目前,国内大大小小的数据分析类企业不在少数,但线下数据缺乏的情况依旧十分严重。数据中台企业奇点云的创始人张金银曾经讲过一个故事:2017年奇点云成立之初,一家企业找到他,希望用奇点云的数据挖掘技术来推动业务转型升级。张金银喜不自胜,正当他准备大施拳脚时,却发现这家客户手里只有区区300G数据,连一台普通电脑的硬盘都装不满。线下企业的数据匮乏程度由此可见一斑。当然,数据并非一定要大而全才能发挥作用,只要数据的真实性有保障,即便只有少量数据,一旦企业把它用起来,也能够产生一定的价值。遗憾的是,虽然很多企业声称自己手里有数据,但不过是同一批数据在串来串去,面目已经模糊不清。而且很多企业掌握的是“间接数据”而非“直接数据”。什么是间接数据和直接数据?打个比方,你想了解...

2019-10-12 15:21:00
晨兴资本执行董事尤丹:教育在资本的眼里一直是黄金赛道

晨兴资本执行董事尤丹:教育在资本的眼里一直是黄金赛道

雷锋网消息,10月9日,2019中国民办教育校长职业化高峰论坛在南京举行。在论坛上,晨兴资本执行董事尤丹做了题为《早期创投眼里的教育赛道》的分享。演讲中,尤丹认为,从供需两端的变化来看,教育行业的三大机会在于内容,服务,技术、数据、算法‍‍。她表示,教育行业要‍‍想成为投资人眼里一个可以规模化的行业,有个很关键的点是标准化。最后,尤丹相信‍‍在技术例如AI、大数据的作用下,能实现真正的育人,而不仅仅是教人。以下是尤丹在大会上的分享内容,雷锋网对其进行了不改变原意的编辑整理:晨兴资本执行董事 尤丹今天我分享的是早期创投眼里的在线教育。 其实,在中国,风险投资或者早期投资行业是跟互联网一起起来的。消费互联网投资的是中国社会发展带来的民众消费能力的提升,基本都在衣食住行、娱乐、游戏领域,但还有两块最难啃:教育和医疗‍‍。因为这两个行业有2个属性:第一它们是服务行业;第二这两个行业内会有很多的政策...

2019-10-12 11:18:00
BAT 为什么都看上了重庆?

BAT 为什么都看上了重庆?

重庆,作为我国中西部地区唯一的直辖市和国家中心城市,正在新一轮科技发展浪潮中扮演着越来越亮眼的角色。尤其是近两个月来,重庆在推动科技创新企业合作和落地方面力度频繁;其中,以 8 月下旬的 2019 中国国际智能产业博览会在重庆成功举办为契机,重庆市先后与腾讯和百度(BAT 中的 B&T 两家)等巨头级别的科技创新企业签订了合作或者深化合作协议,而且除了重庆市主要领导的出席,百度和腾讯各自的掌门人马化腾和李彦宏也现身站台,为重庆在科创领域的发展增加了不少光彩。到了 10 月份,重庆更进一步,把 BAT 都凑齐了。阿里巴巴区域总部基地将在渝落户2019 年 10 月 10 日,重庆市人民政府与阿里巴巴集团、蚂蚁金服集团签订了全面深化战略合作协议;重庆市主要领导见证了签约仪式,而阿里巴巴集团董事局主席兼首席执行官张勇、阿里巴巴集团 CTO 兼阿里云智能总裁张建锋、蚂蚁金服集团总裁胡晓明也...

2019-10-12 11:14:00
循环智能:唤醒“沉睡”的客户对话

循环智能:唤醒“沉睡”的客户对话

想必不少人都接听过客服人员打来的电话。作为企业营销及品牌价值宣传的第一渠道,“呼叫中心”、“在线客服”、“客服机器人”等客服系统在新技术的催化下得到蓬勃应用。在金融、教育等对客服需求颇大的行业里,企业通过建立自己的客服团队,向用户推销产品。而另一个事实是,诸如“对不起,我很忙”、“谢谢,我们不需要”绝大多数用户的婉拒和反感声中,反映出客服行业面临的诸多挑战。AI技术的日趋成熟,如何更好地通过技术手段改善用户与企业之间的沟通效率?如何提升销售转化?优化营销业务流程?今年6月,一种新的NLP模型预训练方法XLNet的推出,让不少人看到了它的研究意义及落地价值。作为论文一作的杨植麟很快将该方法应用在了共同创立的公司循环智能(Recurrent AI)的业务线中。循环智能要解决的是,通过机器学习的方法分析原始的语音文字销售过程和销售转化过程,帮助企业提高销售转化率。截至2019年8月,循环智能已服...

2019-10-12 11:05:00
将推出无安全员自动驾驶网约车 Waymo能否通过市场检验?

将推出无安全员自动驾驶网约车 Waymo能否通过市场检验?

全自动驾驶很快将接受市场检验。据外媒TechCrunch 报道,近日,一份网传邮件显示,自动驾驶公司Waymo将向美国亚利桑那州凤凰城郊区的用户开放没有安全员的自动驾驶车辆服务。随后,Waymo证实了邮件的真实性,并称邮件是发给waymo的早期网约车项目用户。一直以来,共享出行被视为自动驾驶商业化率先落地的领域,Uber、特斯拉等均在此领域有所布局,Waymo的商业化落地同样选择了这一领域,且有望成为首家进行商业探索的公司。众所周知,在全球自动驾驶公司中,Waymo身位超前。今年7月,Waymo对外公布模拟自动驾驶测试总里程称已达到100亿英里(约合160亿公里),距离去年9月的测试里程数翻了一倍,这一数字也让跟随者望尘莫及。模拟测试是自动驾驶真正上路的前提,可以用来作为衡量企业自动驾驶技术成熟度的重要指标。自动驾驶公司通常将模拟测试和道路测试作为验证软硬件方案可靠性的方式之一。不过,需要...

2019-10-11 21:42:00
全球科技巨头AI音乐大战一触即发,平安重拳出击填补AI变奏交响曲行业空白

全球科技巨头AI音乐大战一触即发,平安重拳出击填补AI变奏交响曲行业空白

音乐这门生意越来越引起巨头的关注。以往,比较音乐平台靠的是曲目数量、艺人进驻数量,后来更看重版权的独家。现在,以深度神经网络为代表的AI技术逐渐逼近落地,放眼全球,音乐平台的AI大战一触即发。2016年,谷歌大脑推出Magenta项目,从早期的NSynth神经网络音频合成算法到如今从残缺片段中恢复巴赫音乐的Coconet机器学习模型,更多以学术研究为导向。世界三大音乐版权商之一的索尼,在音乐内容本身上占据了极大的优势局面。2016年,索尼计算机科学实验推出的大型歌曲和风格数据库Flow Machines,创作出了“披头士”风格的旋律。谷歌与索尼旗下都拥有相应的流媒体产品,如YouTube音乐服务和索尼精选Hi-Res。二者相似的是,流媒体或将颠覆传统唱片公司和词曲版权代理的地位,它们势必要抢占一个新的产业协作模式“领头羊”。不同之处在于,索尼更需要寻找音乐版权业务收入放缓后的下一个增长点。...

2019-10-11 21:05:00