资源 ‖ Salesforce创建了一种自动总结文本的新算法（附论文

　　Salesforce Inc.是一家TO B云计算公司，提供按需定制客户关系管理服务，该网络公司总部位于美国加利福尼亚州。

　　近年有预期表明，人们花了超过一半的时间来阅读电子邮件、文章或社交上的帖子，并且越来越严重。为了解决这个问题， Salesforce的研究人员已经开发出一种算法，该算法根据麻省理工学院技术评估，发现该算法通过使用机器学习技术，能够对文章产生相当精准的摘要。

　　“自动总结”这一功能，对于Salesforce公司来说将是一个特别有用的技术，它可以生产各种以客户为中心的重点产品。该公司指出，所得到的摘要可以让销售人员或客户服务代表用来快速消化电子邮件和信息，这将使他们花更多时间在公司客户身上。

　　为此，Salesforce公司正在转向机器学习，以找到方法来总结较长的文本块，最终将其纳入其产品之中。

　　该公司宣布在自然语言处理方面取得了两项突破：不仅引入了一种新的“情境语言生成模型（ contextual word generation model ）”，并提出了“新训练总结模型（ new way of training summarization models）”。这两个进步合在一起，可以自动创建较长文本的摘要，不但准确并且具有良好可读性。自动总结模型背后的技术支持来自于Salesforce去年收购的深度学习公司MetaMind（MetaMind团队专注于递归神经网络）。

　　研究人员指出，自动文本摘要有两种工作方式：提取（ extraction ）或抽象（ abstraction ）。通过提取，计算机可以从文本中的存在的文字中提取，但目前欠缺灵活性。抽象则是计算机足够理解原文的基础上，引入新词概括原意。

　　这就是深度学习神经网络发挥作用的地方。他们处理多个句子和词语的例子，以得出每个短语的新表示，这使得系统能够解释文本并引入自己的单词。研究人员不仅让他们的模型回顾了上下文，还回顾了早期生成的示例，以确保它不会重复。

　　另外一个突破就是研究人员如何训练系统来学习和改进自身。他们使用两种方法：强制（teacher forcing）和强化学习（reinforcement learning）。强化学习是一种从动物学习中吸取灵感的方法，并被用来教谷歌的DeepMind如何玩视频游戏。在这种情况下，允许模型生成单词序列，然后用自动评估指标ROUGE对结果进行评分。算法将以更高得分来指导自身更新，最终输出的摘要结果，会逐步提升。强制是对结果以一个既定参考词来评分，这虽然可以提了“非常体面”的结果，但却缺乏足够的灵活性。

　　研究人员发现，“ROUGE优化的RL有助于提升查全率（recall），而词级学习监测可确保良好的语言流程，从而使摘要更加连贯和可读”。对这个系统进行评分，他们发现两者联合的模式优于其他方法，而Salesforce的首席科学家理查德?苏格赫（Richard Socher）指出，他也并不认为自己曾经见过其他任何[自然语言处理]的任务都有如此巨大的进步。

　　使用该模型得出的结果非常惊人！研究人员提供了几个例子：通过对比了人为总结，以及由他们自己的模型生成的摘要，发现在各种情况下，模型得出的摘要不仅比人工总结的文本短得多，而且包含的要点都是更加可读的。尽管已取得了巨大进展，但在这一领域仍有相当多的工作要做：麻省理工学院技术评论报与西北大学教授克里斯蒂安•哈蒙德（ Kristian Hammond ）进行了交流，他指出这虽然显示了纯粹依赖统计化机器学习的局限性，但却往正确方向上迈出了的一步。

大众论文网

资源 ‖ Salesforce创建了一种自动总结文本的新算法（附论文