问答机器人介绍

1. 问答机器人【回答一个确定的问题】

在前面，对问答机器人介绍过，这里的问答机器人是在分类之后，对特定问题进行回答的一种机器人。至于回答的问题的类型，取决于我们的语料。

当前我们需要实现的问答机器人是一个回答编程语言（比如python是什么，python难么等）相关问题的机器人

主要实现逻辑：从现有的问答对中，选择出和问题最相似的问题，并且获取其相似度（一个数值），如果相似度大于阈值，则返回这个最相似的问题对应的答案

问答机器人的实现可以大致分为三步步骤：

对问题的处理过程中，我们可以考虑以下问题：

问题主语的识别，判断问题中是否包含特定的主语，比如python等，提取出来之后，方便后续对问题进行过滤。
- 可以看出，不仅需要对用户输入的问题进行处理，获取主语，还需要对现有问答对进行处理

召回：可以理解为是一个海选的操作，就是从现有的问答对中选择可能相似的前K个问题。

为什么要进行召回?

主要目的是为了后续进行排序的时候，减少需要计算的数据量，比如有10万个问答对，直接通过深度学习肯定是可以获取所有的相似度，但是速度慢。

所以考虑使用机器学习的方法进行一次海选

那么，如何实现召回呢？

召回就是选择前K个最相似的问题，所以召回的实现就是想办法通过机器学习的手段计算器相似度。

可以思考的方法：

上述的方法理论上都可行，知识当候选计算的词语数量太多的时候，需要挨个计算相似度，非常耗时。

所以可以考虑以下两点：

但是还有一个问题，供大家慢慢思考：

不管是词频，还是tdidf，获取的结果肯定是没有考虑文字顺序的，效果不一定是最好的，那么此时，应该如何让最后召回的效果更好呢？

排序过程，使用了召回的结果作为输入，同时输出的是最相似的那一个。

整个过程使用深度学习实现。深度学习虽然训练的速度慢，但是整体效果肯定比机器学习好（机器学习受限于特征工程，数据量等因素，没有办法深入的学会不同问题之间的内在相似度），所以通过自建的模型，获取最后的相似度。

使用深度学习的模型这样一个黑匣子，在训练数据足够多的时候，能够学习到用户的各种不同输入的问题，当我们把目标值（相似的问题）给定的情况下，让模型自己去找到这些训练数据目标值和特征值之间相似的表示方法。

那么此时，有以下两个问题：

使用什么数据，来训练模型，最后返回模型的相似度

训练的数据的来源：可以考虑根据现有的问答对去手动构造，但是构造的数据不一定能够覆盖后续用户提问的全部问题。所以可以考虑通过程序去采集网站上相似的问题，比如百度知道的搜索结果。

转载地址：http://lzeh.baihongyu.com/

你可能感兴趣的文章