基于自然语音识别的音频、视频或音视频点播方法和系统
2020-01-06

基于自然语音识别的音频、视频或音视频点播方法和系统

本发明公开一种基于自然语音识别的音频、视频或音视频点播方法和系统,涉及通信领域。只需按动一键,便可以通过终端设备连接到网络侧的云计算平台服务器,通过云计算平台服务器进行语音音频、视频或音视频点播。其中,云计算平台服务器采用非特定人语音识别技术以及自然语音识别技术对用户输入的音频、视频或音视频点播语音信息进行语音识别,获取用户进行音频、视频或音视频点播地址,并将该音频、视频或音视频点播地址通过自动音频、视频或音视频点播控制信息发送给终端设备,以使得终端设备根据该自动音频、视频或音视频点播控制信息自动启动音频、视频或音视频播放功能,从音频、视频或音视频服务器获取音频、视频或音视频媒体流,将该音频、视频或音视频媒体流播放述用户。本发明实施例提供的技术方案可以应用在语音音频、视频或音视频点播系统中。

其中,关键词是具有专有指代意义的词语,后辅助词是文字信息中位于关键词之后的词语,前辅助词是文字信息中位于关键词之前的词语。

自然语音识别模块1032通过将待识别词语按照关键词、后辅助词和前辅助词的顺序进行排序,使得后续按照词语顺序进行查找匹配时,重点信息突出,能够大幅度的缩短词语查找匹配的时间,进行提高语音识别的速度。

通过对拼音进行模糊匹配,解决了由于用户口齿不清、发音不准确造成的语音识别失败或者识别错误等问题,进而提高了本发明实施例提供基于自然语音识别的音频、视频或音视频点播系统进行语音识别的成功率与准确率。

自然语音识别模块1032,用于采用预先设置的词典对非特定人语音识别模块1031获取的拼音进行分词处理,获取分词后的词语拼音串,从词典中查找词语拼音串对应的待识别词语,根据该待识别词语查找兴趣点(音频、视频或音视频描述信息ntofInterest,音频、视频或音视频描述信息)数据库,获取与待识别词语匹配度最高的目标音频、视频或音视频描述信息,其中,词典用于存储待进行语音识别的目标词语以及目标词语对应的拼首;

需要说明的是,如果自然语音识别模块1032未查找到与当前词语匹配的信息,则可以将当前词语的匹配信息设置为与该当前词语相邻的上一个词语匹配的信息,如果,当前词语为第一个词语,则该第一个词语匹配的信息为整个音频、视频或音视频描述信息数据库中包含的音频、视频或音视频描述信息。

本发明实施例提供的基于自然语音识别的音频、视频或音视频点播方法和系统,可以应用在音频、视频或音视频点播领域中。

在本实施例中,可以采用统计的方法预先设置口语词库,该口语词库中可以包括人们日常使用的口语词,例如:“我想去”、“我想要”、“请问”、“是不是”、“对不对”、“可不可以”以及“怎么”等等,此处不对口语词库中包含的口语词进行一一赘述。

非特定人语音识别模块1031,用于对终端设备102发送的音频、视频或音视频点播语音信息进行识别、解析,获取该音频、视频或音视频点播语音信息对应的拼音;

自然语音识别模块1032,用于采用预先设置的词典对非特定人语音识别模块1031获取的拼音进行分词处理,获取分词后的词语拼音串,从词典中查找词语拼音串对应的待识别词语,根据该待识别词语查找兴趣点(音频、视频或音视频描述信息ntofInterest,音频、视频或音视频描述信息)数据库,获取与待识别词语匹配度最高的目标音频、视频或音视频描述信息,其中,词典用于存储待进行语音识别的目标词语以及目标词语对应的拼首;

图2为本发明实施例提供的基于自然语音识别的音频、视频或音视频点播系统结构示意图二;

终端设备102,用于与一键式控制装置101建立连接以后,通过语音电话交换网络或多种无线数据网络与云计算平台服务器103建立连接,接收用户发送的音频、视频或音视频点播语音信息,将音频、视频或音视频点播语音信息发送给云计算平台服务器103,接收云计算平台服务器103返回的包含音频、视频或音视频点播地址的自动音频、视频或音视频点播控制信息,根据该自动音频、视频或音视频点播控制信息启动音频、视频或音视频播放功能,根据音频、视频或音视频点播地址与音频、视频或音视频服务器建立音频、视频或音视频媒体流传输通道连接,从音频、视频或音视频服务器获取音频、视频或音视频媒体流,将该音频、视频或音视频媒体流播放给用户;

所述云计算平台服务器,位于网络侧,包括: