云市场

DDESE——深鉴科技笛卡尔架构高效语音识别引擎

北京深鉴科技有限公司入驻华为云市场,并发布“深鉴笛卡尔高效语音识别引擎” —— DDESE(DeePhi Descartes Efficient Speech Recognition Engine)。该产品基于...
  • 镜像:
  • ¥/小时
  • 云服务器:
  • ¥/小时
  • ¥/小时
用户评分:

订阅

DDESE——深鉴科技笛卡尔架构高效语音识别引擎

地域:
  • 华北-北京一
规格:
  • FPGA加速型 | fp1c.2xlarge.11 | 8vCPUs | 88GB
  • FPGA加速型 | fp1c.2xlarge.11 | 8vCPUs | 88GB
推荐配置:
  • 8核88G云主机_100G硬盘
自定义云主机
更多
购买方式:
  • 按需
购买时长:
  • -
  • +
  • 小时
最多支持购买3年
最多支持购买9个月
金额:
询价中...
  • ¥
  • 省: ¥

单价

    • 镜像:
    • ¥/小时
    • 云服务器:
    • ¥/小时
立即购买
实际扣费以账单为准 了解计费详情>>

产品描述

  • 版本: 2018.2.a
  • 类型: 其他
  • 适用于: Linux
  • 发布日期: 2018-05-26

北京深鉴科技有限公司入驻华为云市场,并发布“深鉴笛卡尔高效语音识别引擎” —— DDESEDeePhi Descartes Efficient Speech Recognition Engine)。该产品基于Xilinx FPGA,针对深度神经网络(主要是LSTM),为用户提供软硬件协同设计的快速、灵活、高效的推理计算加速解决方案。

DDESE使用了算法、软件、硬件协同设计的深度学习加速解决方案(包括剪枝、定点、编译和FPGA执行推理),同时使用了DeepSpeech2框架和LibriSpeech 1000小时数据集来做模型训练和压缩,支持用户测试对比CPU/FPGA的识别性能以及执行单句语音识别。

DDESE的核心加速引擎主要针对RNN/LSTM,能够显著的降低语音识别(以及机器翻译等AI时序类应用)的延时。深鉴科技在华为云市场发布DDESE,主要目的是以语音识别为应用载体,充分展现基于Xilinx FPGAAI类应用推理计算加速能力,并通过云端推广,让更多的客户试用并深入了解深鉴科技的全流程解决方案。




产品特点


业界领先的原创深度学习语音识别加速解决方案 ESEFPGA2017 best paper

-         针对模型推理支持对单向、双向LSTM使用FPGA做加速

-         支持卷积层、全连接层、BN层和多种激活函数(例如SigmoidTanhHardTanh

-         支持测试CPU/FPGA的性能比较以及单句语音识别

-         支持用户自己的测试语句进行识别(要求16000Hz采样率,时长不超过3秒的英文)



解决方案速览:



我们的解决方案包括算法、软件和硬件协同设计(包括剪枝、定点、编译和FPGA执行推理)。经过剪枝,可以在精度损失很小的情况下得到稀疏模型(稠密度为15%~20%),然后将模型的权重和激活值定点到16bit,这样一来整个模型能够被压缩超过10倍,可以借助稀疏存储格式编译并部署在深鉴科技自主研发的笛卡尔平台上,采用FPGA执行高效的推理。





应用指南

DDESE聚焦语音识别场景,构建了以Xilinx FPGA为平台的自动语音识别加速引擎,可以为用户提供端到端语音识别服务。基于FPGA平台,结合深鉴科技算法、软件和硬件协同设计的深度学习加速解决方案,DDESE端到端语音识别的计算速度是同等级GPUTesla P4)的2倍,其中LSTM部分的加速比超过2.5倍。深鉴科技在云端部署FPGA加速解决方案,面向全球用户提供加速服务,支持其降低开发与部署成本,消除硬件壁垒,同时通过软硬件协同优化,取得更高效的云端计算能力,为用户带来卓越的硬件加速体验。

 

我们使用了DeepSpeech2框架来提供语音识别服务,深度神经的网络推理计算使用DDESE进行加速,具体使用方式如下:

 

1.     申请一FP1云服务

 

2.      登陆云服务器后,初始化环境配置:

source /root/huaweicloud-fpga/fp1/setup.sh

cd /root/software/deepspeech2

 

3.      测试DDESE的语音识别性能

1) 单句语音识别重复测试100次,对比CPUFPGA性能

CPU测试:

python3 cloud_test.py --single_test --audio_path data/short_audio/wav/short_audio1.wav

 

FPGA测试:

python3 cloud_test.py --single_test --audio_path data/short_audio/wav/short_audio1.wav --fpga_config deephi/config/fpga_cnnblstm_0.15.json --no_cpu

 

2) 单句语音识别测试,看具体性能(耗时分布)

CPU测试:

python3 transcribe.py --audio_path data/short_audio/wav/short_audio1.wav

 

FPGA测试:

python3 transcribe.py --fpga_config deephi/config/fpga_cnnblstm_0.15.json --audio_path data/short_audio/wav/short_audio1.wav

 

说明:

1) 关于测试语音:

/root/software/deepspeech2/data文件夹下,有子两个文件夹存储着一些测试语音用例,可供选用,其中:

short_audio/      文件夹下是5  条长度为1秒左右的语音

middle_audio/   文件夹下是20 条长度为2秒左右的语音

 

2) 关于模型:

测试使用的模型在/root/software/deepspeech2/models/model_bilstm_0.15_fix,模型的LSTM部分的稠密度为15%,定点为16bit

规格说明

规格 主机配置 计费方式 云主机价格 镜像价格
FPGA加速型 | fp1c.2xlarge.11 | 8vCPUs | 88GB
CPU: 8核
内存: 88G
硬盘: 100G
操作系统: linux
部署方式: 单机模式
云服务区: 华北-北京一
可用性区域: 可用区1
云主机型号: fp1c.2xlarge.11.linux
按需 10.812元/小时 0元/小时
按月 5198.9元/月 0元/月
FPGA加速型 | fp1c.2xlarge.11 | 8vCPUs | 88GB
CPU: 8核
内存: 88G
硬盘: 100G
操作系统: linux
部署方式: 单机模式
云服务区: 华北-北京一
可用性区域: 可用区1
云主机型号: fp1c.2xlarge.11.linux
按需 10.812元/小时 0元/小时

使用指南

客户案例

暂无,请等待更新

用户评价

暂无,请等待更新

DDESE——深鉴科技笛卡尔架构高效语音识别引擎

产品简介

产品描述

北京深鉴科技有限公司入驻华为云市场,并发布“深鉴笛卡尔高效语音识别引擎” —— DDESEDeePhi Descartes Efficient Speech Recognition Engine)。该产品基于Xilinx FPGA,针对深度神经网络(主要是LSTM),为用户提供软硬件协同设计的快速、灵活、高效的推理计算加速解决方案。

DDESE使用了算法、软件、硬件协同设计的深度学习加速解决方案(包括剪枝、定点、编译和FPGA执行推理),同时使用了DeepSpeech2框架和LibriSpeech 1000小时数据集来做模型训练和压缩,支持用户测试对比CPU/FPGA的识别性能以及执行单句语音识别。

DDESE的核心加速引擎主要针对RNN/LSTM,能够显著的降低语音识别(以及机器翻译等AI时序类应用)的延时。深鉴科技在华为云市场发布DDESE,主要目的是以语音识别为应用载体,充分展现基于Xilinx FPGAAI类应用推理计算加速能力,并通过云端推广,让更多的客户试用并深入了解深鉴科技的全流程解决方案。




产品特点


业界领先的原创深度学习语音识别加速解决方案 ESEFPGA2017 best paper

-         针对模型推理支持对单向、双向LSTM使用FPGA做加速

-         支持卷积层、全连接层、BN层和多种激活函数(例如SigmoidTanhHardTanh

-         支持测试CPU/FPGA的性能比较以及单句语音识别

-         支持用户自己的测试语句进行识别(要求16000Hz采样率,时长不超过3秒的英文)



解决方案速览:



我们的解决方案包括算法、软件和硬件协同设计(包括剪枝、定点、编译和FPGA执行推理)。经过剪枝,可以在精度损失很小的情况下得到稀疏模型(稠密度为15%~20%),然后将模型的权重和激活值定点到16bit,这样一来整个模型能够被压缩超过10倍,可以借助稀疏存储格式编译并部署在深鉴科技自主研发的笛卡尔平台上,采用FPGA执行高效的推理。





应用指南

DDESE聚焦语音识别场景,构建了以Xilinx FPGA为平台的自动语音识别加速引擎,可以为用户提供端到端语音识别服务。基于FPGA平台,结合深鉴科技算法、软件和硬件协同设计的深度学习加速解决方案,DDESE端到端语音识别的计算速度是同等级GPUTesla P4)的2倍,其中LSTM部分的加速比超过2.5倍。深鉴科技在云端部署FPGA加速解决方案,面向全球用户提供加速服务,支持其降低开发与部署成本,消除硬件壁垒,同时通过软硬件协同优化,取得更高效的云端计算能力,为用户带来卓越的硬件加速体验。

 

我们使用了DeepSpeech2框架来提供语音识别服务,深度神经的网络推理计算使用DDESE进行加速,具体使用方式如下:

 

1.     申请一FP1云服务

 

2.      登陆云服务器后,初始化环境配置:

source /root/huaweicloud-fpga/fp1/setup.sh

cd /root/software/deepspeech2

 

3.      测试DDESE的语音识别性能

1) 单句语音识别重复测试100次,对比CPUFPGA性能

CPU测试:

python3 cloud_test.py --single_test --audio_path data/short_audio/wav/short_audio1.wav

 

FPGA测试:

python3 cloud_test.py --single_test --audio_path data/short_audio/wav/short_audio1.wav --fpga_config deephi/config/fpga_cnnblstm_0.15.json --no_cpu

 

2) 单句语音识别测试,看具体性能(耗时分布)

CPU测试:

python3 transcribe.py --audio_path data/short_audio/wav/short_audio1.wav

 

FPGA测试:

python3 transcribe.py --fpga_config deephi/config/fpga_cnnblstm_0.15.json --audio_path data/short_audio/wav/short_audio1.wav

 

说明:

1) 关于测试语音:

/root/software/deepspeech2/data文件夹下,有子两个文件夹存储着一些测试语音用例,可供选用,其中:

short_audio/      文件夹下是5  条长度为1秒左右的语音

middle_audio/   文件夹下是20 条长度为2秒左右的语音

 

2) 关于模型:

测试使用的模型在/root/software/deepspeech2/models/model_bilstm_0.15_fix,模型的LSTM部分的稠密度为15%,定点为16bit

产品特点