自2019/8/16起,高阶功效-动态数据调整完全免费开馆!可到这里 动态修正效果 (opens new window) 在线体验
使用方法详见 动态修正
语音听写详细的接口介绍及说明请参考: MSC iOS API 文档 (opens new window), 在集成过程中如有疑问,可登录,查找答案或与其他开发者交流。
听写的支持一直在线视频和线下下载几种工做行为,默认设置适用一直在线视频行为。要是适用线下下载保障的,有2种行为,1种是适用语记SDK(原手机语音+ SDK)供应的兔费保障的,1种是开通会员买后在采用内部组织智能家居控制。一些关键点请观注讯飞开放政策网上平台( http://northseasurffestival.com/ ) MSC SDK的大部分功能键数据接口下面的图已知):小语种:
库名称 | 添加范围 | 功能 |
---|---|---|
iflyMSC.framework | 必要 | 讯飞开放平台静态库。 |
libz.tbd | 必要 | 用于压缩、加密算法。 |
AVFoundation.framework | 必要 | 用于系统录音和播放 。 |
SystemConfiguration.framework | 系统库 | 用于系统设置。 |
Foundation.framework | 必要 | 基本库。 |
CoreTelephony.framework | 必要 | 用于电话相关操作。 |
AudioToolbox.framework | 必要 | 用于系统录音和播放。 |
UIKit.framework | 必要 | 用于界面显示。 |
CoreLocation.framework | 必要 | 用于定位。 |
Contacts.framework | 必要 | 用于联系人。 |
AddressBook.framework | 必要 | 用于联系人。 |
QuartzCore.framework | 必要 | 用于界面显示。 |
CoreGraphics.framework | 必要 | 用于界面显示。 |
libc++.tbd | 必要 | 用于支持C++。 |
注意:
<key>NSMicrophoneUsageDescription</key>
<string></string>
<key>NSLocationUsageDescription</key>
<string></string>
<key>NSLocationAlwaysUsageDescription</key>
<string></string>
<key>NSContactsUsageDescription</key>
<string></string>
//Appid是采用的真实身份产品信息,具有着仅有的性,刚开始化时应该要传给Appid。
NSString *initString = [[NSString alloc] initWithFormat:@"appid=%@", @"YourAppid"];
[IFlySpeechUtility createUtility:initString];
参数 | 说明 | 必填 |
---|---|---|
appid | 8位16进制数字字符串,应用的唯一标识,与下载的SDK一一对应。 | 是 |
usr | 保留字段,无需关注。 | 否 |
pwd | 保留字段,无需关注。 | 否 |
注意: 初始化是一个异步过程,可放在App启动时执行初始化,具体代码可以参照Demo的MSCAppDelegate.m。
//必须体现IFlyRecognizerViewDelegate甄别合同
@interface IATViewController : UIViewController<IFlySpeechRecognizerDelegate>
//没有菜单栏的识别图片男朋友
@property (nonatomic, strong) IFlySpeechRecognizer *iFlySpeechRecognizer;
@end
//创建活动声音面部识别物体
_iFlySpeechRecognizer = [IFlySpeechRecognizer sharedInstance];
//使用识别系统参数表
//设定为听写经济模式
[_iFlySpeechRecognizer setParameter: @"iat" forKey: [IFlySpeechConstant IFLY_DOMAIN]];
//asr_audio_path 是录音带资料名,设置value为nil某些为空撤销手机截图,默许手机截图导航在Library/cache下。
[_iFlySpeechRecognizer setParameter:@"iat.pcm" forKey:[IFlySpeechConstant ASR_AUDIO_PATH]];
//开机掌握贴心服务
[_iFlySpeechRecognizer start];
//IFlySpeechRecognizerDelegate服务协议建立
//判别结杲回代理加盟
- (void) onResults:(NSArray *) results isLast:(BOOL)isLast{}
//自动识别请求终止取到经销
- (void)onCompleted: (IFlySpeechError *) error{}
//已停通话录音回调函数
- (void) onEndOfSpeech{}
//已经录音功能回调函数
- (void) onBeginOfSpeech{}
//音量回调指数函数指数函数
- (void) onVolumeChanged: (int)volume{}
//应用程序撤销了调整
- (void) onCancel{}
//快速设置音频源为音频流(-1)
[self.iFlySpeechRecognizer setParameter:@"-1" forKey:@"audio_source"];
//起动判别业务
[self.iFlySpeechRecognizer startListening];
//载入音视频数据表格
NSData *data = [NSData dataWithContentsOfFile:_pcmFilePath]; //从系统文件中导出音屏
[self.iFlySpeechRecognizer writeAudio:data];//刻录双声道视频,让SDK辨认。推荐将双声道视频数据表格各段刻录。
//音视频输入结尾或失败时,须要启用结尾区分接口方式
[self.iFlySpeechRecognizer stopListening];//音频软件数据源读入已完成,来到处理心态
参数名称 | 名称 | 说明 |
---|---|---|
domain | 应用领域 | 应用领域 iat:日常用语 medical:医疗 注:医疗领域若未授权无法使用,可到控制台-语音听写(流式版)-高级功能处添加试用或购买;若未授权无法使用会报错11200。 |
language | 语言区域 | 选择要使用的语言区域,,目前iOS SDK支持 zh_cn:中文 en_us:英文 ja_jp:日语 ko_kr:韩语 ru-ru:俄语 fr_fr:法语 es_es:西班牙语 注:小语种若未授权无法使用会报错11200,可到控制台-语音听写(流式版)-方言/语种处添加试用或购买。 |
accent | 方言 | 当前仅在LANGUAGE为简体中文时,支持方言选择,其他语言区域时,可把此参数值设为mandarin。默认值:mandarin,其他方言参数可在控制台方言一栏查看。 |
vad_bos | 前端点检测 | 开始录入音频后,音频前面部分最长静音时长,取值范围[0,10000ms],默认值5000ms |
vad_eos | 后端点检测 | 开始录入音频后,音频后面部分最长静音时长,取值范围[0,10000ms],默认值1800ms。 |
sample_rate | 采样率 | 支持:8KHZ,16KHZ |
nbest | 句子多侯选 | 通过设置此参数,获取在发音相似时的句子多侯选结果。设置多候选会影响性能,响应时间延迟200ms左右。取值范围:听写[1,5]。 注:该扩展功能若未授权无法使用,可到控制台-语音听写(流式版)-高级功能处免费开通;若未授权状态下设置该参数并不会报错,但不会生效。 |
wbest | 词语多侯选 | 通过设置此参数,获取在发音相似时的词语多侯选结 果。设置多候选会影响性能,响应时间延迟200ms左右。取值范围:听写[1,5]。 如: [_iflyRecognizerView setParameter:@"2" forKey:@"wbest"]; 注:该扩展功能若未授权无法使用,可到控制台-语音听写(流式版)-高级功能处免费开通;若未授权状态下设置该参数并不会报错,但不会生效。 |
result_type | 结果类型 | 结果类型包括:xml, json, plain。xml和json即对应的结构化文本结构,plain即自然语言的文本。 |
nunum | 数字结果 | 通过设置此参数可偏向输出数字结果格式 0:倾向于汉字, 1:倾向于数字, |
ptt | 标点符号 | (仅中文支持)标点符号添加 1:开启(默认值) 0:关闭 |
注: 多候选效果是由引擎决定的,并非绝对的。即使设置了多候选,如果引擎并没有识别出候选的词或句,返回结果也还是单个。
JSON字段 | 英文全称 | 类型 | 说明 |
---|---|---|---|
sn | sentence | int | 第几句 |
ls | last sentence | boolean | 是否最后一句 |
bg | begin | int | 保留字段,无需关注 |
ed | end | int | 保留字段,无需关注 |
ws | words | array | 词 |
cw | chinese word | array | 中文分词 |
w | word | string | 单字 |
sc | score | int | 分数 |
{
"sn": 1,
"ls": true,
"bg": 0,
"ed": 0,
"ws": [
{
"bg": 0,
"cw": [
{
"w": " 接下来 ",
"sc": 0
}
]
},
{
"bg": 0,
"cw": [
{
"w": " 的",
"sc": 0
}
]
},
{
"bg": 0,
"cw": [
{
"w": " 天气怎么样 ",
"sc": 0
}
]
},
{
"bg": 0,
"cw": [
{
"w": " 怎摸样 ",
"sc": 0
}
]
},
{
"bg": 0,
"cw": [
{
"w": " 。",
"sc": 0
}
]
}
]
}
{
"sn": 1,
"ls": false,
"bg": 0,
"ed": 0,
"ws": [
{
"bg": 0,
"cw": [
{
"w": "让我听",
"sc": 0
}
]
},
{
"bg": 0,
"cw": [
{
"w": "拉德斯基做曲",
"sc": 0
},
{
"w": "拉得斯确定曲",
"sc": 0
}
]
}
]
}
未开启与开启返回的结果格式不同,若开通了动态修正功能并设置了dwa=wpgs(仅中文支持),会有如下字段返回:
参数 | 类型 | 描述 |
---|---|---|
pgs | string | 开启wpgs会有此字段 取值为 "apd"时表示该片结果是追加到前面的最终结果;取值为"rpl" 时表示替换前面的部分结果,替换范围为rg字段 |
rg | array | 替换范围,开启wpgs会有此字段 假设值为[2,5],则代表要替换的是第2次到第5次返回的结果 |
net_type=custom, proxy_ip=<host>, proxy_port=<port>
其中,<host>,<port>替换为实际的代理服务器地址和端口。
举列:
NSString *initString = [[NSString alloc] initWithFormat:@"appid=%@, net_type=custom, proxy_ip=192.168.1.2, proxy_port=8080", @"12345678"]; //注意:各参数间,以英文逗号分隔。
[IFlySpeechUtility createUtility:initString];
电源接口原案: (IFlySpeechUtility *)createUtility:(NSString *)params
注意: 若在设置代理参数后,使用语音服务过程中,报错10204/10205/10212等网络异常错误时,请查阅以下内容,做出相关操作:
- 讯飞语音聊天SDK的通信网络合同样本用的是标准单位HTTP1.1合同样本,其微商POS机代理合同样本用的是标准单位HTTP微商POS机代理合同样本。
- 加盟代理服务保障器应该苹果支持全双工多问多答策略,即 pipeline 模试。
- 代办的服务端没能对80串口做禁止,没能对下述二级域名做屏蔽广告: hdns.openspeech.cn scs.openspeech.cn open.xf-yun.com dev.voicecloud.cn
- 需有效确保选择工作器只负责管理转发分享数据分析文件包,不调整数据分析文件包的全面性和时序性。
- 代理权功能器在发布数值包时,无法在HTTP合同样本脑袋加 IE6 广告头。
答:请参照论谈发帖:
答:文档中心---快速指引 (opens new window)有介绍步骤---根据步骤下载iOS在线听写sdk
答:sdk:买家端满足计划策划方案,不帮助Android、ios、windows、linux等电商手机平台,不不帮助消息队列; webapi:贴心服务端满足计划策划方案,不限止电商手机平台、不限止语气,不帮助消息队列。
答:iOS工作平台SDK都支撑本机人转化成、本机人命令行词判别、本机人音频换醒基本功能了,创立应该用后去应该用掌控台下载安装各工作sdk可以了。
答:针对于几个特定服务管理于,可以在createUtility插孔中含有:server_url = http://YourDomainName/msp.do (YourDomainName是说 语音系统大发pk10服务器管理于但是网站域名,请开发技术者自己进行重命名) 举列:
NSString *initString = [[NSString alloc] initWithFormat:@"appid=%@,server_url=%@", @"12345678",@"http://sdk.openspeech.cn/msp.do"]; //注意:各参数间,以英文逗号分隔。
[IFlySpeechUtility createUtility:initString];
模块办演: (IFlySpeechUtility *)createUtility:(NSString *)params
答:请参看论淡发帖子:
答:一样是在自行的产品集成化时,appid和库档案不输入造成的。
答:当今不不认x86系统架构。
答:听写vad_eos为能够的数最多禁音时长,以上这点时长会看来音视频停止自动化段开。
答:到目前为止小语种现在已经更换日语、俄语水平、比利时语、法文、韩国语,各种小语种届时期许!
答:听写能够辨别的60s中间的音视频,超一个钟是不了辨别的的。