大发pk10

    # 语音听写 iOS SDK 文档

    # 1、简介

    qq话音听写,是体系结构肯定文学语种治疗,将肯定文学语种音屏装换为文伤害的系统水平性。qq话音听写系统水平性与句型分辨系统水平性的不一是因为,qq话音听写不须要体系结构个别中应的句型材料,其分辨规模是全部整个语种内的词条。在听写时,应用领域还应该传到独特性化的词表,如建立通信录列表框框等,增长列表框框中二字词语的符合率(见上边章数)。

    自2019/8/16起,高阶功效-动态数据调整完全免费开馆!可到这里 动态修正效果 (opens new window) 在线体验
    使用方法详见 动态修正

    语音听写详细的接口介绍及说明请参考: MSC iOS API 文档 (opens new window), 在集成过程中如有疑问,可登录,查找答案或与其他开发者交流。

    听写的支持一直在线视频和线下下载几种工做行为,默认设置适用一直在线视频行为。要是适用线下下载保障的,有2种行为,1种是适用语记SDK(原手机语音+ SDK)供应的兔费保障的,1种是开通会员买后在采用内部组织智能家居控制。一些关键点请观注讯飞开放政策网上平台( http://northseasurffestival.com/ ) MSC SDK的大部分功能键数据接口下面的图已知):

    小语种

    • 目前小语种已经适配日语、俄语、西班牙语、法语、韩语,其他小语种敬请期待!

    # 2、SDK集成指南

    # 第一步:获取appid

    appid是再者方使用ibms讯飞开放式性机构SDK的职业标贴,SDK外部库和appid是邦定的,各款使用务必维持唯一一个,因此会显现10407错识码。appid在开放式性机构学生申请使用时可不可以拥有,下载使用SDK后可从SDK中sample文件夹名称夹的Demo建筑工程里寻找到(如: /sample/MSCDemo/MSCDemo/Definition.h 的APPID_VALUE)。

    # 第二步:工程配置

    # 添加库

    将开发技术生产工具箱中lib根目录下的iflyMSC.framework修改到工作中。同一时间请将Demo中依赖关系的另外库也修改到工作中。 按图一为实例修改 SDK 所须要的 iOS系统化库:

    库名称 添加范围 功能
    iflyMSC.framework 必要 讯飞开放平台静态库。
    libz.tbd 必要 用于压缩、加密算法。
    AVFoundation.framework 必要 用于系统录音和播放 。
    SystemConfiguration.framework 系统库 用于系统设置。
    Foundation.framework 必要 基本库。
    CoreTelephony.framework 必要 用于电话相关操作。
    AudioToolbox.framework 必要 用于系统录音和播放。
    UIKit.framework 必要 用于界面显示。
    CoreLocation.framework 必要 用于定位。
    Contacts.framework 必要 用于联系人。
    AddressBook.framework 必要 用于联系人。
    QuartzCore.framework 必要 用于界面显示。
    CoreGraphics.framework 必要 用于界面显示。
    libc++.tbd 必要 用于支持C++。

    注意

    1. 添加iflyMSC.framework时,请检查工程BuildSetting中的framwork path的设置,如果出现找不到framework的情况,可以将path清空,在Xcode中删除framework,然后重新添加。
    2. iflyMSC.framework最低支持iOS 8.0。

    # 设置Bitcode

    在Xcode 7,8初始封闭系统了Bitcode,而Bitcode 要建设工程依赖于的大多数类库时候适用。MSC SDK是暂时性还不适用Bitcode,能否先二次封闭系统。未果MSC SDK适用Bitcode 时,会在讯飞打开app平台上开始SDK最新版本更换,请青睐。封闭系统此使用,只需在Targets - Build Settings 中手机搜索Bitcode 就可以了,看到有效首选项,使用为NO。

    # 用户隐私权限配置

    iOS 10发布消息来,红苹果要为移动用户数资料稳定,进入个人隐私保护管理员授权管理设计设计机制化,让移动用户数来取舍是否是能。 个人隐私保护管理员授权管理设计增加可在info.plist 转入有关系privacy字符串,MSC SDK中必须要 用在的管理员授权管理设计重要分为耳机麦克风管理员授权管理设计、认识人管理员授权管理设计和初一地理的位置管理员授权管理设计:
    <key>NSMicrophoneUsageDescription</key>
    <string></string>
    <key>NSLocationUsageDescription</key>
    <string></string>
    <key>NSLocationAlwaysUsageDescription</key>
    <string></string>
    <key>NSContactsUsageDescription</key>
    <string></string>
    
    即在Info.plist 中增强图一为设置成:

    # 第三步:初始化

    原始化范本:
    //Appid是采用的真实身份产品信息,具有着仅有的性,刚开始化时应该要传给Appid。
    NSString *initString = [[NSString alloc] initWithFormat:@"appid=%@", @"YourAppid"];
    [IFlySpeechUtility createUtility:initString];
    
    参数 说明 必填
    appid 8位16进制数字字符串,应用的唯一标识,与下载的SDK一一对应。
    usr 保留字段,无需关注。
    pwd 保留字段,无需关注。

    注意: 初始化是一个异步过程,可放在App启动时执行初始化,具体代码可以参照Demo的MSCAppDelegate.m。

    # 第四步:启动服务

    所有的的服务保障皆采取相应所示的步奏,相应所示图:

    拥有的服务的API简单说明书怎么写可参看:http://mscdoc.northseasurffestival.com/ios/api/

    # 第五步:语音听写

    IFlySpeechRecognizer是不加对话框的录音说话听写控件,IFlyRecognizerView是带对话框的控件,在这儿仅简单介绍不加对话框的录音说话听写控件。选用例子详细如图:
    //必须体现IFlyRecognizerViewDelegate甄别合同
    @interface IATViewController : UIViewController<IFlySpeechRecognizerDelegate>
    //没有菜单栏的识别图片男朋友
    @property (nonatomic, strong) IFlySpeechRecognizer *iFlySpeechRecognizer;
    @end
    
    //创建活动声音面部识别物体
    _iFlySpeechRecognizer = [IFlySpeechRecognizer sharedInstance];
    //使用识别系统参数表
    //设定为听写经济模式
    [_iFlySpeechRecognizer setParameter: @"iat" forKey: [IFlySpeechConstant IFLY_DOMAIN]];
    //asr_audio_path 是录音带资料名,设置value为nil某些为空撤销手机截图,默许手机截图导航在Library/cache下。
    [_iFlySpeechRecognizer setParameter:@"iat.pcm" forKey:[IFlySpeechConstant ASR_AUDIO_PATH]];
    //开机掌握贴心服务
    [_iFlySpeechRecognizer start];
    
    //IFlySpeechRecognizerDelegate服务协议建立
    //判别结杲回代理加盟
    - (void) onResults:(NSArray *) results isLast:(BOOL)isLast{}
    //自动识别请求终止取到经销
    - (void)onCompleted: (IFlySpeechError *) error{}
    //已停通话录音回调函数
    - (void) onEndOfSpeech{}
    //已经录音功能回调函数
    - (void) onBeginOfSpeech{}
    //音量回调指数函数指数函数
    - (void) onVolumeChanged: (int)volume{}
    //应用程序撤销了调整
    - (void) onCancel{}
    

    # 第六步:音频流识别

    声频流判别基本功能能够让设计者将已收录好的声频数据统计拷贝听写控件,末尾有判别结杲。
    //快速设置音频源为音频流(-1)
    [self.iFlySpeechRecognizer setParameter:@"-1" forKey:@"audio_source"];
    
    //起动判别业务
    [self.iFlySpeechRecognizer startListening];
    
    //载入音视频数据表格
    NSData *data = [NSData dataWithContentsOfFile:_pcmFilePath];    //从系统文件中导出音屏
    [self.iFlySpeechRecognizer writeAudio:data];//刻录双声道视频,让SDK辨认。推荐将双声道视频数据表格各段刻录。
    
    //音视频输入结尾或失败时,须要启用结尾区分接口方式
    [self.iFlySpeechRecognizer stopListening];//音频软件数据源读入已完成,来到处理心态
    

    # 3、常用参数说明

    参数名称 名称 说明
    domain 应用领域 应用领域
    iat:日常用语
    medical:医疗
    :医疗领域若未授权无法使用,可到控制台-语音听写(流式版)-高级功能处添加试用或购买;若未授权无法使用会报错11200。
    language 语言区域 选择要使用的语言区域,,目前iOS SDK支持
    zh_cn:中文
    en_us:英文
    ja_jp:日语
    ko_kr:韩语
    ru-ru:俄语
    fr_fr:法语
    es_es:西班牙语
    注:小语种若未授权无法使用会报错11200,可到控制台-语音听写(流式版)-方言/语种处添加试用或购买。
    accent 方言 当前仅在LANGUAGE为简体中文时,支持方言选择,其他语言区域时,可把此参数值设为mandarin。默认值:mandarin,其他方言参数可在控制台方言一栏查看。
    vad_bos 前端点检测 开始录入音频后,音频前面部分最长静音时长,取值范围[0,10000ms],默认值5000ms
    vad_eos 后端点检测 开始录入音频后,音频后面部分最长静音时长,取值范围[0,10000ms],默认值1800ms。
    sample_rate 采样率 支持:8KHZ,16KHZ
    nbest 句子多侯选 通过设置此参数,获取在发音相似时的句子多侯选结果。设置多候选会影响性能,响应时间延迟200ms左右。取值范围:听写[1,5]。
    注:该扩展功能若未授权无法使用,可到控制台-语音听写(流式版)-高级功能处免费开通;若未授权状态下设置该参数并不会报错,但不会生效。
    wbest 词语多侯选 通过设置此参数,获取在发音相似时的词语多侯选结 果。设置多候选会影响性能,响应时间延迟200ms左右。取值范围:听写[1,5]。
    如: [_iflyRecognizerView setParameter:@"2" forKey:@"wbest"];
    注:该扩展功能若未授权无法使用,可到控制台-语音听写(流式版)-高级功能处免费开通;若未授权状态下设置该参数并不会报错,但不会生效。
    result_type 结果类型 结果类型包括:xml, json, plain。xml和json即对应的结构化文本结构,plain即自然语言的文本。
    nunum 数字结果 通过设置此参数可偏向输出数字结果格式
    0:倾向于汉字,
    1:倾向于数字,
    ptt 标点符号 (仅中文支持)标点符号添加
    1:开启(默认值)
    0:关闭

    注: 多候选效果是由引擎决定的,并非绝对的。即使设置了多候选,如果引擎并没有识别出候选的词或句,返回结果也还是单个。

    # 4、语音听写结果说明

    JSON字段 英文全称 类型 说明
    sn sentence int 第几句
    ls last sentence boolean 是否最后一句
    bg begin int 保留字段,无需关注
    ed end int 保留字段,无需关注
    ws words array
    cw chinese word array 中文分词
    w word string 单字
    sc score int 分数
    语言听写后果例子:
    {
      "sn": 1,
      "ls": true,
      "bg": 0,
      "ed": 0,
      "ws": [
        {
          "bg": 0,
          "cw": [
            {
              "w": " 接下来 ",
              "sc": 0
            }
          ]
        },
        {
          "bg": 0,
          "cw": [
            {
              "w": " 的",
              "sc": 0
            }
          ]
        },
        {
          "bg": 0,
          "cw": [
            {
              "w": " 天气怎么样 ",
              "sc": 0
            }
          ]
        },
        {
          "bg": 0,
          "cw": [
            {
              "w": " 怎摸样 ",
              "sc": 0
            }
          ]
        },
        {
          "bg": 0,
          "cw": [
            {
              "w": " 。",
              "sc": 0
            }
          ]
        }
      ]
    }
    
    多得票数效果范本:
    {
      "sn": 1,
      "ls": false,
      "bg": 0,
      "ed": 0,
      "ws": [
        {
          "bg": 0,
          "cw": [
            {
              "w": "让我听",
              "sc": 0
            }
          ]
        },
        {
          "bg": 0,
          "cw": [
            {
              "w": "拉德斯基做曲",
              "sc": 0
            },
            {
              "w": "拉得斯确定曲",
              "sc": 0
            }
          ]
        }
      ]
    }
    

    # 动态修正

    • 未开启动态修正:实时返回识别结果,每次返回的结果都是对之前结果的追加;
    • 开启动态修正:实时返回识别结果,每次返回的结果有可能是对之前结果的的追加,也有可能是要替换之前某次返回的结果(即修正);
    • 开启动态修正,相较于未开启,返回结果的颗粒度更小,视觉冲击效果更佳;
    • 使用动态修正功能需到控制台-流式听写-高级功能处点击开通,并设置相应参数方可使用,参数设置方法:dwa=wpgs ;
    • 动态修正功能仅 中文 支持;

    未开启与开启返回的结果格式不同,若开通了动态修正功能并设置了dwa=wpgs(仅中文支持),会有如下字段返回:

    参数 类型 描述
    pgs string 开启wpgs会有此字段
    取值为 "apd"时表示该片结果是追加到前面的最终结果;取值为"rpl" 时表示替换前面的部分结果,替换范围为rg字段
    rg array 替换范围,开启wpgs会有此字段
    假设值为[2,5],则代表要替换的是第2次到第5次返回的结果

    # 5、视频教程

    # 6、代理服务器设置方法

    在createUtility音频接口的params参数指标中含有:
    net_type=custom, proxy_ip=<host>, proxy_port=<port>
    其中,<host>,<port>替换为实际的代理服务器地址和端口。
    
    举列:
    NSString *initString = [[NSString alloc] initWithFormat:@"appid=%@, net_type=custom, proxy_ip=192.168.1.2, proxy_port=8080", @"12345678"];  //注意:各参数间,以英文逗号分隔。
    [IFlySpeechUtility createUtility:initString]; 
    
    电源接口原案: (IFlySpeechUtility *)createUtility:(NSString *)params

    注意: 若在设置代理参数后,使用语音服务过程中,报错10204/10205/10212等网络异常错误时,请查阅以下内容,做出相关操作:

    • 讯飞语音聊天SDK的通信网络合同样本用的是标准单位HTTP1.1合同样本,其微商POS机代理合同样本用的是标准单位HTTP微商POS机代理合同样本。
    • 加盟代理服务保障器应该苹果支持全双工多问多答策略,即 pipeline 模试。
    • 代办的服务端没能对80串口做禁止,没能对下述二级域名做屏蔽广告: hdns.openspeech.cn scs.openspeech.cn open.xf-yun.com dev.voicecloud.cn
    • 需有效确保选择工作器只负责管理转发分享数据分析文件包,不调整数据分析文件包的全面性和时序性。
    • 代理权功能器在发布数值包时,无法在HTTP合同样本脑袋加 IE6 广告头。

    # 7、常见问题

    # iOS常见问题资料

    答:请参照论谈发帖:

    # iOS听写sdk如何下载?

    答:文档中心---快速指引 (opens new window)有介绍步骤---根据步骤下载iOS在线听写sdk

    # SDK形式是否支持多路并发?

    答:sdk:买家端满足计划策划方案,不帮助Android、ios、windows、linux等电商手机平台,不不帮助消息队列; webapi:贴心服务端满足计划策划方案,不限止电商手机平台、不限止语气,不帮助消息队列。

    # SDK是否支持本地语音能力?

    答:iOS工作平台SDK都支撑本机人转化成、本机人命令行词判别、本机人音频换醒基本功能了,创立应该用后去应该用掌控台下载安装各工作sdk可以了。

    # 如何设置语音大发pk10服务URL

    答:针对于几个特定服务管理于,可以在createUtility插孔中含有:server_url = http://YourDomainName/msp.do (YourDomainName是说 语音系统大发pk10服务器管理于但是网站域名,请开发技术者自己进行重命名) 举列:
    NSString *initString = [[NSString alloc] initWithFormat:@"appid=%@,server_url=%@", @"12345678",@"http://sdk.openspeech.cn/msp.do"];  //注意:各参数间,以英文逗号分隔。
    [IFlySpeechUtility createUtility:initString]; 
    
    模块办演: (IFlySpeechUtility *)createUtility:(NSString *)params

    # 如何处理iOS SDK音频服务

    答:请参看论淡发帖子:

    # 集成自己项目后报错10407。

    答:一样是在自行的产品集成化时,appid和库档案不输入造成的。

    # 是否支持x86架构?

    答:当今不不认x86系统架构。

    # 在听写过程中如果10秒未说话录制会自动停止。

    答:听写vad_eos为能够的数最多禁音时长,以上这点时长会看来音视频停止自动化段开。

    # 是否支持小语种?

    答:到目前为止小语种现在已经更换日语、俄语水平、比利时语、法文、韩国语,各种小语种届时期许!

    # 为什么超过一分钟的音频文件,一分钟后的部分无法识别?

    答:听写能够辨别的60s中间的音视频,超一个钟是不了辨别的的。
    大发pk10 大发pk10