HarmonyOS 应用里面可以集成盘古NLP大模型吗？

应用里面可以集成盘古NLP大模型吗？如果可以的话，我们通过盘古NLP大模型进行语音交互可以吗？

我们希望是能够基于HarmonyOS端侧的能力，实现应用内的语音助手。我们也了解了实现语音助手的相关技术，主要是这几个方面：

ASR模块（Automatic Speech Recognition,语音识别），用于获取用户的指令，其中包括语音唤醒功能，

TTS模块（Text-To-Speech，语音合成），用于给出语音应答，

NLP模块（Natural Language Processing，自然语言处理），用于理解指令的语义，以便采取相应的动作，包括对话功能。

语音识别、语音合成这些能力，在API11里面有，但是好像没法做到下面两点：

被动唤醒，即“什么时候开始听”。这个阶段只监听唤醒词，当听到唤醒词时，进入主动聆听。

主动聆听，即“什么时候结束听”。这个阶段主动聆听用户的任何语音指令，然后对听到的内容进行分析处理。

如果能解决上面的两个问题，我们应该就能做出一个简单的语音助手了。有没有什么建议和实现方案？

HarmonyOS

zxjiu

2024-11-08 10:07:38

浏览

回答 1

待解决

回答 1

按赞同

按时间

Heiang

1、当前HarmonyOS Next暂不支持盘古大模型接入。

2、关于实现语音助手相关疑问，可以参考语音识别开发指南，实例中未使用麦克风实时监听，需要稍加改造，便可实现语音实时转文本。

语音识别参考链接：https://developer.huawei.com/consumer/cn/doc/harmonyos-guides-V5/speechrecognizer-guide-V5

改造步骤如下：

（1）修改module.json5文件，配置ohos.permission.MICROPHONE权限。

（2）修改startListening方法，开启录音:

// 开始识别 
private startListening() { 
  // 设置开始识别的相关参数 
  let params: Record<string, Object> = { 'recognitionMode': 0 } 
  let recognizerParams: speechRecognizer.StartParams = { 
    sessionId: this.sessionId, 
    audioInfo: { audioType: 'pcm', sampleRate: 16000, soundChannel: 1, sampleBit: 16 }, 
    extraParams:params 
  } 
  // 调用开始识别方法 
  asrEngine.startListening(recognizerParams); 
};

（3）动态申请录音权限，需要在调用startListening方法前获得授权，参考文档： https://developer.huawei.com/consumer/cn/doc/harmonyos-guides-V5/request-user-authorization-V5

开启语音识别后，语音识别的结果在onResult回调中获取，注意onResult回调中的日志。

2024-11-08 17:06:05

如何写精华回答，获更多曝光？

发布

51CTO

51CTO博客

51CTO学堂

HarmonyOS 应用里面可以集成盘古NLP大模型吗？

订阅鸿蒙技术特刊，精选内容抢先看