HarmonyOS 应用里面可以集成盘古NLP大模型吗?

​应用里面可以集成盘古NLP大模型吗?如果可以的话,我们通过盘古NLP大模型进行语音交互可以吗?

我们希望是能够基于HarmonyOS端侧的能力,实现应用内的语音助手。我们也了解了实现语音助手的相关技术,主要是这几个方面:

ASR模块(Automatic Speech Recognition,语音识别),用于获取用户的指令,其中包括语音唤醒功能,

TTS模块(Text-To-Speech,语音合成),用于给出语音应答,

NLP模块(Natural Language Processing,自然语言处理),用于理解指令的语义,以便采取相应的动作,包括对话功能。

语音识别、语音合成这些能力,在API11里面有,但是好像没法做到下面两点:

被动唤醒,即“什么时候开始听”。这个阶段只监听唤醒词,当听到唤醒词时,进入主动聆听。

主动聆听,即“什么时候结束听”。这个阶段主动聆听用户的任何语音指令,然后对听到的内容进行分析处理。

如果能解决上面的两个问题,我们应该就能做出一个简单的语音助手了。有没有什么建议和实现方案?​

HarmonyOS
2024-11-08 10:07:38
浏览
收藏 0
回答 1
待解决
回答 1
按赞同
/
按时间
Heiang

​1、当前HarmonyOS Next暂不支持盘古大模型接入。

2、关于实现语音助手相关疑问,可以参考语音识别开发指南,实例中未使用麦克风实时监听,需要稍加改造,便可实现语音实时转文本。

语音识别参考链接:​https://developer.huawei.com/consumer/cn/doc/harmonyos-guides-V5/speechrecognizer-guide-V5

改造步骤如下:

(1)修改module.json5文件,配置ohos.permission.MICROPHONE权限。

(2)修改startListening方法,开启录音:​

// 开始识别 
private startListening() { 
  // 设置开始识别的相关参数 
  let params: Record<string, Object> = { 'recognitionMode': 0 } 
  let recognizerParams: speechRecognizer.StartParams = { 
    sessionId: this.sessionId, 
    audioInfo: { audioType: 'pcm', sampleRate: 16000, soundChannel: 1, sampleBit: 16 }, 
    extraParams:params 
  } 
  // 调用开始识别方法 
  asrEngine.startListening(recognizerParams); 
};

​(3)动态申请录音权限,需要在调用startListening方法前获得授权,参考文档: ​https://developer.huawei.com/consumer/cn/doc/harmonyos-guides-V5/request-user-authorization-V5

开启语音识别后,语音识别的结果在onResult回调中获取,注意onResult回调中的日志。​

分享
微博
QQ
微信
回复
2024-11-08 17:06:05
相关问题
mindspore可以搭载到鸿蒙应用里面?
3831浏览 • 1回复 待解决
HarmonyOS 应用集成 Flutter
52浏览 • 1回复 待解决
HarmonyOS 共享包里面可以使用worker
395浏览 • 1回复 待解决
社区的markdown里面可以写html
2935浏览 • 2回复 已解决
如何应用持续集成方案。
615浏览 • 1回复 待解决
HarmonyOS应用模型的构成要素有哪些?
259浏览 • 1回复 待解决