OpenHarmony三方组件:flexsearch-ohos

Handpc
发布于 2023-3-16 11:48
浏览
0收藏

简介

本项目是基于 js 库开源库 ​​FlexSearch​​ 进行移植的 OpenHarmony 适配版本。

FlexSearch 是一个快速、零依赖的全文搜索库。 在原始搜索速度方面,FlexSearch 优于每一个搜索库, 并提供灵活的搜索功能,如多字段搜索,语音转换或部分匹配。根据使用的选项,它还提供最高内存效率的索引。 FlexSearch 引入了一种新的评分算法,称为“上下文索引”,基于预先评分的词典字典体系结构,与其他库相比,实际执行的查询速度有大幅度提高。 FlexSearch 还为您提供非阻塞异步处理模型,以通过专用平衡线程并行地对索引执行任何更新或查询。

下载安装

npm install @ohos/flexsearch-ohos --save

OpenHarmony npm 环境配置等更多内容,请参考 ​​如何安装 OpenHarmony npm 包​​ 。

使用说明

快速接入

单字段检索使用 Index 更简单,多字段检索使用 Document,以 Document 为例

import FlexSearch from "@ohos/flexsearch-ohos";

    const index = new FlexSearch.Document({
  // 中文检索需要使用CJK编码方式或自定义
  charset: "cjk",
  document: {
    id: "url",
    tag: "tag",
    index: ["title", "content"],
    store: ["url", "title"],
},
});

// 可自定义字段名    const doc1 = {
  url: "url1",
  tag: "疫情",
  title: "疫情波及8省份!疾控专家提醒冬季疫情 ...",
  content: "大象新闻消息,仅三天时间,已经 ... 10月18日,陕西省卫健委通报...",
};
index.add(doc1);
    let result = index.search("疫情", {
  limit: 100,
  offset: 0,
  suggest:     false,
  index: ["title", "content"],
  tag:     false,
  enrich:     false,
  bool: "or",
});

// 异步版本搜索方法callback方式
index.searchAsync(
"疫情",
{
    limit: 100,
    offset: 0,
    suggest:     false,
    index: ["title", "content"],
    tag:     false,
    enrich:     false,
    bool: "or",
},
    function (result) {
console.log(result);
}
);

// 异步版本搜索方法promise方式
index
.searchAsync("疫情", {
    limit: 100,
    offset: 0,
    suggest:     false,
    index: ["title", "content"],
    tag:     false,
    enrich:     false,
    bool: "or",
})
.then(    function (result) {
console.log(result);
});

// async await方式
async     function search() {
    const results = await index.searchAsync("疫情", {
    limit: 100,
    offset: 0,
    suggest:     false,
    index: ["title", "content"],
    tag:     false,
    enrich:     false,
    bool: "or",
});
console.log(result);
}

关于配置项参数 options 的详细说明,原库 readme 中有详细的说明,请见​FlexSearch readme​

API 预览

Global Methods:

Index Methods:

WorkerIndex Methods:

Document Methods:

* 表示此方法存在一个等价的异步方法

Async Version:

异步方法会返回一个 ​​Promise​​, 或者,您可以将回调函数作为最后一个参数传递.

方法​​export​​​和​​import​​始终是异步的,您在基于 Worker 的索引上调用的每个方法也都是异步的.

worker 功能使用说明

单字段检索使用使用 worker 功能需用 FlexSearch.Worker 代替 FlexSearch.Index 由于线程间数据传递序列化问题,charset 对象里的 encode 属性(value 为 function)会被忽略,此时需将 charset 对象拆分传递,并且将 charset.encode 做个特殊处理,不传递 function 改为传递 function.name

import FlexSearch from "@ohos/flexsearch-ohos";
import charsetDefault from "@ohos/flexsearch-ohos/src/lang/latin/default.js";

    const index = new FlexSearch.Worker({
  encode: charsetDefault.encode.name,
  tokenize: charsetDefault.tokenize,
  rtl: charsetDefault.rtl,
});

然后 entry 工程目录里,与 pages 目录同级创建 workers 目录,然后在 workers 目录里新建 worker.js 文件

// worker.js
import charsetDefault from "@ohos/flexsearch-ohos/src/lang/latin/default.js";
import {
setEncode,
handler,
parentPort,
} from "@ohos/flexsearch-ohos/src/worker/ark.js";

setEncode(charsetDefault.encode);
parentPort.onmessage = handler;

多字段检索还是使用 Document 对象,需在构建对象的配置里设置开启 worker

import FlexSearch from "@ohos/flexsearch-ohos";
import charsetCJK from "@ohos/flexsearch-ohos/src/lang/cjk/default.js";

    const index = new FlexSearch.Document({
  rtl: charsetCJK.rtl,
  tokenize: charsetCJK.tokenize,
  encode: charsetCJK.encode.name,

  // value is boolean or worker file path
  worker:     true,
});

然后 entry 工程目录里,与 pages 目录同级创建 workers 目录,然后在 workers 目录里新建 worker.js 文件 worker.js 也可为其他文件名,但是上面的配置也需改动,如 myworker.js,则上面配置为 new Document({worker: "workers/myworker.js"});

import charsetCJK from "@ohos/flexsearch-ohos/src/lang/cjk/default.js";
import {
setEncode,
handler,
parentPort,
} from "@ohos/flexsearch-ohos/src/worker/ark.js";

setEncode(charsetCJK.encode);
parentPort.onmessage = handler;

关于 charset 和 lang 的说明

本库初始化时,仅默认注册了 5 中 charset,如下:

// flexsearch.js
if (SUPPORT_ENCODER) {
registerCharset("latin:default", charset_default);
registerCharset("latin:simple", charset_simple);
registerCharset("latin:balance", charset_balance);
registerCharset("latin:advanced", charset_advanced);
registerCharset("latin:extra", charset_extra);
registerCharset("cjk:default", charset_cjk);
}

故 charset 以字符串为值的时候,只能默认使用以上 5 种,'latin'即'latin:default','cjk'即'cjk:default'。 或者为了方便,在需要使用到其他内置的 charset 或自定义的 charset 时,也可先全局注册,eg:

import FlexSearch from "@ohos/flexsearch-ohos";
import charsetArabic from "@ohos/flexsearch-ohos/dist/module/lang/arabic/default.js";
import langEN from "@ohos/flexsearch-ohos/dist/module/lang/en.js";

FlexSearch.registerCharset("arabic:default", charsetArabic);
FlexSearch.registerLanguage("en", langEN);

    const index = new FlexSearch.Index({
  charset: "arabic",
  lang: "en",
});

直接使用 import 对象的方式,eg:

import FlexSearch from "@ohos/flexsearch-ohos";
import charsetLatinDefault from "@ohos/flexsearch-ohos/dist/module/lang/latin/default.js";
import langEN from "@ohos/flexsearch-ohos/dist/module/lang/en.js";

    const index = new FlexSearch.Index({
  charset: charsetLatinDefault,
  lang: langEN,
});

目录

./entry/src/main/ets/MainAbility/
        │──    flexsearch
        │          └──src                   库源码目录
        │              └──lang              内置语言和字符集处理目录
        │                    └──arabic      阿拉伯字符集处理目录
        │                    └──cjk         中日韩字符集处理目录
        │                    └──cyrillic    西里尔字符集处理目录
        │                    └──latin       拉丁字符集处理目录
        │                    └──at.js       奥地利语言处理
        │                    └──de.js       德国语言处理
        │                    └──en.js       英式英语处理
        │                    └──us.js       美式英语处理
        │              └──worker            worker线程内部实现目录
        │                    └──ark.js      worker线程逻辑实现
        │                    └──index.js    WorkerIndex对象逻辑实现
        │          └──async.js              Async方法的公共实现逻辑
        │          └──cache.js              缓存实现逻辑
        │          └──common.js             通用工具函数
        │          └──config.js             内部逻辑配置
        │          └──document.js           Document对象逻辑实现
        │          └──flexsearch.js         flexsearch库入口文件
        │          └──global.js             全局配置
        │          └──index.js              Index对象逻辑实现
        │          └──intersect.js          SearchOptions中suggest的处理逻辑
        │          └──lang.js               语言处理的公共函数
        │          └──preset.js             Index中preset构造配置项的处理逻辑
        │          └──serialize.js          序列化处理逻辑,如导入和导出
        │          └──type.js               用来做类型注释
        │──    model                        demo逻辑处理和数据文件目录
        │──    pages                        页面文件目录
        │──    utils                        工具类目录
        │──    workers                      ark环境worker脚本目录

开源协议

本项目基于 ​​Apache License 2.0​​ ,请自由地享受和参与开源。

贡献代码

使用过程中发现任何问题都可以提 ​​Issue​​​ 给我们,当然,我们也非常欢迎你给我们发 ​​PR​​ 。



文章转载自:​​https://gitee.com/openharmony-tpc/flexsearch-ohos​


flexsearch-ohos-master.zip 118.79K 2次下载
收藏
回复
举报
回复
    相关推荐