故事插图生成工具V1.0—说明文档 原创

带带带师
发布于 2024-9-8 16:21
浏览
0收藏

故事插图生成工具V1.0—说明文档

项目介绍

故事插图生成工具是基于智谱AI通用大模型GIM-4以及图像大模型cogview-3的HarmonyOS NEXT项目。该工具旨在为用户提供前所未有的交互式体验,通过输入创意故事文本,自动生成与之相匹配的高清插图,极大地丰富了内容创作的维度与深度。

环境依赖

运行imgGpt需要api9及以上的HarmonyOS环境。
运行metaGPT需要python3.9+的环境。

requirements

关键依赖:

metagpt==0.8.1
Flask==3.0.3
zhipuai==2.1.5.20230904

背景信息

智谱AI

本工具基于智谱AI GLM-4进行开发。
智谱AI(北京智谱华章科技有限公司)是一家致力于打造新一代认知智能大模型,专注于做大模型的中国创新企业。公司于2020年底研发GLM预训练架构,2021年训练完成百亿参数模型GLM-10B,利用MoE架构成功训练出收敛的万亿稀疏模型,2022年合作研发了中英双语千亿级超大规模预训练模型GLM-130B。2023 年,智谱 AI 推出千亿基座对话模型ChatGLM并两次升级,开源版本的 ChatGLM-6B 使得研究者和个人开发者进行本地微调和部署成为可能。

OpenVINO™ Toolkit

OpenVINO™ Toolkit是英特尔基于自身硬件平台开发的一种工具套件,旨在加快高性能计算机视觉和深度学习视觉应用的开发速度。它利用英特尔的硬件加速器,包括CPU、GPU、FPGA等,实现深度学习模型的快速推理。OpenVINO™支持多种操作系统,如Windows和Linux,并支持Python和C++等编程语言。

Intel® Extension for Transformers(ITREX)

Intel® Extension for Transformers是英特尔推出的一个创新工具包,专为基于英特尔架构平台,特别是第四代英特尔® 至强® 可扩展处理器(代号Sapphire Rapids,SPR)优化,以显著加速基于Transformer的大语言模型(Large Language Model, LLM)的推理性能。

Neural Chat

Neural Chat是ITREX中的一个组件,它简化了大模型在聊天机器人和服务助手等场景中的应用。Neural Chat隐藏了创建大模型时的复杂操作,对类似聊天机器人以及服务助手的操作进行了简单的封装,最大限度减少了用户需要引入的额外工作量。

环境部署

阿里云g8i服务器配置

实例:调用智谱通用大模型gim-4以及图像大模型cogview-3。
公网IP:选中分配公网IPv4地址,带宽计费模式选择按使用流量,带宽峰值设置为4 Mbps。以加快模型下载速度。
系统盘:Qwen-7B-Chat模型数据下载、转换和运行过程中需要占用60 GiB的存储空间,为了保证模型顺利运行,建议系统盘设置为100 GiB。
安全组规则:在ECS实例安全组的入方向添加安全组规则并放行22端口和7860端口(22端口用于访问SSH服务,7860端口用于访问WebUI和API接口)
故事插图生成工具V1.0—说明文档-鸿蒙开发者社区
故事插图生成工具V1.0—说明文档-鸿蒙开发者社区

调用模型

使用多智能体框架调用智谱ai的开源语言大模型GlM-4以及图像大模型cogview-3。
https://open.bigmodel.cn/dev/api
https://docs.deepwisdom.ai/v0.5/zh/guide/get_started/installation.html

系统架构

关于imgGpt

imgGpt是基于HarmonyOS NEXT的前端项目。其页面源代码存放在imgGpt>entry>src>main>ets>pages下。
故事插图生成工具V1.0—说明文档-鸿蒙开发者社区

关于Illustration_Generator

Illustration_Generator运用metaGPT框架,用于处理由前端发来的请求,通过调用智谱AI的GIM-4以及cogview-3,处理用户发来的故事,并返回前端页面图片,图片描述等信息。
故事插图生成工具V1.0—说明文档-鸿蒙开发者社区
图片保存目录:
故事插图生成工具V1.0—说明文档-鸿蒙开发者社区
MetaGPT:MetaGPT | MetaGPT (deepwisdom.ai)

工具使用

安装工具

运行Illustration_Generator

安装依赖包

pip install -r requirements.txt

启动Illustration_Generator

python WebApi.py

启动工具

打开工具进入主页面。

填写故事

在页面下方输入框中输入需要生成为插图的故事文本。
此处进行演示的文本为:
天命人”就是猴子猴孙中的一员。踏着前面无数失败者的足迹,最终在游戏人气并气人角色猪八戒的陪伴、引导和帮助下,击败五大妖王,寻得“五根”。一路上,玩家通过“天命人”视角,了解诸仙众神的缘分和故事。这些故事或续接、或呼应《西游记》原著剧情,如黄眉怪与金蝉子的对赌、牛魔王的中年危机、天蓬元帅的未了前情,等等。
最终,“天命人”携“五根”进入孙悟空生前记忆,战胜悟空残存意念和身躯,清除悟空不净“六根”,戴上金刚紧箍,收紧心猿意马,承接“孙悟空”名号、装备和法术,成为下一个“孙悟空”。
故事插图生成工具V1.0—说明文档-鸿蒙开发者社区

开始生成插图

填写完需要生成为插图的故事文本,点击“生成图片”按钮,工具开始运行。

生成完成

工具生成完成后再主页面进行展示,在图片的下方配有原文以及ai生成的图片描述,用户可以通过滑动的方式查看整个故事。
生成结果展示:

第一张 第二张 第三张 第四章 第五张
故事插图生成工具V1.0—说明文档-鸿蒙开发者社区 故事插图生成工具V1.0—说明文档-鸿蒙开发者社区 故事插图生成工具V1.0—说明文档-鸿蒙开发者社区 故事插图生成工具V1.0—说明文档-鸿蒙开发者社区 故事插图生成工具V1.0—说明文档-鸿蒙开发者社区

服务日志

模型接受到请求后会实时分析,并输出运行日志,方便进行查看以及后续调试修正。

©著作权归作者所有,如需转载,请注明出处,否则将追究法律责任
标签
已于2024-9-11 15:17:57修改
收藏
回复
举报
回复
    相关推荐