视听融合感知智能引擎平台

📕 中文版 README | 📗 English README

在使用我们的模型之前，您需要先确保环境中已安装所有必要的依赖项。这些依赖项涵盖了模型运行所需的各类库和工具，确保您可以顺利进行模型推理。

请按照以下步骤进行安装:

pip install -r requirements.txt

安装完所有必要的依赖项后，您就可以开始使用我们的模型进行推理了。我们提供了两种推理方式：使用终端进行推理和使用交互式推理。

这里我们以示例图片asserts/demo.jpg为例进行说明:

如果您希望直接在终端中运行推理脚本，可以使用以下命令:

python chatme.py --image asserts/demo.jpg --question "货架上有几个苹果？"

此命令会加载预训练的模型，并使用提供的图片(demo.jpg)和问题("货架上有几个苹果？")进行推理。

模型会分析图片并尝试回答提出的问题，推理结果将以文本形式输出到终端中，例如:

小千：货架上有三个苹果。

除了使用终端进行推理，您还可以使用交互式推理功能与大模型进行实时交互。要启动交互式终端，请运行以下命令:

python main.py

此命令会启动一个交互式终端，等待您输入图片地址。您可以在终端中输入图片地址(例如asserts/demo.jpg)，然后按下回车键。

模型会根据您提供的图片进行推理，并等待您输入问题。

一旦您输入了问题(例如"货架上有几个苹果？")，模型就会分析图片并尝试回答，推理结果将以文本形式输出到终端中，例如:

图片地址 >>>>> asserts/demo.jpg
用户：货架上有几个苹果？
小千：货架上有三个苹果。

通过这种方式，您可以轻松地与模型进行交互，并向其提出各种问题。

Gorilla-Lab-SCUT / Visual-Auditory-Fusion-Perception