OmniParse是一个平台,可将任何非结构化数据提取并解析为针对GenAI(LLM)应用程序优化的结构化、可操作数据。无论您是在处理文档、表格、图像、视频、音频文件还是网页,OmniParse都可以将您的数据准备得干净、结构化,并为RAG、微调等AI应用程序做好准备.
不过需要注意的是,官网详细介绍了开源版本的一些局限,尤其是最后一句。为了适应GPU中的所有模型,我们使用了最小的变体,这可能无法提供一流的性能。
不过不影响我们体验一把,搞起!
这次直接使用nvidia-docker直接部署。
docker pull nvcr.io/nvidia/cuda:12.2.2-cudnn8-devel-ubuntu22.04
docker run -v /path/omniparse:/workspace --gpus=all -p 9773:8000 --env NVIDIA_DISABLE_REQUIRE=1 -itd nvcr.io/nvidia/cuda:12.2.2-cudnn8-devel-ubuntu22.04 /bin/bash
运行起来之后,就可以在容器里进行一些依赖的安装。
这个cuda12.2.2的镜像里面,没有安装python,所以需要从安装python开始。
sudo apt-get install python3 python3-pip git libgl1-mesa-dev libglib2.0-dev -y
安装之后,去到/workspace 路径进行项目的安装。
pip3 install -e .
不出意外,一切顺利安装,这时候就可以把webui启动起来,进行使用了。
python server.py --host 0.0.0.0 --port 8000 --documents --media
这里,我们没有启用--web参数,不打算安装一个chrome了,感兴趣的可以自行安装