基于Ubuntu使用LDBC-SNB-DataGen生成测试数据

343 阅读1分钟

准备hadoop,jdk,maven,python依赖(基于Ubuntu)

下载Java

本人用的1.8.0版本的,建议链接www.azul.com/downloads/?…

进入往下翻,然后选择要下载的jdk版本,你可以选择下载安装包建议选择.tar.gz,我建议直接右击复制链接去命令行里面wget。

直接 wget cdn.azul.com/zulu/bin/zu…

然后解压 tar zxvf zulu8.68.0.21-ca-jdk8.0.362-linux_x64.tar.gz

移动到/usr/local:

sudo mv zulu8.56.0.21-ca-jdk8.0.302-linux_x64 /usr/local/java 顺便把文件名改成了Java

添加环境变量:

vim ~/.bashrc

点击i进行编辑,按Esc键然后按 :输入小写wq保存

export JAVA_HOME=/usr/local/java 这是你jdk放置的路径

export PATH=$PATH:/usr/local/java/bin

source ~/.bashrc

你可以查看一下你的环境变量

echo $JAVA_HOME

echo $PATH

可以来检查一下我们jdk的版本信息

java -version

下载maven

下载链接maven.apache.org/download.cg

本人是直接 wget dlcdn.apache.org/maven/maven…

然后解压 tar zxvf apache-maven-3.9.0-bin.tar.gz

添加环境变量:

vim ~/.bashrc

export MAVEN_HOME=/home/cl/tools/apache-maven-3.9.0/

export PATH=MAVENHOME/bin:{MAVEN_HOME}/bin:PATH

source ~/.bashrc

同样可以用echo查看环境变量

echo $MAVEN_HOME

echo $PATH

输入mvn -v,有maven提示信息,安装成功

Python

本人的Ubuntu 22.04版本,它自带了Python 3.10,但是我用的这个ldbc-snb-datagen数据生成器它需要Python2的依赖,所以我在这里安装一个Python2。(当然有些的不需要)

安装pip3

sudo apt update
sudo apt install python3-pip
安装完之后检查一下是否可用
pip3 -V

安装python2

sudo add-apt-repository universe
sudo apt update
sudo apt install python2
安装完成之后检查一下是否可用
python2

安装pip2

wget https://bootstrap.pypa.io/pip/2.7/get-pip.py
sudo python2 get-pip.py
安装完之后检查一下是否可用
pip2 -V

Hadoop

本人用了好几个觉得还是这个2.7.7的适合我,放在网盘里面了。

可以自行去官网下载,Apache Hadoop

百度网盘链接:pan.baidu.com/s/1gG4lEdqI…

提取码:21rn

解压 tar zxvf hadoop-2.7.7.tar.gz

添加HADOOP_HOME环境变量

export HADOOP_HOME=/home/cl/develop/hadoop-2.7.7

export HADOOP_CLIENT_OPTS="-Xmx4G"

安装ldbc_snb_datagen

链接:github.com/ldbc/ldbc_s…

wget github.com/ldbc/ldbc_s…

tar zxvf v0.3.6.tar.gz

添加环境变量

export LDBC_SNB_DATAGEN_HOME=/home/cl/develop/ldbc_snb_datagen_hadoop-0.3.6

修改run.sh文件中DEFAULT_HADOOP_HOME参数的值为我们的hadoop路径。

复制test_params.ini文件,重命名为params.ini,cp test_params.ini params.ini

回到ldbc_snb_datagen_hadoop-0.3.6目录,运行run.sh

./run.sh

运行之后会出现test_data文件,进入该目录,生成的数据在social_network和substitution_parameters两个目录下。social_network存储的是表单数据,substitution_parameters存储的是测试数据。