背景:
客户使用mindspore Bert model跑评估失败, 需要复现问题定位分析.
执行步骤
1 准备数据
生成下游任务数据集
- 下载数据集进行微调和评估,如中文实体识别任务CLUENER、中文文本分类任务TNEWS、中文实体识别任务ChineseNER、英文问答任务SQuAD v1.1训练集、SQuAD v1.1验证集、英文分类任务集合GLUE等。
- 将数据集文件从JSON格式转换为TFRecord格式。详见BERT代码仓中的run_classifier.py或run_squad.py文件。
查看BERT代码仓中的run_classifier.py脚本,写的比较全面、复杂,由于只是要生成tfrecord格式数据,找到提代的代码仓github.com/LmYjQ/minds… 按照README操作很快生成想要的train.tf_record、dev.tf_record 注意:生成dev.tf_record数据时,需要替换中代码中“train.json”
- 排坑 1 module 'tensorflow_core._api.v2.train' has no attribute 'Optimizer' tensorflow版本导致,bert适配版本为1.14,出现该问题的版本为2.0.0,降级tensorflow.
2 module 'tokenization' has no attribute 'FullTokenizer' 解决办法: pip install bert-tensorflow from bert import tokenization
3 安装pip install tensorflow==1.14报错 显示只能安装2.0 以上版本时,请确认python版本是否低于3.8, 3.8以上版本不支持1.x,
4 win10 环境提示 "Permission Denied" trying to run Python on Windows 10 原因:conda环境安装python3.7,修改脚本中python3 为python,问题解决! 提示路径: C:\Users\l00400158\AppData\Local\Microsoft\WindowsApps
2 运行评估
执行报错,原因当前mindspore不支持310系列芯片