首页
首页
AI Coding
NEW
沸点
课程
直播
活动
AI刷题
APP
插件
搜索历史
清空
创作者中心
写文章
发沸点
写笔记
写代码
草稿箱
创作灵感
查看更多
会员
登录
注册
NLP工具包踩坑指南
lvzi
创建于2023-02-01
订阅专栏
常用的NLP工具包使用过程中一些经验分享
暂无订阅
共10篇文章
创建于2023-02-01
订阅专栏
默认顺序
默认顺序
最早发布
最新发布
python 解析word&word-获取图和表的相对位置
用python解析word为文字的代码 用各家llm产品都可以生成,下面这段可以分别获取word中的文字和表格 但是这样丧失了段落和表格的顺序信息,解决方法: github提的issue有人给出
openai如何使用socks代理
使用方法: 通过给openai.proxy赋值设置代理,默认情况下是支持http/https代理,不支持socks代理。需要做额外修改,根据不同的需求,使用socks代理所需要的依赖和修改是不同的。
【datasets】datasets加载多个数据集
几个格式相同的数据集,希望训练模型的时候一次全部加载 感觉是一个比较常用的功能,但并不在文档的显眼位置。 记录一下
【datasets】问题
以如下结构存储的数据 当json_data足够大的时候,Dataset.from_pandas(df)会报错,需要拆分成多个部分构建 这里改为直接从json构建也不可以 上面结构存储的数据,读取后,会
FastChat 代码分析
fastchat后端部署实现了非常多的功能 分发/负载 可以实现分发到不同的服务器 其他 存在问题 vicuna 33b stream解码有问题。
【踩坑】sanic-ext未生效
坑: 在python3.7环境下,通过官方文档安装sanic即扩展插件,但是 sanic-ext包不起作用,具体的表现为:无法打开路由/docs。 这里的坑在于,服务启动时,sanic不会报错。因此很
【wandb】python主程序停止,wandb没有停止
问题 环境 报错信息 停止主程序的训练后,终端不断跳出如下信息 通过ps -ef | grep wandb发现wandb-service进程没有没停掉,但是由于其父进程被停止,其父进程转移给了进程号1
【ahocorasick】最长匹配失效
问题 使用2.0.0版本的pyahocorasick最长匹配是错误的 解决办法 这个包确实是错了,issue里也有人提出来了但是没改。 解决方法是退回正确的版本,使用1.4.4版本
中文繁简转换包对比
繁简转换 包 原理 效果 hanziconv 字对照表 古今通用的字会转换,如著->着 zhconv 字对照表+词对照表 比hanziconv好例:"住著":->"住着","住著作": "住著作",
【pyss3】ValueError: max() arg is an empty sequence
问题: 在使用pyss3文档中给出的网格搜索调参示例过程中 报错: 问题原因和解决方案: 调用了sklearn的classification_report方法,需要传入标签,但是SS3类中的__cat