note09-加载文档

74 阅读1分钟

文档加载与文档分割

# 加载TXT文档
with open('./data/about.txt', 'r', encoding='utf-8') as file:
    content = file.read()
    print(content)

# 加载CSV文档
with open('./data/about.csv', 'r', encoding='utf-8') as file:
    reader = csv.reader(file)
    for row in reader:
        print(row)

# 加载PDF文档
with open('./data/about.pdf', 'rb') as file:
    reader = PyPDF2.PdfReader(file)
    for page in reader.pages:
        print(page.extract_text())

这个加载是我自己写的,正常应该用 from langchain_community.document_loaders import TextLoader 里面的内容,但是这个包似乎用到了 pwd,不太清楚 windows 如何引入这个包。

引不了包,文档分割还用不了,不过加载文档的方式可以记录一下。