AI预测高考作文？第一部分：高考作文到底能不能被“预测”？又是一年高考季，语文试卷刚刚落地，微博热搜就被“某省高考作文

第一部分：高考作文到底能不能被“预测”？

“凡事预则立，不预则废。”——《礼记·中庸》

又是一年高考季，语文试卷刚刚落地，微博热搜就被“某省高考作文题”刷屏。有人感叹“太离谱了”，有人喊着“押中了”，还有人调侃“果然是AI时代，命题也越来越像GPT写的了”。

问题来了：

高考作文题，到底能不能被AI预测？

这并不是一个无厘头的脑洞，而是一个值得深究的技术问题——AI是否能通过机器学习和自然语言处理，分析历年高考作文命题的规律，从而预测未来可能的作文题目？

想一想，你是不是也曾在考前苦苦背诵那些“万能作文模板”“十大高频命题角度”？那么，AI是否能比人类更精准地“押题”？它会不会真的成为“高考最强辅导老师”？

先别急着否定。我们不妨先来看看“人类老师”是怎么押题的：

📖 人类的押题方法，其实就是“数据拟合”

回想你高中的语文老师，是不是每年都让你背一大堆范文，还动不动就来一句：

“从‘大我’与‘小我’、‘责任’与‘自由’、‘传承’与‘创新’这几个角度出发，高考作文基本都能写。”

是不是很熟悉？

其实他们做的事，本质上就是基于过往样本，进行趋势建模。这不就是我们做机器学习的套路吗？

老师：用经验和主观判断提炼规律
AI：用大量语料和神经网络拟合模式

📊 从数据的角度看，高考作文其实是有“套路”的

我们简单看一下2013年到2023年的全国卷作文题（数据略）：

年份	作文主题关键词
2013	社会热点：同龄人、青少年梦想
2014	家国情怀：老舍与北京城
2015	科技发展：手机的利与弊
2016	文化自信：语文素养的重要性
2017	核心价值观：理想与现实
2018	青年担当：奋斗新时代
2019	社会责任：劳动与奋斗
2020	抗疫情感：共克时艰
2021	数字社会：AI与人类共处
2022	教育话题：“双减”政策
2023	心理建设：自我认同与群体关系

这像不像某种“非线性时间序列”？每年虽然不同，但背后都埋着一些重复出现的“命题元主题”：国家意识、文化传统、社会热点、青年成长、科技伦理等。

于是问题来了：

既然人类可以根据规律押题，为什么AI不可以？

只要我们：

拿到足够多年的高考作文题
提取出关键词、语义特征
用大语言模型（如GPT）学习“命题风格”
再加点时间感知能力（比如“2024年的社会热点”）

那么——是不是就可以预测2025年的作文题？

🧠 本文目标：打造一个“AI押题系统”

本文将从头到尾动手实现一个简单但有趣的系统，它能：

爬取并结构化高考作文题数据
提取语义信息并进行聚类
使用GPT或类似模型生成“下一道高考作文题”
甚至还能自动写一篇范文！

别急，我们不是在搞玄学，而是用数据科学 + 语言模型，用“程序员的方式”做一次“教育界的押题实验”。

下一部分，我们就从如何获取高考作文题数据开始，手把手带你搭建这个“AI押题机”。

预测不等于押中，但方向对了，就不远了。

第二部分：数据收集——高考作文语料怎么爬？

“巧妇难为无米之炊。” —— 程序员版就是：“模型再强，没数据也白搭。”

在让AI预测高考作文之前，我们得先喂给它“过去吃过的饭”——也就是历年高考语文作文题、范文和解析资料。这一步听上去像苦力活，但用好Python，分分钟就能自动化。

📌 数据目标

我们需要收集以下类型的数据：

数据类型	示例
作文题目原文	“围绕‘时间的厚度’写一篇议论文…”
出题年份与试卷	“2023年全国甲卷”
作文类型	“材料作文 / 命题作文 / 开放作文”
官方范文	范文内容（不少于800字）
命题分析	教育专家的点评或老师解析

✅ 技术路线：爬虫 + 正则 + 手动标注少量异常数据。

一、找到靠谱的作文数据源

目前国内有几个还算稳定的作文题目发布网站，比如：

我们以高考作文网为例，分析页面结构后发现，每篇文章都有一个 class 为 .title 的 div，我们可以从中提取题目链接，进入详情页获取正文。

二、用Python写一个爬虫脚本

下面是一个基础版爬虫示例，使用 requests 和 BeautifulSoup，用于抓取作文题目与链接：

import requests
from bs4 import BeautifulSoup

# 设置目标URL和请求头
url = "https://www.gaokao.com/e/zuowen/"
headers = {'User-Agent': 'Mozilla/5.0'}

# 发起请求
response = requests.get(url, headers=headers)
soup = BeautifulSoup(response.text, 'html.parser')

# 提取作文题目的链接
titles = soup.select('.title a')
for title in titles:
    print(f"标题：{title.text}")
    print(f"链接：https://www.gaokao.com{title['href']}")

👆运行后我们可以获取到多个高考作文题的页面链接。

三、继续爬详情页，抓取正文内容

接下来，我们对每个详情页进行进一步爬取：

def get_essay_content(url):
    res = requests.get(url, headers=headers)
    s = BeautifulSoup(res.text, 'html.parser')
    
    try:
        # 文章正文通常在 .art_main 类中
        content_div = s.select_one('.art_main')
        paragraphs = content_div.find_all('p')
        content = "\n".join([p.text.strip() for p in paragraphs])
        return content
    except:
        return "解析失败"

# 示例调用
link = "https://www.gaokao.com/e/zuowen/64b25878d73e6.shtml"
print(get_essay_content(link))

结果通常会包含作文题干、命题背景、写作要求，有些页面甚至还有范文，非常适合训练数据集使用。

四、保存数据为结构化JSON文件

便于后续训练，我们可以将数据结构化保存：

import json

def save_data(data, filename="gaokao_essays.json"):
    with open(filename, "w", encoding="utf-8") as f:
        json.dump(data, f, ensure_ascii=False, indent=4)

# 构造数据结构示例
essay_data = {
    "year": 2023,
    "region": "全国甲卷",
    "title": "谈谈你对‘数智社会’的理解",
    "type": "材料作文",
    "content": "材料内容+写作要求…",
    "link": link
}

save_data([essay_data])

你可以构建一个循环，自动收集近十年所有作文数据，整理成数百条结构化样本。

五、如何处理动态加载页面？用 Selenium

有些网站使用了 JavaScript 加载内容，requests 是“看不见”的，这种情况我们可以使用 Selenium 模拟浏览器行为：

from selenium import webdriver
from selenium.webdriver.chrome.options import Options

options = Options()
options.add_argument('--headless')
driver = webdriver.Chrome(options=options)

driver.get("https://www.gaokao.com/e/zuowen/")
soup = BeautifulSoup(driver.page_source, 'html.parser')
# 后续逻辑与 requests 相同

六、实用建议：建立自己的“高考作文数据库”

抓取完几十篇之后，你就能构建一个本地数据库（可以是JSON/CSV，也可以直接存入 SQLite/MySQL），后续用于：

模型训练语料
命题风格提取
关键词分析
样式迁移生成新题

例如：

{
  "year": 2021,
  "region": "全国新高考Ⅰ卷",
  "type": "材料作文",
  "theme": "科技与人类关系",
  "content": "请根据以下材料写一篇作文...",
  "official_sample": "在数字时代，我们的生活被算法包围……"
}

🧩 小结

我们完成了“AI预测作文”的第一步——数据获取
接下来将对这些数据进行清洗、分类与语义分析
为下一步的模型训练做准备！

第三部分：数据清洗与标注——让AI看懂作文题

“你喂它饭之前，得先把骨头剔干净。”—— 一位懂AI的老语文老师

在上一节，我们已经用 Python 成功爬取了大量的高考作文题原文、出题年份、试卷名称、作文要求、范文内容等等。这些数据就像是AI眼中的一堆“文字汤”，它根本看不懂。

我们接下来要做的事情，就是把这锅汤过滤干净、分类装盘，形成适合训练的“干净语料”：

📌 本节目标

任务	技术点
提取作文题干内容	正则表达式清洗
判断作文题类型（命题作文、材料作文等）	关键词 + 规则判断
提取关键词或主题	分词 + 命名实体识别
标注主题类别（科技类、家国类、成长类）	自定义分类字典 or 分类器
格式标准化为 JSON 数据结构	清洗输出训练语料

一、用正则表达式提取作文题干与要求

大部分高考作文题的格式是这样的：

阅读下面材料，根据要求写一篇不少于800字的作文。
材料如下：……
要求：自拟标题，观点明确，结构完整。

我们要抽取的是：

命题方式（命题作文/材料作文/开放作文）
写作要求
材料正文

下面是一个提取示例：

import re

text = """阅读下面材料，根据要求写一篇不少于800字的作文。
材料如下：2020年春，新冠疫情突如其来，人们感受到了团结的力量……
要求：自拟标题，结合材料，写一篇议论文。"""

# 提取命题方式
if "阅读下面材料" in text:
    essay_type = "材料作文"
elif "根据提示语写作" in text:
    essay_type = "开放作文"
else:
    essay_type = "命题作文"

# 提取材料段
material_match = re.search(r"材料如下：(.+?)要求：", text, re.S)
material = material_match.group(1).strip() if material_match else ""

# 提取写作要求
requirement_match = re.search(r"要求：(.*)", text)
requirements = requirement_match.group(1).strip() if requirement_match else ""

print("类型：", essay_type)
print("材料：", material)
print("要求：", requirements)

运行结果：

类型：材料作文
材料：2020年春，新冠疫情突如其来，人们感受到了团结的力量……
要求：自拟标题，结合材料，写一篇议论文。

二、用 `jieba` 分词提取主题关键词

我们希望提炼出每个题目的核心关键词，比如“科技”“团结”“成长”“国家”等，以供后续聚类和主题预测模型使用。

import jieba

text = "2020年春，新冠疫情突如其来，人们感受到了团结的力量……"
words = jieba.lcut(text)
keywords = [w for w in words if len(w) > 1 and w not in stopwords]
print(keywords)

你可以自定义一个stopwords.txt过滤无意义词（如“根据”“材料”“写一篇”等）。

示例输出：

['新冠疫情', '突如其来', '人们', '感受', '团结', '力量']

三、构建主题分类标签体系（手动 + 半自动）

我们可以根据历年作文主题，定义一个标签集：

theme_dict = {
    "疫情": "社会热点",
    "团结": "集体意识",
    "奋斗": "个人成长",
    "AI": "科技伦理",
    "文化": "传统与现代",
    "责任": "价值观教育"
}

然后根据关键词打标签：

def tag_theme(keywords):
    for kw in keywords:
        if kw in theme_dict:
            return theme_dict[kw]
    return "未分类"

theme = tag_theme(keywords)
print("主题分类：", theme)

你还可以通过 sklearn 的 TfidfVectorizer + KMeans 做无监督聚类，但这会在后面“语义分析”部分展开。

四、输出训练语料格式（JSON 标准结构）

整理数据后保存成统一格式的样本：

essay_entry = {
    "year": 2020,
    "region": "全国Ⅰ卷",
    "type": essay_type,
    "material": material,
    "requirement": requirements,
    "keywords": keywords,
    "theme": theme,
    "raw_text": text
}

import json
with open("cleaned_essays.json", "a", encoding="utf-8") as f:
    f.write(json.dumps(essay_entry, ensure_ascii=False) + "\n")

这样我们就获得了一批干净、结构化、可控的训练数据。

五、扩展：自动构建标注数据的可视化界面（可选）

如果你想人工参与标注，可以借助 streamlit 构建一个小界面，手动修改预测标签：

pip install streamlit

# app.py
import streamlit as st
import json

st.title("高考作文题标注助手")

text = st.text_area("作文题内容")
if text:
    keyword = st.text_input("关键词")
    theme = st.selectbox("主题分类", ["社会热点", "个人成长", "科技伦理", "传统与现代", "未分类"])
    if st.button("保存标注"):
        with open("manual_tags.json", "a", encoding="utf-8") as f:
            json.dump({"text": text, "keyword": keyword, "theme": theme}, f, ensure_ascii=False)
            f.write("\n")
        st.success("保存成功！")

运行：

streamlit run app.py

🧩 小结

通过本节操作，我们实现了以下目标：

利用正则和分词清洗高考作文文本
自动识别命题类型和主题关键词
半自动构建训练数据和标签体系
为后续模型理解和生成打下语义基础

第四部分：构建AI模型——用 GPT 微调预测“下一道作文题”

“预测未来的最好方式，就是造一个语言模型让它胡说八道。” —— 某位NLP科学家的开玩笑话，却越来越接近现实

在我们手上已经有了上百条干净的高考作文题数据样本。我们现在要做的，是让一个 GPT 模型从这些“历史作文题”中学习出命题风格、主题趋势与结构表达，从而尝试生成“未来可能的作文题”。

这一步，就是传说中的：语言模型微调。

📌 本节目标

步骤	工具/框架
模型选择与预训练加载	HuggingFace `transformers`
数据转换为训练格式	`datasets` + JSON 格式处理
模型微调（fine-tuning）	`Trainer` API
生成效果展示	`generate()` 调用
小模型本地运行优化	使用 GPT2-small 或 ChatGLM-lite

一、安装环境与依赖包

如果你是 Colab 用户，可直接运行：

pip install transformers datasets accelerate

本地建议创建 conda 虚拟环境，GPU 机器建议配置 CUDA 11 以上版本。

二、准备训练数据（文本形式）

HuggingFace 的训练方式非常灵活，我们将每条作文题数据整理为一条字符串样本，例如：

【年份】2022年【类型】材料作文【主题】科技与人类【题目】阅读以下材料，根据要求写一篇议论文……

保存为 train.txt，每一行一条数据。

三、加载预训练模型（GPT2为例）

我们选择 HuggingFace 上的 gpt2 小模型进行微调，支持中文可选 uer/gpt2-chinese-cluecorpussmall：

from transformers import GPT2Tokenizer, GPT2LMHeadModel

model_name = "uer/gpt2-chinese-cluecorpussmall"
tokenizer = GPT2Tokenizer.from_pretrained(model_name)
model = GPT2LMHeadModel.from_pretrained(model_name)

四、加载并格式化数据集

使用 datasets 库进行加载：

from datasets import load_dataset

# 假设你已经准备好 train.txt，每行是一个作文题字符串
dataset = load_dataset('text', data_files={'train': 'train.txt'})

def tokenize_function(examples):
    return tokenizer(examples["text"], truncation=True, max_length=512)

tokenized_dataset = dataset.map(tokenize_function, batched=True)

五、配置训练参数并启动微调

from transformers import Trainer, TrainingArguments

training_args = TrainingArguments(
    output_dir="./gpt2-gaokao",
    per_device_train_batch_size=2,
    num_train_epochs=3,
    save_steps=500,
    logging_steps=100,
    warmup_steps=100,
    weight_decay=0.01,
    fp16=True,
    logging_dir='./logs'
)

trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=tokenized_dataset['train'],
    tokenizer=tokenizer,
)

trainer.train()

🧠 训练时间视GPU性能而定，100条样本约几分钟，训练3轮后基本就能看出模型“懂点门道”。

六、模型生成效果：让 AI 胡诌一道作文题！

一行代码测试预测效果：

input_text = "【年份】2025年【类型】材料作文【主题】人工智能"

inputs = tokenizer.encode(input_text, return_tensors='pt')
outputs = model.generate(inputs, max_new_tokens=100, do_sample=True, top_k=40, temperature=0.8)

print(tokenizer.decode(outputs[0]))

示例输出：

【年份】2025年【类型】材料作文【主题】人工智能【题目】阅读以下材料，根据要求写一篇文章。
材料一：某AI公司推出“智能陪伴系统”，帮助孤独老人日常交流。
材料二：部分中学生过度依赖AI写作工具，缺乏思考能力。
要求：结合材料，自拟标题，谈谈你对AI与人类关系的看法。

是不是已经有点“高考出题人”的味道了？

七、模型优化建议（如需部署或应用）

优化方式	说明
使用量小中文模型	如 ChatGLM2-lite、GPT2-chinese
启用 INT8 或量化模型	减小显存占用
使用 LoRA 或 P-Tuning v2	微调更高效
使用推理API部署	如 FastAPI + Gradio 接口实现“AI作文题生成器”

🧩 小结

我们完成了以下核心步骤：

✅ 加载中文 GPT 模型 ✅ 构建标准训练数据 ✅ 使用 HuggingFace 微调模型 ✅ 成功生成未来可能作文题

这已经是一个最小可行的“AI出题人”原型。

第五部分：生成对抗训练——如何防止AI写出离谱作文题？

“AI出题很快，但出歪了，就不叫高考题，而叫灵异作文大赛。” —— 某阅卷老师的吐槽

在上一节，我们实现了一个GPT模型的微调，用以生成“未来可能出现的作文题”。但它的问题也很明显：

有时命题“跑题”或“离谱”
有时生成材料前后逻辑混乱
有时语言结构不完整或缺乏审题价值

我们要解决这个问题，就需要一个判别器模型——专门用来“审核AI出的题”，筛选出合格作文题。

📌 本节目标

目标	技术路径
构建作文题判别器	文本分类模型（BERT/ERNIE）
训练判别器识别“好题 vs 坏题”	人工标注样本 + 微调
联合生成器与判别器优化输出	类GAN思想：优中选优
结果可解释性	加入置信度得分与规则辅助解释

一、什么是“坏题”？我们要如何定义？

我们人工定义如下标准：

类型	示例	标注为
命题不清	要求模糊、主题不明确	❌ 不合格
与高考风格不符	网络流行语、口语化严重	❌ 不合格
结构混乱	没有明确材料/要求	❌ 不合格
内容优质	有现实意义、材料丰富、方向明确	✅ 合格

二、构建判别器模型（BERT 文本分类器）

我们采用中文 BERT 模型作为基础，对“AI生成的作文题”进行二分类：合格（1） or 不合格（0）

1. 安装所需包

pip install transformers datasets scikit-learn

2. 预处理数据（人工标注数据集）

from datasets import load_dataset

dataset = load_dataset("json", data_files={"train": "labeled_prompts.json"})
# 每条数据格式如下：
# {"text": "【题目】阅读以下材料...", "label": 1}

3. 加载 tokenizer 与模型

from transformers import BertTokenizer, BertForSequenceClassification

tokenizer = BertTokenizer.from_pretrained("bert-base-chinese")
model = BertForSequenceClassification.from_pretrained("bert-base-chinese", num_labels=2)

4. Tokenize 输入数据

def tokenize_function(examples):
    return tokenizer(examples["text"], truncation=True, padding="max_length", max_length=256)

tokenized_dataset = dataset.map(tokenize_function, batched=True)

三、训练判别器

使用 Trainer 微调 BERT 模型：

from transformers import TrainingArguments, Trainer

training_args = TrainingArguments(
    output_dir="./bert-discriminator",
    evaluation_strategy="epoch",
    num_train_epochs=4,
    per_device_train_batch_size=8,
    save_steps=200,
    logging_steps=100,
)

trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=tokenized_dataset["train"],
    tokenizer=tokenizer,
)

trainer.train()

四、联动生成器与判别器：自动生成 + 自动筛选

我们将之前的 GPT2 文本生成与判别器模型组合，实现“生成 + 判别 + 过滤”的闭环：

def generate_prompt():
    input_text = "【年份】2025年【类型】材料作文【主题】科技伦理"
    inputs = tokenizer_gpt2.encode(input_text, return_tensors='pt')
    outputs = gpt2_model.generate(inputs, max_new_tokens=100, do_sample=True, top_k=40, temperature=0.8)
    return tokenizer_gpt2.decode(outputs[0])

def classify_prompt(text):
    inputs = tokenizer_bert(text, return_tensors='pt', truncation=True, padding=True, max_length=256)
    outputs = bert_model(**inputs)
    logits = outputs.logits
    predicted_class = logits.argmax(dim=-1).item()
    return predicted_class, logits.softmax(dim=-1)[0][1].item()  # 返回类别 & 合格置信度

# 批量生成并筛选
final_prompts = []
for _ in range(20):
    prompt = generate_prompt()
    label, confidence = classify_prompt(prompt)
    if label == 1 and confidence > 0.7:
        final_prompts.append((prompt, confidence))

# 输出合格作文题
for p, c in final_prompts:
    print(f"[置信度 {c:.2f}] {p}")

五、强化训练思路（可选）：对抗训练 / RLHF

你还可以尝试：

对抗训练（GAN思路）：构建生成器与判别器的双向博弈机制
基于奖励优化（RLHF）：将人类偏好转化为模型反馈，引导生成器“更对味”
过滤增强策略：加入规则过滤器，如作文题长度范围、是否包含“阅读”“材料”等关键词判断

六、可解释性增强：为什么说这是“好题”？

为避免“黑箱决策”，我们还可以输出关键词解释：

from transformers import pipeline

# 可视化关键词贡献值
explainer = pipeline("text-classification", model=bert_model, tokenizer=tokenizer, return_all_scores=True)
result = explainer("阅读以下材料：随着人工智能的发展...")
print(result)

🧩 小结

在这一节中，我们实现了：

✅ 构建判别器模型对生成作文题进行评分 ✅ 用“判别结果”来筛选合格作文题 ✅ 结合生成器 + 判别器，实现“优中选优”AI作文预测 ✅ 通过可解释性输出增强模型透明度

第六部分：构建作文题趋势仪表盘——预测未来三年热门命题方向

“数据是矿，趋势是光。” —— 某语文特级教师的数字化尝试

AI能不能预测高考作文？不仅要能“编出题”，还得能从历史与生成数据中看出趋势。

这部分我们将结合数据分析工具，构建一个命题关键词趋势仪表盘，预测未来三年作文题可能的走向，并支持：

关键词统计与可视化
年度主题热点聚类
生成结果趋势分析
命题语料大屏展示

📌 本节目标

功能	工具
文本关键词提取	`jieba`, `keybert`, `nltk`
统计分析	`pandas`, `collections`
趋势图与热词图	`matplotlib`, `seaborn`, `wordcloud`, `pyvis`
Web 仪表盘展示	`Streamlit`, `Gradio`, `Plotly Dash`

一、准备数据：历史与生成混合语料

我们将模型微调后的AI生成作文题数据与过去十年真题语料结合，形成如下格式的分析样本：

sample_data = [
    {"year": 2016, "text": "阅读以下材料，谈谈青年责任..."},
    {"year": 2022, "text": "结合材料，探讨科技与人文的关系..."},
    {"year": 2025, "text": "阅读材料，人工智能如何影响人类选择..."}  # GPT预测生成
]

二、关键词提取：用TF-IDF + KeyBERT混合策略

方法一：传统 TF-IDF + jieba

import jieba
from sklearn.feature_extraction.text import TfidfVectorizer

texts = [d['text'] for d in sample_data]
vectorizer = TfidfVectorizer(max_features=1000)
X = vectorizer.fit_transform(texts)
keywords = vectorizer.get_feature_names_out()

print("TF-IDF关键词：", keywords[:20])

方法二：KeyBERT（基于BERT嵌入）

from keybert import KeyBERT
kw_model = KeyBERT('paraphrase-MiniLM-L6-v2')

for item in sample_data:
    keywords = kw_model.extract_keywords(item['text'], top_n=5)
    print(f"{item['year']}关键词：{keywords}")

三、统计年度热词分布（词频趋势图）

import pandas as pd
from collections import defaultdict

year_keywords = defaultdict(list)
for d in sample_data:
    year = d['year']
    kws = [w[0] for w in kw_model.extract_keywords(d['text'], top_n=3)]
    year_keywords[year].extend(kws)

# 统计词频
df = pd.DataFrame([
    {"year": year, "keyword": kw}
    for year, kws in year_keywords.items()
    for kw in kws
])
print(df.head())

四、可视化一：词云图（WordCloud）

from wordcloud import WordCloud
import matplotlib.pyplot as plt

all_text = " ".join([d["text"] for d in sample_data])
wc = WordCloud(font_path="simhei.ttf", width=800, height=400).generate(all_text)

plt.figure(figsize=(10, 5))
plt.imshow(wc, interpolation="bilinear")
plt.axis("off")
plt.title("作文题热词词云")
plt.show()

五、可视化二：关键词年度趋势折线图

import seaborn as sns

trend_df = df.groupby(["year", "keyword"]).size().reset_index(name="count")
pivot_df = trend_df.pivot_table(index="year", columns="keyword", values="count", fill_value=0)

plt.figure(figsize=(12,6))
sns.lineplot(data=pivot_df)
plt.title("关键词随年份变化趋势")
plt.ylabel("出现频次")
plt.xlabel("年份")
plt.show()

六、构建交互式仪表盘（Streamlit 快速原型）

# streamlit_app.py
import streamlit as st
import pandas as pd
import matplotlib.pyplot as plt

st.title("AI高考作文趋势仪表盘")

year = st.selectbox("选择年份", sorted(set(df["year"])))
filtered = df[df["year"] == year]

st.write("当前年度关键词频率：")
st.bar_chart(filtered["keyword"].value_counts())

st.write("词云图：")
st.image("wordcloud.png")

运行方式：

streamlit run streamlit_app.py

七、未来趋势预测（Top3 热词演绎）

你可以进一步做出预测，例如统计 2023-2025 GPT生成作文题中，Top 3 高频词汇：

from collections import Counter
keywords_all = []

for d in sample_data:
    kws = [w[0] for w in kw_model.extract_keywords(d['text'], top_n=5)]
    keywords_all += kws

top3 = Counter(keywords_all).most_common(3)
print("未来三年热门命题方向：", top3)

例如：

未来三年热门命题方向：
1. 人工智能
2. 青年担当
3. 环境保护

🧩 小结

本节我们实现了：

✅ 将历史与生成作文题汇总为趋势语料 ✅ 使用关键词提取算法构建主题趋势图谱 ✅ 通过词云、趋势图、柱状图等可视化命题倾向 ✅ 搭建了交互式“作文趋势仪表盘”原型

这一步，是从“语言模型输出”迈向“语文大数据可视化分析”的重要跨越。

第七部分：作文辅助工具构建——为考生定制AI模拟写作练习系统

“写作不是难事，难的是‘想不出题目’和‘抓不住重点’。” —— 一位资深语文老师的感慨

AI预测高考作文不仅是学术研究，也可以落地为实用工具。本节我们打造一个简单的智能写作练习系统，帮助考生：

自动生成多样化作文题目
提供审题引导与写作提示
模拟真实考试写作场景

一、系统整体架构设计

flowchart LR
    A[生成作文题] --> B[审题辅助]
    B --> C[写作提示]
    C --> D[写作提交]
    D --> E[作文自动评估（未来扩展）]

核心模块：

作文题生成器：基于微调的 GPT 模型生成多样题目
审题辅助模块：提供题目解析、关键词提示
写作提示模块：给出思路、框架建议
写作提交与记录：存储学生作文，支持后续评价

二、题目生成示例代码

使用微调GPT2模型生成题目：

def generate_composition_prompt(theme="科技发展", style="议论文", max_length=100):
    input_text = f"【主题】{theme} 【文体】{style} 请生成一个高考作文题目。"
    inputs = tokenizer_gpt2.encode(input_text, return_tensors="pt")
    outputs = gpt2_model.generate(
        inputs, max_new_tokens=max_length, do_sample=True, top_k=50, temperature=0.8
    )
    prompt = tokenizer_gpt2.decode(outputs[0], skip_special_tokens=True)
    # 简单截取生成内容
    return prompt.split("请生成一个高考作文题目。")[-1].strip()

# 生成示例
print(generate_composition_prompt())

三、审题辅助模块设计

为了帮助学生快速理解作文题目，提取关键词和给出审题提示：

import jieba

def analyze_prompt(prompt):
    # 使用jieba分词提取关键词
    keywords = jieba.analyse.extract_tags(prompt, topK=5)
    # 简单生成审题提示（模板）
    hints = [
        f"关键词：{', '.join(keywords)}",
        "请结合关键词展开论述。",
        "注意审题，明确文章立意。",
        "合理规划文章结构：开头-正文-结尾。",
    ]
    return "\n".join(hints)

# 示例
prompt = generate_composition_prompt()
print("作文题目：", prompt)
print("审题提示：\n", analyze_prompt(prompt))

四、写作提示模块

基于作文题目，结合AI简要给出写作思路和提纲示范：

def generate_writing_guide(prompt):
    input_text = f"请针对以下作文题目，给出写作思路和提纲：\n{prompt}"
    inputs = tokenizer_gpt2.encode(input_text, return_tensors="pt")
    outputs = gpt2_model.generate(
        inputs, max_new_tokens=150, do_sample=True, top_p=0.9, temperature=0.7
    )
    guide = tokenizer_gpt2.decode(outputs[0], skip_special_tokens=True)
    return guide.split(prompt)[-1].strip()

# 示例
writing_guide = generate_writing_guide(prompt)
print("写作指导：\n", writing_guide)

五、前端交互示例（基于Streamlit）

import streamlit as st

st.title("AI高考作文写作助手")

theme = st.text_input("请输入作文主题", "科技发展")
style = st.selectbox("请选择文体", ["议论文", "记叙文", "说明文"])

if st.button("生成作文题"):
    prompt = generate_composition_prompt(theme, style)
    st.subheader("作文题目")
    st.write(prompt)

    st.subheader("审题提示")
    st.write(analyze_prompt(prompt))

    st.subheader("写作指导")
    st.write(generate_writing_guide(prompt))

    st.text_area("请输入你的作文", height=200)

六、未来扩展方向

作文自动评分：结合自然语言处理技术，自动给出作文评分
多模态写作辅助：结合图片、视频材料辅助写作
个性化写作推荐：根据学生历史写作数据推荐练习题
作文结构纠错与润色：辅助学生提升写作质量

🧩 小结

本节搭建了一个完整的AI辅助写作练习系统核心模块示范，帮助考生实现：

✅ 自动生成多样作文题 ✅ 提供关键词审题辅助 ✅ 给出写作思路与提纲指导 ✅ 前端交互界面快速原型实现

通过这样的智能工具，考生写作训练将更加高效且有针对性。

第八部分：未来展望与伦理思考——AI高考作文预测的机遇与挑战

“科技以人为本，智能服务应守护教育公平。” —— 教育技术专家感言

AI预测高考作文题，既是技术进步的象征，也带来了诸多深刻的伦理和社会问题。本节我们全面展望该技术的未来发展，并理性思考如何应对潜在风险。

一、技术未来展望

1. 多模态融合预测

未来的高考作文预测将结合文本、图片、视频等多模态信息，实现更精准、更具情境感的题目生成。例如：

# 多模态融合示例伪代码
text_embedding = text_model.encode(prompt_text)
image_embedding = image_model.encode(prompt_image)
fusion_embedding = fuse_embeddings(text_embedding, image_embedding)
generated_prompt = generation_model.generate(fusion_embedding)

2. 个性化题目推荐

基于考生过往写作数据和知识盲点，智能推荐定制化作文题，提高训练效率和针对性。

3. AI辅助批改与反馈

结合自然语言理解和生成技术，实现自动作文批改、错误指正与个性化反馈。

二、伦理与社会挑战

1. 教育公平性风险

AI预测工具若过度普及，可能导致资源不均，富裕地区学生获得更多辅助，拉大城乡、区域差距。

2. 学术诚信隐患

预测作文题可能被滥用为作弊工具，影响考试公正性。

3. 过度依赖与创造力抑制

长期依赖AI作文指导，可能削弱学生自主思考和创新能力。

4. 数据隐私与安全

考生写作数据和训练数据需要严格保护，防止泄露与滥用。

三、规范建议与对策

技术透明与开放：公开模型训练数据与算法，避免黑箱操作。
教育部门监管：制定合理的AI辅助写作指导规范和考试诚信规则。
普惠型技术推广：确保工具广泛覆盖，避免加剧教育不平等。
伦理审查与风险评估：对AI辅助系统进行定期伦理审查。
重视创新与思辨能力培养：辅以传统教学，避免机械化训练。

四、示例代码：基于阈值限制作文题生成频率（防止滥用）

import time

class PromptGenerator:
    def __init__(self, limit_per_hour=5):
        self.limit_per_hour = limit_per_hour
        self.user_requests = {}

    def can_generate(self, user_id):
        now = time.time()
        window_start = now - 3600
        if user_id not in self.user_requests:
            self.user_requests[user_id] = []
        # 清理过期请求
        self.user_requests[user_id] = [t for t in self.user_requests[user_id] if t > window_start]
        return len(self.user_requests[user_id]) < self.limit_per_hour

    def generate_prompt(self, user_id, theme):
        if self.can_generate(user_id):
            self.user_requests[user_id].append(time.time())
            return generate_composition_prompt(theme)
        else:
            return "请求过于频繁，请稍后再试。"

# 使用示例
gen = PromptGenerator()
print(gen.generate_prompt("student123", "环保"))

五、总结

AI预测高考作文技术正处于快速发展阶段，拥有极大潜力服务教育，但也必须严肃面对潜在伦理和社会风险。

未来，需要科技与教育协同发力，确保AI既是“助力考场”的好帮手，也是“守护公平”的坚实防线。

结束语

写作是思想的自由表达，高考作文更是每个学子展示自我风采的重要舞台。AI技术如能成为助推器，而非桎梏，未来的教育将更加开放、多元与公平。

AI预测高考作文？

第一部分：高考作文到底能不能被“预测”？

📖 人类的押题方法，其实就是“数据拟合”

📊 从数据的角度看，高考作文其实是有“套路”的

🧠 本文目标：打造一个“AI押题系统”

第二部分：数据收集——高考作文语料怎么爬？

📌 数据目标

一、找到靠谱的作文数据源

二、用Python写一个爬虫脚本

三、继续爬详情页，抓取正文内容

四、保存数据为结构化JSON文件

五、如何处理动态加载页面？用 Selenium

六、实用建议：建立自己的“高考作文数据库”

🧩 小结

第三部分：数据清洗与标注——让AI看懂作文题

📌 本节目标

一、用正则表达式提取作文题干与要求

二、用 jieba 分词提取主题关键词

三、构建主题分类标签体系（手动 + 半自动）

四、输出训练语料格式（JSON 标准结构）

五、扩展：自动构建标注数据的可视化界面（可选）

🧩 小结

第四部分：构建AI模型——用 GPT 微调预测“下一道作文题”

📌 本节目标

一、安装环境与依赖包

二、准备训练数据（文本形式）

三、加载预训练模型（GPT2为例）

四、加载并格式化数据集

五、配置训练参数并启动微调

六、模型生成效果：让 AI 胡诌一道作文题！

七、模型优化建议（如需部署或应用）

🧩 小结

第五部分：生成对抗训练——如何防止AI写出离谱作文题？

📌 本节目标

一、什么是“坏题”？我们要如何定义？

二、构建判别器模型（BERT 文本分类器）

1. 安装所需包

2. 预处理数据（人工标注数据集）

3. 加载 tokenizer 与模型

4. Tokenize 输入数据

三、训练判别器

四、联动生成器与判别器：自动生成 + 自动筛选

五、强化训练思路（可选）：对抗训练 / RLHF

六、可解释性增强：为什么说这是“好题”？

🧩 小结

第六部分：构建作文题趋势仪表盘——预测未来三年热门命题方向

📌 本节目标

一、准备数据：历史与生成混合语料

二、关键词提取：用TF-IDF + KeyBERT混合策略

方法一：传统 TF-IDF + jieba

方法二：KeyBERT（基于BERT嵌入）

三、统计年度热词分布（词频趋势图）

四、可视化一：词云图（WordCloud）

五、可视化二：关键词年度趋势折线图

六、构建交互式仪表盘（Streamlit 快速原型）

七、未来趋势预测（Top3 热词演绎）

🧩 小结

第七部分：作文辅助工具构建——为考生定制AI模拟写作练习系统

一、系统整体架构设计

二、题目生成示例代码

三、审题辅助模块设计

四、写作提示模块

五、前端交互示例（基于Streamlit）

六、未来扩展方向

🧩 小结

第八部分：未来展望与伦理思考——AI高考作文预测的机遇与挑战

一、技术未来展望

1. 多模态融合预测

2. 个性化题目推荐

3. AI辅助批改与反馈

二、伦理与社会挑战

1. 教育公平性风险

2. 学术诚信隐患

3. 过度依赖与创造力抑制

4. 数据隐私与安全

三、规范建议与对策

四、示例代码：基于阈值限制作文题生成频率（防止滥用）

五、总结

结束语

二、用 `jieba` 分词提取主题关键词