近年来,利用大语言模型(LLM)的困惑度(Perplexity, PPL)作为文学风格量化指标的研究逐渐兴起。既往研究指出,在晚清“同光体”诗歌中,高困惑度往往对应着极高的艺术评价,体现了该流派“生涩奥衍”的审美追求。本文以《花间集》为研究对象,结合明代文学家汤显祖的评点数据,引入自回归(Causal LM)与掩码语言模型(Masked LM)两种计算范式提取语义与风格特征。研究发现,婉约派词作呈现出与“同光体”截然相反的评估特征:受名家偏好的词作,其困惑度与评价呈强负相关(系数达 -0.83)。这一发现揭示了婉约词“文从字顺、辞采丰赡、拒绝生僻”的审美特质,证明在计算美学领域,不同文学流派需采用差异化的量化评估范式。
大语言模型在自然语言处理领域的突破,为计算诗学提供了新的量化工具。困惑度(PPL)作为衡量语言模型预测下一个词难度的核心指标,能够有效反映文本的“陌生化”或“生僻度”。
在近期的相关研究(如 arXiv:2409.00060)中,研究者指出“同光体”诗歌的平均 PPL 显著高于普通诗歌。在该流派语境下,高 PPL 往往对应着专家的“佳作”标注,这与其极度推崇“学人之诗”、追求用典僻涩的艺术张力高度吻合。然而,中国古典诗词流派众多。本文旨在探讨以《花间集》为代表的“婉约派”词作,其审美评价(以汤显祖评点为基准)与大模型特征之间是否存在不同的量化规律。
为了全面捕捉古文的语义与风格特征,并验证结论的鲁棒性,本研究构建了基于双重范式的特征提取与评估流程:
graph TD
A[《花间集》词作语料] --> B(特征提取引擎)
subgraph 语言模型特征范式
B --> C1[自回归模型 Causal LM: GPT-2]
C1 -->|Next-token likelihood| D1(AR-PPL: 跨域敏感度)
B --> C2[掩码模型 Masked LM: Ancient BERT]
C2 -->|Masked pseudo-likelihood| D2(MLM-PPPL: 句法通顺度)
end
subgraph 风格统计学特征
B --> E[词汇统计分析]
E --> F(TTR: 词汇丰富度)
E --> G(Hapax: 生僻字占比)
end
D1 -.-> H{审美偏好与特征相关性分析}
D2 -.-> H
F -.-> H
G -.-> H
H -->|对比发现| I[同光体范式: 追求高PPL, 陌生化]
H -->|本研结论| J[婉约派范式: 追求低PPL, 典型化共鸣]
本研究提取了《花间集》中带有汤显祖明确评注的 193 首词作作为正样本(偏好集),以及 312 首无评注的词作作为负样本(对照集),共计 505 首样本,以此构建审美偏好信号。
通过对上述特征进行相关性分析与分类建模,我们观测到了与“同光体”研究截然相反的数据分布特征。
实验数据显示,汤显祖对婉约词的偏好与量化特征呈现出高度一致的逻辑性,概括为:“文从字顺,辞采丰赡,拒绝生僻”。
为验证结论不依赖于单一模型架构,我们在 GPT-2 自回归范式下进行了正交实验:
本研究提出的“反向评估特征”揭示了中国古典诗词两种截然不同的审美机制:
需要指出的是,困惑度的绝对数值高度依赖于预训练语料的分布。在专门针对诗词微调的模型(如 MOSS 诗词版)中,PPL 通常处于极低个位数;而在本研究使用的广泛古文/古汉语预训练模型中,PPL 通常处于百级区间。然而,尽管绝对数值存在量级差异,作为衡量文本“生僻度”的相对指标,困惑度在表征流派风格特征上的相对趋势依然稳健。
本文通过计算美学的方法,验证了在《花间集》及汤显祖评点体系下存在的“PPL 反向评估特征”。双重语言模型架构的实验表明,婉约派词作的艺术偏好与大模型困惑度呈现强负相关。这一发现修正了“文学性等于不可预测性”的单一技术视角,提示在利用人工智能进行文学评估时,必须针对不同流派风格(追求“惊奇”抑或“流畅中的繁复”)建立差异化的量化评估范式。
本文将“有无评注”作为偏好信号,未细分评注的显式情感极性(褒/贬)。此外,研究结果暂局限于《花间集》体系,未来可引入词牌、篇幅等变量进行更精细的回归控制,并扩展至其他流派词集以检验外部有效性。
[1] Zhao, C., Wang, B., & Wang, Z. (2024). Understanding Literary Texts by LLMs: A Case Study of Ancient Chinese Poetry. arXiv preprint arXiv:2409.00060. [2] 汤显祖. (明). 《玉茗堂评花间集》. [3] Devlin, J., Chang, M. W., Lee, K., & Toutanova, K. (2018). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. arXiv preprint arXiv:1810.04805. [4] Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., & Sutskever, I. (2019). Language Models are Unsupervised Multitask Learners. OpenAI blog, 1(8), 9. [5] Jihuai. (2023). bert-ancient-chinese. Hugging Face. Retrieved from https://huggingface.co/Jihuai/bert-ancient-chinese [6] Zhao, Z. et al. (2019). UER: An Open-Source Toolkit for Pre-training Models. EMNLP-IJCNLP 2019. (uer/gpt2-chinese-ancient & uer/gpt2-chinese-poem)