数据处理

文本分词

对评论文本进行分词和统计词频是自然语言处理中非常重要的一步,分词的质量直接影响到接下来所操作数据的质量。我们基于清洗后的文本,使用 jieba 分词工具对每条评论进行词语切分。
作为 Python 环境下的中文分词工具,jieba 分词器集成了停用词库,可将原本杂乱无章、缺乏明确结构的非结构化中文文本精准切分为具有语义完整性的词语单元,其在自然语言处理领域应用广泛,为后续的文本数据分析提供标准化的基础语料,确保分析过程能够基于标准化、规范化的基础语料顺利推进。
分词效果如下表所示:

原评论文本 经分词
呼和浩特生育三孩发万如果有补助拿你的生育意愿会提高吗 呼和浩特 生育 三孩发 补助 生育 意愿 提高
吃饭隔壁桌一直在聊育儿补习班我的妈呀给我干饭都干自闭了果然还是不要生小孩了 吃饭 隔壁 育儿 补习班 妈呀 干饭 自闭 不要 生小孩
妻子不愿继续生育离婚后获补偿万婚姻中生育责任需基于平等协商任何一方都不能强制 妻子 不愿 继续 生育 离婚 补偿 婚姻 生育 责任 基于 平等 协商 任何一方 不能 强制
生育不是人生的必选项而是每个人的自由选择每个人自己的生育意愿都应该被尊重 生育 不是 人生 选项 每个 自由选择 每个 生育 意愿 应该 尊重
现在补贴生娃的政策开始计划有了补贴你们愿意生二胎三胎吗 现在 补贴 生娃 政策 计划 补贴 愿意 生二胎 三胎

文本特征提取

处理后的词语序列为后续的词频统计与TF-IDF计算奠定了基础。TF-IDF是一种常用的文本特征提取方法,其核心思想是衡量一个词语在某一文本中出现的重要程度。TF表示词在当前语料中出现的频率;IDF表示词语在整个语料中的稀有程度。TF-IDF值越高,说明该词对文本的区分能力越强。我们通过Python手动实现了TF、IDF以及TF-IDF的计算过程。
为进一步识别评论文本中最具代表性的关键词,我们对计算所得的TF-IDF结果按权重值由高到低进行排序,并提取排名前十的高权重词语。结果如下表所示,高频关键词包括“政策”“补贴”“计划生育”“保险”“家庭”“人口”“实施”“支持”等。这些关键词集中体现了公众在生育话题中对于宏观政策、经济激励与社会保障的高度关注,反映了当前社会舆论围绕“生育价值”所聚焦的核心议题,具有较强的主题归属感与语义区分度。特别是“补贴”“保险”“支持”等词汇的高权重,进一步突出了民众对于育儿经济成本、政策引导作用以及国家支持机制的关注焦点。

词语 TF-IDF值
政策 0.07519808586039405
补贴 0.0684419384586193
计划生育 0.05414557815412688
保险 0.04997678597142944
家庭 0.04415393016914829
人口 0.03947289878119528
服务 0.033300645034093024
实施 0.030270569853447858
支持 0.026947809564017922

数据分析

情感模型准确率评估

支持向量机(SVM)和朴素贝叶斯(NBM)是两种常用于文本分类和情感分析的机器学习算法。它们各自有其优缺点,适用于不同的情况。在情感分析任务中,选择合适的算法取决于数据特征、模型性能和解释需求。

  • 如果需要高精度且数据量较大,SVM 可能是更好的选择。
  • 如果需要快速训练且解释能力好,NBM 更适合。
  • 在文本数据维度较高的情况下,SVM 通常表现更好。
  • 如果希望输出概率值,NBM 具有优势。
从训练的结果上来看,很明显支持向量机(SVM)的训练效果是好于朴素贝叶斯算法的,SVM模型会随着数据量的增大准确率也会增大,同时支持向量机(SVM)对原始数据判断更准确,因此我们采用支持向量机的方法来进行情感分析。

基于支持向量机 SVM 的文本情感分析

为进一步刻画公众在“生育价值观”议题下的情绪表达倾向,我们在完成数据清洗与分词的基础上,基于情感得分标签引入支持向量机(SVM)模型,对评论文本进行情感分类建模,并通过可视化手段展示情感得分的分布趋势。
首先,采用 SnowNLP 工具对每条评论文本进行情感分析,生成情感得分(范围为0至1),并据此划分情感类别:得分大于0.6标记为“积极”,小于0.4标记为“消极”,其余为“中性”。随后使用sklearn库将数据集划分为训练集与测试集,并基于 TfidfVectorizer 提取文本特征,构建线性核的 SVM 模型进行训练。在完成模型训练后,使用测试集数据对模型效果进行验证。
结果显示,SVM 模型在三分类任务中具备良好的分类精度,特别是在识别“积极情感”方面表现优越,模型整体 F1 值较高,说明其在“生育”相关舆情中的情绪判别任务中具有较强适用性。SVM 模型在测试集上的分类准确率为 85.2%,在积极类别上的 F1 值达 0.87,说明模型在情绪识别中的鲁棒性良好。下表展示了两平台情绪分布比较:

平台 积极情绪 中性情绪 消极情绪 密度峰值区间
微博 约 73% 约 12% 约 15% 0.90 附近
央视网 约 65% 约 28% 约 7% 0.75 附近
  • 微博评论情感分析
微博评论情感分析
  • 央视评论情感分析
央视评论情感分析

在情绪柱状分布图中可以看出,微博评论中积极情感占比显著,超过70%,而消极情绪评论所占比例相对较高,接近15%。相比之下,央视评论中“积极评论”比例略低于微博,但“中性评论”明显增多,积极评论约占65%,中性评论升至28%,消极评论降至约7%。可见,央视平台上的用户情绪表达更趋于理性、克制,少有极端观点出现。微博平台情绪表达更为直接和极化,而央视评论更趋理性与中性。

综合分析

为更直观分析公众对“生育”议题的情感分布趋势,我们绘制了评论情感得分的散点图与密度分布图,如下图所示。

  • 微博评论情感得分散点图
微博评论情感得分散点图
  • 央视评论情感得分散点图
央视评论情感得分散点图
  • 微博评论情感得分密度图
微博评论情感得分密度图
  • 央视评论情感得分密度图
央视评论情感得分密度图

从散点图可以看出,微博评论中的积极情绪分布密度更高,得分大多集中在 0.8-1.0 区间内,形成明显的红色聚集区域。中性情绪点主要分布在0.5附近,反映出一部分用户持政策观望态度或中性陈述。消极评论在微博中也具有一定分布密度,主要集中于“生育焦虑”“职场压力”等议题。而在央视散点图中,评论整体分布更加均匀,中性评论点相对密集,消极情绪点较少,红色点虽分布广但聚类程度不如微博明显。
密度分布图进一步反映了上述差异。微博情感得分密度在0.9附近达到峰值,说明大量评论情绪正面,带有鼓励、赞同的倾向。而央视评论的密度曲线更加平缓,密度高点集中在0.7-0.8之间,反映了用户表达中等情感倾向较为普遍,体现出理性讨论主导的评论氛围。

总结

综上所述,通过对微博与央视评论的情绪得分分布趋势对比,可以发现两者均以积极情感为主,但微博评论具有更强烈的情绪表达特征,积极与消极评论之间差异显著;而央视评论则更倾向于中性和理性表达,平台差异在舆论生成机制和用户群体特征方面表现出显著影响。这种对比不仅揭示了平台舆情生态的异构性,也为情绪识别模型的泛化与适应性提供了实证支持。

基于 LDA 主题模型优化分析

LDA是一种无监督学习的概率主题模型,用于从大量文档集合中发现隐含的主题结构。为了能更进一步地挖掘舆情关于生育意愿的讨论聚焦点,在词云图可视化分析的基础上,我们本文更进一步地对数据进行LDA主题分析,实现对关键信息更加准确的挖掘。

微博生育话题评论LDA主题建模求解

下面对生育舆情进行LDA主题分析:

  • 生育舆情LDA最优主题数3的可视化展示
生育舆情LDA最优主题数3的可视化展示

如上图所示的LDAvis可视化界面中:左侧区域的每个圆形节点对应划分的不同主题,主题之间的界限划分越明晰,节点间距越远表明主题间差异越大,意味着模型的整体表现越好。圆形节点大小反映主题在语料中的概率权重。右侧区域展示对应主题下的前三十个高频词。

序号 主题1 主题2 主题3
1 消费 孩子 生育
2 补贴 生育 人口
3 生育 家庭 孩子
4 政策 补贴 离婚
5 育儿 女性 出生
6 服务 育儿 广东
7 支持 生活 万人
8 提振 结婚 奖励
9 发展 工作 儿子
10 方案 生育率 生娃
11 市场 父母 社区
12 家庭 经济 经济
13 经济 婚姻 女性
14 健康 妈妈 意愿
15 发放 成本 子宫

上表为关于生育舆情的LDA主题提取结果,主题数为3,每个主题保留了15个频率较高的词语。
主题一的特征词反映了舆论对生育政策与经济支持等措施的关注,其中出现了“消费”“补贴”“政策”“支持”等核心关键词。该主题聚焦于政府或社会层面针对生育的政策设计与经济支持手段,讨论核心是通过政策(如生育相关消费补贴、生育福利等)提高对生育的经济支持,同时完善生育配套支持措施,对生育意愿提升起积极作用。
主题二的特征词聚焦于女性生育成本,关键词有“家庭”“女性”“工作”“经济”,核心是揭示女性生育需要承担的独特成本,涉及经济支出、职业发展、家庭角色责任等多重维度,反映出社会对女性在生育过程中面临的经济压力、职业发展障碍等问题的关注。
主题三的特征词反映了舆论对婚姻政策的关注,其中出现了“孩子”“离婚”“意愿”等关键词。当离婚程序复杂时,个体可能因对婚姻风险的担忧而推迟结婚,甚至放弃婚姻,形成“离婚难→结婚率低→生育意愿下降”的传导链条。关键词“人口”则体现了这一传导机制的宏观结果,凸显婚姻政策对生育意愿的重要影响。

央视网生育话题LDA主题建模求解

在完成对生育舆情的LDA主题模型构建基础上,同样对央视网关于生育的报道进行LDA主题分析:

  • 央视网报道LDA最优主题数5的可视化展示
央视网报道LDA最优主题数5的可视化展示

在建立LDA主题模型之后,我们把每个主题对应的前15个频率较高的词语汇聚成表格,方便对每个主题进行逐一分析。表格如下:

序号 主题1 主题2 主题3 主题4 主题5
1 生育 生育 生育 生育 生育
2 补贴 政策 补贴 生育率 政策
3 计划生育 人口 家庭 政策 服务
4 家庭 计划生育 育儿 人口 补贴
5 待遇 实施 住房 计划生育 支持
6 津贴 发展 发放 总和 制度
7 政策 调整 二孩 下降 完善
8 子女 孩子 国家 女性 建立
9 人口 完善 三孩 补贴 家庭
10 职工 补贴 企业 国家 教育
11 医疗 措施 基数 水平 养育
12 参保 优化 给予 显示 体系
13 发放 长期 产假 出台 保障
14 费用 均衡 公积金 出生 育儿
15 享受 二孩 政策 时间 措施

主题一聚焦于“生育”“补贴”“政策”“家庭”等,反映出政府对生育领域经济支持的高度关注。政府可以通过提高生育补贴、育儿津贴等经济手段,减轻家庭生育经济负担,缓解当下家庭生育养育成本过重的难题。
主题二的关键词包括“人口”“调整”“优化”“均衡”等,体现出政府致力于实现人口长期均衡发展的战略导向,力求推动生育政策与经济社会发展相互适配,进而优化人口结构,达成人口长期均衡发展的战略目标。
主题三包含“住房”“企业”“产假”“公积金”等关键词,反映出政府通过实施购房或租房补贴,引导企业落实产假制度,推动生育政策与住房保障等民生领域的深度衔接,提升家庭生育意愿与养育能力。
主题四聚焦于特征词“生育率”“总和”“下降”“水平”等,体现了政府对低生育率问题、低生育意愿现状的重点关注。
主题五涵盖了“完善”“教育”“保障”“育儿”等,体现政府着力破解“育孩难、教育贵”的痛点问题,旨在减轻家庭养育过程中的教育成本与精力负担,从而减轻教育成本对生育意愿的抑制作用。

总结

综上所述,对于LDA主题模型的分析结果可以得出以下结论:
(1) 公众舆情聚焦生育个体痛点:讨论围绕生育政策的经济支持(如补贴、配套服务)、女性生育面临的多维成本(如职业发展等),以及婚姻政策对生育意愿的传导影响,反映出个体对生育成本分担、性别权益保障及制度便利性的高度关注。
(2) 央视网报道体现政府宏观战略导向:政府以“人口长期均衡发展”为核心,通过完善生育补贴制度、推动政策与住房、教育、医疗等民生领域紧密衔接,致力于解决低生育率问题,侧重于通过政策调整与制度创新对提升生育意愿的顶层设计作用。
总而言之,未来政策的制定需要进一步与解决个体痛点问题形成协同,通过精准制定政策、落实政策、完善社会支持体系与相关保障制度等,实现提升社会生育意愿的最终目标。