数据获取及预处理

为全面分析当前公众对“生育价值观”的多元态度与情绪表达,我们综合采集了社交媒体平台与权威新闻平台中舆情讨论、官媒报道等文本数据。

数据来源

主要数据来源包括:
(1) 微博平台用户讨论:以“生育焦虑”“不想生”“三孩政策”等关键词为核心,采集用户发布的评论、动态、转发等文本内容,数据总量超过3000条,内容较为口语化,反映公众真实表达;
(2) 央视网报道内容:采集央视网平台关于“人口政策”“生育观念”等话题的官方报道,共计900余条,内容权威正式,可作为社会主流意见的参考。
本研究借助八爪鱼采集器对数据进行获取。八爪鱼采集器是一款热门的数据获取工具,其通过模拟用户浏览网页的操作逻辑,借助可视化的页面交互方式生成自动化的数据抓取流程。最终获取的数据可灵活存储于Excel表格等多种载体,为后续的数据分析提供高效的数据支撑。以下是八爪鱼采集器爬取的核心关键词:
采集器获取相关内容
爬取到的文本数据示例如下:
爬虫采集到的部分数据展示
通过爬虫采集到的文本数据属于非结构化文本,包含多种无效、冗余信息,直接用于建模分析不仅会降低模型性能,还可能带来数据偏差。因此,在正式提取文本特征之前,需对原始数据进行系统化的清洗与标准化处理。

数据预处理

结合数据特点,我们主要采取如下处理措施:
(1)去除特殊字符和标点符号:部分评论中夹杂有大量emoji表情符号、网址链接、英文字符以及无意义的标点,这些信息本身不具有分析价值,对这些符号分析反而会影响处理时间及整体质量甚至会干扰文本切分与模型训练,因此,通过统一删除文本数据中的特殊字符等符号,仅保留中文字符,提升文本的纯净度。
(2)清除空行、空字符串等:这类无意义的文本数据不含有效语义信息,直接对这些文本数据进行语义信息处理则会降低整体质量,造成一些不必要的消极后果。若直接输入分析模型,可能对整体准确率与表达效果造成负面影响,故需对这类的非结构化信息进行过滤操作,直接删除空信息以及无意义的评论信息,提高非结构化文本的语义信息含量。
(3)剔除停用词:在保留中文字符后,进一步识别并去除无实际语义贡献的停用词。这类词汇虽语法上常见,但对情感分析、主题提取等任务无实质帮助,剔除后可减少冗余信息,使文本核心语义更突出,降低无效数据对模型训练与分析的干扰,提升整体处理效率与精度。
在进行上述处理后,通过词频计算查看清洗效果。这些词汇在一定程度上体现了当下公众在生育议题上的关注焦点,为后续LDA主题建模提供了扎实语料支撑。下图展示了关于生育舆情的前20个话题高频讨论热词:
生育舆情前20个高频讨论热词

基于词云图可视化分析

词云图是一种直观的数据可视化工具,能够展示在电影评论中出现频率较高 的词语。在词云图中,词语的大小和字体颜色通常与其在评论中的出现频率相关联,频率越高的词语在图中就越大、越显眼。因此,词云图能够生动地呈现出受关注程度较高的主题或关键词,同时反映了大多数人对于生育话题的情感评价。

  • 微博生育舆情词云图
微博生育舆情词云图 通过对微博平台3000余条评论进行分词与停用词过滤后绘制的词云图显示,“孩子”“育儿”“问题”“生活”“女性”“婚姻”“压力”“成本”等词汇出现频率显著。这些关键词集中反映了用户对生育政策的感知与现实考量,负面词如“焦虑”“压力”频繁出现,说明生育成本、职场不平等等问题是舆论表达中的核心关注点。
  • 央视网生育话题词云图
央视网生育话题词云图

相较微博,央视评论词云图中出现频率较高的词包括“政策”“补贴”“服务”“规定”“保险”“国家”“家庭”等,整体用词更为宏观与官方。这说明央视平台评论中用户更关注政策方向与国家发展层面,对“三孩”“育儿补贴”等话题关注度高,但缺少“情绪性”词汇,反映出理性、理智的舆论风格。
从两张词云图可以看出,微博评论更富有个人情绪与现实困境表达,反映个体视角;而央视评论更偏向政策语言和宏观叙述,代表官方舆论引导或社会认同。微博户多关注“职场影响”“成本负担”等具体压力,而央视评论中“支持”“家庭”“国家”词频居前,显示出更高层级的舆论氛围。词云图不仅帮助我们快速识别公众关注的主题词,更可作为后续情绪建模和主题提取(LDA)工作的语义基础,为深入探究公众“生育价值观”的情绪结构和议题偏好提供可视化支持。

网站信息
本站访客数 :
本站总浏览量 :
最后更新时间 :