当前位置:网站首页 > 编程语言 > 正文

lda主题模型分析文本(基于lda模型的文本主题分析)



本文发表于《广告大观(理论版)》2020年第三期6月号,总第647期。

摘 要

新型冠状病毒在世界范围内引发了一场大流行的公共健康危机,媒体的新闻框架被认为是有意识地建构社会现实和塑造公众认知的行为,其在新闻生产和信息传播过程中扮演了重要角色。以往关于流行病的新闻框架研究主要通过内容分析法进行纵向比较研究,缺少对海量新闻文本数据的分析。本文作为一项探索性研究,采用LDA主题模型分析法对《纽约时报》和《卫报》的新冠疫情新闻报道进行横向比较。研究揭示了两者在媒体框架选择上的区别,勾勒出西方主流媒体的报道重点,有助于深入理解大众媒体的新闻框架是如何在大流行时期建构公众对流行病及其影响的认知。

关键词LDA主题模型 框架分析 计算传播学 公共健康 文本挖掘

一、引 言

2020年3月11日,世界卫生组织将新冠疫情定性为全球性大流行(pandemic),新冠病毒(COVID-19)已在全世界范围内超过150个国家和地区扩散。流感是全球最大的公共健康挑战之一,全球每年都会爆发季节性流感(influenza),大约每年有10亿起流感病例,[1]但是在全球跨国蔓延的、产生巨大冲击的、被世卫组织定性为大规模流行性疾病(简称大流行,pandemic)的流感相对罕见。在流行病爆发期间,媒体在社会中起着传递信息、建构认知、引导舆论、粉碎谣言等多重作用,媒体将一个机械的公共空间融合进了私人领域,媒体的新闻报道正在建构个体对社会现实的认知,因此研究大流行期间的新闻生产内容有助于我们理解大众媒体是如何通过新闻框架建构人们对流行病及其影响的认知。以往一些关于流行病的新闻框架研究主要采用纵向比较研究的方式,[2]大多数使用的是内容分析法。而网络时代的新闻文本数量呈现出指数级增长的趋势,仅使用人工编码的方法不足以满足研究者对大批量文本分析的需求。图灵奖得主吉姆.格雷(Jim Gray)曾提出数据革命将会推动科学研究向“第四范式”(the forth paradigm)转移,即转向数据密集型科学,未来的许多科学方法将主要基于海量的数据收集、管理和分析。[3]随着文本挖掘算法的优化和计算传播学的发展,许多可用于社会科学研究领域的文本分析方法也不断涌现,潜在狄利克雷分布法(Latent Dirichlet Allocation, LDA)就是当前广泛使用的主题模型方法之一。因此,本文尝试基于框架理论视角,对流行病新闻报道进行横向比较,通过数据驱动的方式实现对大批量新冠疫情的新闻内容进行LDA主题模型分析,以填补相关研究领域的空缺。

本文以美国的《纽约时报》和英国《卫报》作为西方主流媒体的代表,因为两者都是具有影响力的媒体,常常能为其他新闻媒体设置议程。[4]《纽约时报》是美国严肃刊物的代表,在美国乃至全世界都有相当高的影响力。当纽约时报增加了对某一特定话题的报道时,美国的其他大多数媒体也会随之增加相应的话题与报道。[5]而《卫报》是欧洲最具影响力的媒体之一,主要报道国际新闻,被认为是偏向左翼自由民主的媒体.[6]

本文的研究贡献主要有三方面,首先,这是一项探索性研究,利用LDA主题模型分析法对《纽约时报》和《卫报》的新冠疫情新闻报道进行横向比较,分析两者在新闻框架选择上的异同,同时简单地勾勒出西方主流媒体的报道重点。其次,文章比较了新冠疫情新闻报道框架与以往的流行病新闻框架的区别和联系。不少学者提出由于当前人文社科运用主题模型时存在的主要问题是缺少对模型的理论阐释,导致主题模型分析结果只能流于表面。[7]因此,本文的第三个研究贡献是尝试对主题模型结果进行深入探讨并分析模型背后的框架意义。

二、文献回顾与研究问题

(一)新闻传播领域的框架分析

戈夫曼(Goffman)提出的“框架分析”为理解如何建构社会现实提供了一种新的研究视角,[8]基于对戈夫曼“框架分析”的理解,潘忠党提出“‘架构分析’就是一个关于人们在建构社会现实过程中如何交往的研究领域”。[9]以拟剧论为基础的框架分析指出不同的场景、语境下的框架,会以不同方式进行诠释,以至于“任何一种框架都为我们提供了某种理解、思路或视角,形成了‘诠释的基模’(schemata of interpretation)”。[10]框架理论起源于社会学,但受到新闻传播学领域学者的青睐,因为它能够较好地解释新闻生产过程。[11]“在传播学研究领域,框架分析被发展成为一种研究新闻文本的方法。”[12]陈阳对现有的传播学视域下的框架分析进行总结,主要分为三大类,分别是新闻生产、媒体内容和媒体传播效果。[13]黄旦在《做新闻》的导言中强调,“框架分析”相比于其他社会科学研究路径更能揭示新闻生产的内在逻辑和本质特征。[14]

新闻框架的选择是有意识地建构社会现实的行为。吉特林认为框架是“选择(selection)、强调(emphasis) 和表达(presentation) 的原则”,[15] 恩特曼(Entman)强调框架包含了选择和凸显两个作用,具体而言,就是选择性地呈现所感知到的现实中的某些方面,并使其在语境中凸显,以此来达到基于此框架定义问题、进行因果解释或者道德评价的目的。[16] 因而,“媒体并不是像镜子那样被动地反映着客观世界”,媒体的报道具有选择性,常常是强调某一个话题,而对其他话题只字不提。[17]比如《纽约时报》和《卫报》在报道关于隐私问题的新闻时,他们经常会调用偏见框架,有倾向性地选择了负面报道框架来进行新闻叙事。[18]吉特林曾对大众传播的内容生产过程发出诘问,媒体在选择框架时的依据是什么?在框架的选择上是否有模式可循?[19]在结构功能主义看来,框架选择的逻辑是出于社会结构的考量,在稳定的社会结构中有一套人们遵循的社会准则,这些社会准则包含了选择的暗示。“新闻生产本来就没有打算忤逆现有的社会一般价值,相反,是顺从原有的价值观念,并以此为基础设定自己的种种做法。每天所生产出来的新闻,必然是对社会秩序、价值及其现状合法性的再一次确认。”[20]新闻框架是在社会结构和社会准则约束下的一种意识表达,即社会结构决定了新闻选择报道什么,反映哪些社会真实等。[21]而塔奇曼(Tuchman)从解释学的视角来解读新闻框架,他认为“新闻是人们了解世界的窗口。……但是,跟任何用以描绘世界的框架一样,新闻这个框架本身也有自己的问题。窗口展示的视野取决于窗口的大小、窗格的多少、窗玻璃的明暗以及窗户朝向是迎着街面还是对着后院。”[22]塔奇曼以窗户作为隐喻来解释新闻是如何在生产过程中受新闻框架的制约来建构社会现实的,他在探讨妇女运动的新闻报道时指出新闻在赋予某一事件意义时,其实是在定义与再定义、建构和再建构社会现象。[23]我们在这里不去深入探讨对新闻框架的解读究竟应该基于结构功能主义的立场还是解释社会学的立场,我们想要强调的是新闻框架是新闻生产过程中具有结构意义的存在,同时新闻框架试图通过选择性的新闻报道来为大众建构事件的社会意义,由此也可能影响大众诠释被建构出来的社会现实的方式。

因而,新闻不是社会的镜子,媒体框架与权力有着千丝万缕的关系。新闻框架一方面通过媒体的叙事话语来建构社会现象和社会意义,另一方面媒体在社会体系中很难保持完全的独立性。吉特林利用葛兰西的霸权理论来理解媒体报道框架的变化过程和媒体—运动之间的关系。此外,“加姆森曾经指出了框架概念和葛兰西的霸权概念的相似之处。这两个概念都关注内在的、隐含的、自然化的思维习惯和行为模式,并且启发学者们研究媒体如何以框架的方式来定义社会事件、从而维持主导型霸权。”[24]基于此,许多媒介社会学家的研究旨在揭示新闻与权力之间的关系。媒体就像是工厂,“新闻”实际上是在组织和社会情境中的流水线上“生产”出的内容。因此,在这样一个话语生产空间中,决定新闻生产的根本力量不在于撰稿记者个人态度和立场,而是取决于他们所在的社会和组织环境。[25]在韦斯特利-麦克莱恩的传播模式中也暗示了鼓吹者(A)和传播渠道(C)之间日益紧张的冲突状态,即一方面由于大众媒介作为一种政治传播的工具的重要性在不断增加,另一方面公众又要求大众媒介不应该只是作为政治信息传递的信道,还应该成为“代表公众利益的批评、监督和指导的来源”,这两种不断扩大的内部张力造成了A与C之间的矛盾与冲突关系,同时A与C之间还存在政治关系。[26]李金铨也认为“媒介在时间上和空间上都得依附于(不是听命于)权力结构,其长远的宏观效果则是支持既有秩序。”[27]所以,不难想象,当现实事件呈现多维度的可解释性时,新闻记者在叙事时往往是以新闻组织的经济利益和政治兴趣为基础的[28],因为 “作为文化工业的媒介,通常由大公司的成员或政界精英,以及他们想极力纳入自己社交圈子和思想形态范畴的个人所控制”。[29]基于此,有学者认为大众媒体在历史事件中并不是最好的历史记录者,因为给公众记忆带来最大威胁的来源可能是官方的新闻报道。[30]塔奇曼曾悲观地认为“作为意识形态的新闻,通过限制对观点的接触,阻止对当今社会真相的探寻,最终使言论自由、公众统治的启蒙主义模式难以实现。”[31]

基于上述学者的观点,我们不难看出新闻框架与权力的关系是相互交织着的,同时随着媒体独立性的削弱,其新闻框架选择也会暗含立场特征。这既是因为“霸权”为新闻报道制定了标准假定,即为新闻工作者的报道设置了固定的模式,包括报道主题和报道框架等。[32]另一方面,新闻媒体凭借其塑造社会意识形态的能力能够帮助权力主体的行为进行合法性辩护站在上述的逻辑起点,显而易见,新闻框架是扎根于其所在的社会组织之中的,选取的新闻事件视角也是深受其所属社会组织的意识形态观念所影响。鉴于此,本文提出以下研究问题:

研究问题1:《纽约时报》和《卫报》在报道新冠疫情时的新闻框架和主题是否存在差异?

(二)流行病新闻报道的框架研究

新闻报道对于突发性公共事件在群体中的传播有着重大意义。当高传染率或高死亡率的流行病爆发时,人们会密切关注与流行病有关的新闻报道来及时获取相关信息。[33][34]每逢有新的流感在全世界蔓延时,研究人员通常会回顾和追溯过往几次严重流行病时期的相关事件和记录,从纵向比较视角来获得启发。框架理论为深入分析关于流行病的新闻报道提供了一个有益的理论视角,流行病新闻框架实际上是在特定语境下产生的新闻主题。因而,在讨论现有的流行病新闻报道框架研究前,我们想先谈谈媒体框架与语境的关系。加芬克尔曾提出了两个概念,自反性”(reflexivity)和“指称性”(indexicality),它们被塔奇曼用于解释人们如何把对生活世界的叙述理解为新闻报道。自反性和指称性都强调所谓现象的语境嵌入,“自反性指的是,叙述被嵌入其自身所刻画、记录和构成的现实之中。”[35]在塔奇曼看来,新闻对于现实的构建必须依托于语境,通过对事实叙事来赋予新闻以现实意义。“指称性则指,社会行动者在运用叙事时(比如使用术语、话语、故事),可能赋予这些叙事各种与其所产生的语境无关的意义”。[36]当行动者在新闻报道时以某些关键词或特征代指过往发生的故事时,使用的就是指称性表达。[37]塔奇曼认为“自反性和指称性是事件转化为新闻事件的完整构成因素,它们构成了新闻的公共性特征。”[38]就流行病的报道而言,我们能看到“自反性”和“指称性”同时应用在新闻生产中。流行病带来的影响波及面较广会涉及到诸多方面的事实,但是媒体通常只会在特定语境下选取他们想要对外披露的内容进行报道,从而帮助公众形成对大流行的认知和定义。而在新闻叙事过程中,很容易提及过往流行病,如提及1918年西班牙流感的情形来指代流感的社会影响,这是典型地使用指称性来对事件意义进行解释的框架。

诸多关于流感时期的新闻框架研究为我们研究新冠疫情的新闻主题提供了很多借鉴意义。Blakely分析了美国历史上三次大流行病(1918年西班牙流感、1957年亚洲流感和1968年香港流感)期间《纽约时报》的新闻框架是如何随着时间的迁移而变化的,同时研究发现科学的普及正在改变疾病在美国新闻框架中的社会含义。[39]早期瘟疫和流行病不仅被看作是群体的遭难,还被认为是一种惩罚,[40]虽然有研究显示“1866年,关于流行病的新闻报道开始出现由宗教信仰向基于科学事实转变的趋势。”[41]但1918年前后,一些虔诚的宗教群体仍认为西班牙流感是上帝对人类罪恶本性的惩罚,因为人类发动了“一战”。[42]在健康科学未被普及的“蒙昧时代”,对疾病的误解还容易引起群体间的歧视问题。新闻中常常隐晦地表达诸如个人和文化偏见,追求轰动效应,医学突破等叙事倾向以及隐喻手法。[43]桑塔格(Susan Sontag) 在《疾病的隐喻》文章中分析了社会是如何将疾病隐喻化的,并将疾病“转换成一种道德评判或者政治态度”。[44]在流行病相关的新闻报道中,流行病的隐喻有多种变体,如战争、责备、种族歧视、长生不老(immortality)以及政府权力等。[45]桑塔格还提到“对瘟疫的描述通常有一个特点,即瘟疫一律来自他处。……梅毒,对于英国人来说,是“法国花柳病”,对巴黎人来说,是“日耳曼病”;……在对疾病的想象和对异邦的想象之间存在着某种联系,即不合时宜地把邪恶与非我(non-us)、异族等同起来。污染者总是邪恶的。”[46]以1918年西班牙流感为例,受种族刻板印象的影响,伦敦的《泰晤士报》最初也将西班牙流感描述为一种外来疾病。[47]许多媒体在报道抗击疾病的新闻时,使用了诸如“战斗、战役”在内的战争隐喻。[48][49]因而,隐喻是流行病在新闻报道中作为媒体传达意象的重要依托。

Spratt考察了危机和不确定时期,发现在医疗与健康新闻中,媒介对现实的构建对个人和群体的影响尤为深刻,新闻报道可能会强化现有的社会权力结构。[50]Hume对1918年至1920年美国杂志上刊登的有关1918年流感的文章进行了研究。研究发现,流感的相关文章数量呈逐年下降趋势。同时,杂志对流感的相关报道往往为了符合当前的美国利益,具有明显的选择性。[51]在较长的一段流感时期内,报道主题可以划分为三个阶段,第一阶段美国杂志普遍报道的是流感的严重程度、传染方式和危害性,但该类型的报道引起了较大的社会恐慌和焦虑;因此,第二阶段新闻报道主题开始转向以安抚公众情绪、缓解公众焦虑以及讨论如何减少病毒传播方式为主;第三阶段新闻报道强调西班牙流感的非特殊性,并一再警告读者过度焦虑的情绪会降低个体对疾病的抵抗力。[52]Luther和 Zhou针对非典时期的中国和美国的主流新闻报道,分析了中美之间使用的新闻框架,主要包括经济后果(economic consequences)、责任归属、冲突、领导力和个人利益(human-interest)五类新闻框架。[53]其中经济后果框架是新闻框架中非常常见的,强调了事件、问题对个人、群体、机构或国家在经济方面的影响。[54]责任框架则是指把造成某一事件的原因和结果的责任归咎于政府、个人或群体。当1918年的西班牙流感迅速蔓延后,指责框架便成为新闻报道中的主导框架。指责对象也层出不穷,从士兵营养不良、气候寒冷、德国人的饮食问题、到美国的医疗资源不足和政府当局的反应迟缓等。[55]

(三) LDA主题模型在新闻研究中的应用

新闻报道的主题是新闻的灵魂,主题分析也被认为是新闻文本研究的重要视角之一。[56]在传统的大众传播研究中,对新闻主题的分析主要是应用定量研究中的内容分析法,[57]研究人员需要建立细致的编码表以及通过对编码员的训练来实现新闻主题分类的目标。[58]然而,基于内容分析法的新闻框架编码的信效度结果很大程度上取决于研究者和编码员对文章的主观认知和理解的一致性。同时,由于训练编码员是内容分析法中的重点环节,复杂的框架类目表有时需要通过多次训练编码员才能达到内部一致性(reliability)的检验标准,因此总体来看,人工编码虽然比较精细,但总体而言是一个耗时长、费用支出高的方式,[59][60]这极大地限制了网络时代对大规模新闻文档数据进行框架分析的可能性。[61]在传播学研究领域,很早就开始引入计算机辅助内容分析(computer-assisted text analysis)的方法,早期用于框架分析的计算机辅助技术普遍采用的是基于词典的文本分析(dictionary-based text analysis),这种方法的缺点在于仍然需要研究者先对字符串(character strings) 和组合规则进行主观定义,而后才能开始对文本进行内容分类。[62][63]近些年,有监督的机器学习(supervised machine learning, SML)[64]和无监督的机器学习(unsupervised machine learning) 的发展为自动化内容分析(automated content analysis)赋予了更多的算法支持。[65]比如Burscher 等人利用有监督式机器学习(SML)的算法建立一个自动分类器,对四种类型的新闻框架进行编码,结果发现教计算机直接对框架进行编码(holistic frame coding) 的效果比教计算机基于指标问题来进行框架编码(indicator-based frame coding)的效果更好。[66]而无监督式机器学习应用在文本分析中则可以减少人工标记的步骤和主观偏见带来的编码误差。

LDA模型是目前应用最广泛的无监督学习的主题模型,它于2003年由 David Blei, Andrew Ng和 Michael I. Jordan提出,LDA是三级分层贝叶斯模型(文档、主题和词三个层次),能够根据上下文进行文本建模,从文档中提炼主题模型,并通过词汇的概率分布来反映文档的潜在主题。[67]Blei将大多数主题的可解释性归因于“语料库中的统计结构以及它如何与LDA的特定概率假设相互作用”。[68]LDA主题模型的应用很广,随着计算传播学在社科领域的发展,不少传播学领域的研究也开始利用LDA主题模型进行文本挖掘。Maier等人指出在传播学领域应用LDA需要重点关注文本数据预处理、模型指标选择(如最优的主题数量)以及对主题模型的结果进行有效解释等问题。[69]而在分析样本的选择上,Guo等人提到早期的LDA模型比较适合于分析报纸和学术期刊等相对论述完整的文章。[70]如金苗等人对美、英、澳等7国主流媒体有关“一带一路”倡议报道进行了LDA主题模型分析,以此来勾勒出西方主流媒体对该倡议的报道框架。[71]但随着LDA算法的改进,不少研究开始使用微博或者Twitter的文本数据进行 LDA 分析。[72]如Guo等人分析了2012年美国总统大选时奥巴马和罗姆尼的tweets的主题分布情况。[73]综上,随着海量数据的涌现和对研究中探索相关性关系的支持,越来越多的社会科学研究者开始采用LDA主题模型进行相关领域的探索性研究,因此,本文也采用LDA主题模型对《纽约时报》和《卫报》在新冠疫情期间的大量相关报道进行主题分析。基于此,本文提出第二个研究问题:

研究问题2:《纽约时报》和《卫报》有关新冠报道的LDA主题模型是什么?

三、研 究 设 计

(一)研究样本选取

研究者分别通过纽约时报(New York Times)和卫报(The Guardian)的公开数据接口(application programming interface, API),[74]抓取与新型冠状病毒(简称“新冠”)疫情相关的文章数据。研究者分别使用 R 统计分析软件中的“jsonlite”包[75]和“GuardianR”包[76]进行数据抓取,并以“coronavirus”作为关键词获取日期从2020年1月1日至2020年4月10日期间两家媒体的相关报道。其中,纽约时报共抓取5510条文章数据,依据id作为判定标准清除重复数据64条,剩余5446条文章数据作为分析样本。卫报共抓取5449条文章数据(无重复数据)作为本研究分析样本,两家媒体各月份的文章数据分布见表 1。

(二)文本预处理

由于本文的研究问题围绕新闻报道的主题分析展开,因此本文只选取文本信息进行分析。主题模型不直接分析文本文档,而是分析基于这些文档形成文档词语矩阵(document-term matrix),这个矩阵集合了每个词出现在文档的频率。首先我们用Python来完成文本预处理的工作,使用了处理自然语言常用的如“re, nltk, spacy”等模块(module),具体步骤如下:(1)文本分词(tokenization),将文本分割成单词列表,移除所有的标点符号;(2)将文本中所有的单词都变成小写,同时再移除非字母组成的字符以及URLs和HTML词目。(3)词干提取(stemming),这是词形规范化的步骤之一,以“缩减”的方式抽取词的词干或者词根如“business” 变为 “busi”,“fearful”变为 “fear”等。(4)词性还原(lemmatization),以“转变”的方式将词转变为原型,如将“am, is, are”都变为“be”,“confirmed, confirming” 转变为“confirm”等;(5)词性标注(Part-of-speech tagging, POS tagging),将所有分割后的单词根据其词性标注为名词、形容词、动词、介词等。(6)特征选择(feature selection)。由于不同单词出现在文档中频率差异较大,有些单词在分析的文档中只出现几次或者更少,或者有些单词出现的次数太频繁,如“have, to” 等因此我们需要过滤掉太罕见或者太常见的单词。通过设置单词在文档中的最低频率为20作为门槛,[77]来过滤罕见的单词。通过使用停止词(stopwords)列表将常见的单词移出主题模型考虑范畴,如“and, to, from, for, with” 等。

(三)主题模型分析

我们分别对《纽约时报》和《卫报》的全样本进行主题建模,分析两个媒体在“新冠”疫情报道中的主题框架差异。在主题建模时主要使用了Python的“sklearn. decomposition. LatentDirichletAllocation”模块。为了主题模型分类结果的有效性,我们需要设定主题数量参数K。为了使主题建模结果最优化,我们使用网格搜索(GridSearch)的方法来获得最佳模型,在这过程中使用两个参数,第一个是主题数量参数,在主题数量参数K的选择上分别尝试了5、8、10、15、20五个数值;另一个是学习衰减(learning_decay)参数,它主要是控制学习速率,分别尝试了0.5和0.7两个数值,通过两个参数的两两排列组合的模型结果中似然估计值(log likelihood score)和困惑度(perplexity)来决定最优模型。

《纽约时报》的最优主题模型是由5个主题数量构成,学习速率为0.7,这个模型的对数似然值为-.12,模型困惑度(perplexity)为508.20。

1 纽约时报的最优主题模型选择结果

《卫报》的最优主题模型由10个主题数量构成,学习速率为0.5,这个模型的对数似然值为-.48,模型困惑度(perplexity)为1286.11。

2 卫报的最优主题模型选择结果


结果与分析

(一)词云

我们首先对《纽约时报》和《卫报》的文章进行了词云统计并进行可视化呈现。本文采用R统计软件中的“wordcloud”包进行词云分析,最低词频数设置为250次。词云是通过词频统计,对文本中出现频率较高的关键词予以可视化呈现,频率越高的词显示地越大,同时由中心向四周扩散。“coronavirus”是两个媒体在报道中出现频率最高的词。

图3为《纽约时报》和《卫报》的词云分布情况。“新冠病毒、特朗普、政府、危机、爆发、中国、家、健康、大流行(pandemic)、病例”等词在两个媒体报道中都属于“超级高频词”。此外,《纽约时报》的其他高频词还包括 “总统、纽约、病毒、传播、世界、医疗、死亡、流行病、征税、华盛顿、官员”等,而《卫报》的词云里出现较为频繁的词还有“澳大利亚、COVID、封锁、恐惧(fear)、工人、医院、隔离、鲍里斯、经济、发展” 等。

3 《纽约时报》、《卫报》“新冠”文章的词云分布图

(二)主题模型

其次,我们构建了LDA主题模型。我们在可视化LDA主题模型时使用了Python里的LDAvis模块[78],对主题特征词排序时,为了提升特征词的解释力还考虑了词频的“相对重要性”——词语在当前主题文章中的出现频率和“绝对重要性”——该词在全文档中出现的频率。相比较而言,本文在平衡两者的权重后,更看重特征词的相对重要性。

表2为纽约时报的LDA主题模型的结果,包含5个主题、每类主题对应的文章数量以及每个主题下的10个特征词。五个主题分别解释为五个新闻框架:T1隔离政策、T2经济后果、T3体育娱乐、T4疫情概况,T5政府与经济。图4为《纽约时报》LDA主题模型的可视化效果图,圆圈越大表明该主题在全部文档中的比例越高,而圆圈之间的距离代表主题之间的距离。条形图代表的是最能够解释该主题的特征词列表。[79]

2 《纽约时报》新冠新闻的LDA

注:由于在文本预处理阶段曾对词语进行过大小写、词性还原、词干提取等处理,在列举特征词时研究者对词语进行了适当拓展以恢复词语原貌。

在T1隔离政策框架里,主要包括了新闻里提倡的居家隔离、保持社交距离、社区封锁、关闭学校等主要措施,体现了当前抗疫的主要隔离政策。T2经济后果框架中包含了新闻报道对市场、股票、原油、价格、投资等与经济关联性较大的主题关键词,其中还包括了特朗普和民主党的总统候选人桑德斯。T3体育娱乐框架主要指涉的是由于受到新冠疫情的影响,许多体育赛事和娱乐活动都被迫取消了,甚至原计划于2020年夏季举办的东京奥运会也推迟至2021年。T4疫情概况框架主要是关于新闻报道中关于疫情每日情况的通报,包括确诊人数、死亡人数、医疗设施的情况等。T5政府与经济框架是对涉及到美国联邦政府政策、银行利率、刺激经济等一系列有关政府政策和经济情况的概括。

4 《纽约时报》的主题模型可视化效果

表3为卫报的LDA主题模型分析生成的结果,包含10个主题、每个主题对应的文章数量以及每个主题下的12个主题特征词。10个主题分别对应了10个框架:T1经济后果、T2美国政治选举、T3亚洲疫情与旅行禁令、T4健康科普、T5社会问题、T6医疗设施、T7体育娱乐、T8英国疫情政策、T9民粹主义、T10英国政党。图5为《卫报》LDA主题模型的可视化效果图。

3 《卫报》新冠新闻的LDA主题模型

注:由于在文本预处理阶段曾对词语进行过大小写、词性还原、词干提取等处理,在列举特征词时研究者对词语进行了适当拓展以恢复词语原貌。

5 卫报主题模型的可视化效果

与《纽约时报》相比,《卫报》的主题模型结果显示两者在疫情报道的主题选择上有明显的差异。《卫报》在报道新冠疫情时主题维度多,可以细分出10个向度的主题。T1经济后果框架与《纽约时报》的类似,在特征词中还出现了关于税收、经济预算、债券和经济衰退等词,相关话题讨论的覆盖范围大。T2美国政治选举,英国的《卫报》的新闻框架中还生成了有关美国政治选举的主题。疫情发生的时间本应是2020年美国总统大选进行地如火如荼之际,新冠疫情打乱了总统竞选的节奏,同时美国政府关于新冠疫情的行动和决策有可能会成为影响总统大选的重要因素,因此在主题词中不仅包括了多位总统候选人的名字,还包括了投票、民意调查、共和党、弹劾等关键词。T3是亚洲疫情与旅行禁令框架,在这个框架下的特征词主要包括了中国大陆以及日本的钻石号邮轮等疫情爆发情况,同时还涉及到了游客、旅游等关键词。原因在于疫情大规模爆发后,许多国家开始实行旅行禁令来减少人口的国际流动,以期能够控制疫情的蔓延和扩散。T4健康科普框架,特征词主要是对新冠病毒症状的描述,属于科学传播中健康科普类主题。T5社会问题框架,主要涉及到儿童饥饿的问题,由于新冠疫情许多学校暂时关闭,导致一些贫困儿童没有办法得到学校的免费午餐而带来的社会问题。除此之外,这一主题框架下还包括了租户面临被房主驱逐等社会问题。T6医疗设施框架,主要涉及了突发的流行病带来的包括医生、护士、医用口罩、呼吸机、防护服、护目镜等医疗资源问题的讨论。T7体育娱乐框架,与《纽约时报》的体育娱乐框架类似,也是涉及到各大体育赛事的延期问题。T8是英国疫情政策框架,涉及了英国首相、内阁、维多利亚女王、以及英国首席科学家顾问帕特里克·瓦兰斯,这个框架下可能包含了对英国政府早期提出的抗疫措施“群体免疫”的讨论,以及“曲线”和“平缓”两个关键词可能涉及的内容是关于疫情曲线何时出现平缓态势的报道。T9是民粹主义框架,该框架揭示了在新冠疫情影响下,欧洲还面临着民粹主义抬头的挑战,有关民粹主义的讨论在媒体报道中也呈现不断升温的趋势,成为新闻报道关注的重点之一。T10是英国政党框架,在这个框架中出现了有关“托利党(保守党)、工党、科尔宾、凯尔.斯塔摩”等关键词,与《纽约时报》中出现民主党和共和党类似,《卫报》在报道疫情时的主题也与政治话题相关性高,出现了不少讨论工党、保守党及相关领导人的报道。

四、讨 论

本文以框架分析为视角来研究比较《纽约时报》和《卫报》有关新冠疫情新闻报道的主题差异。研究聚焦于新闻框架分析中的新闻生产研究领域,采用了计算机辅助内容分析的方法——LDA主题模型来进行新闻框架分析。传统的框架分析研究中普遍使用的是内容分析或者话语分析方法,只能对有限样本进行分析,而计算传播学中使用的LDA主题模型可以以数据驱动的形式实现海量文本分析,从大量的新闻文本中提炼出框架和主题。研究结果表明,横向比较《纽约时报》和《卫报》在新冠疫情的新闻主题框架上有明显差异,一方面是框架数量的差别,另一方面则是框架主题选择的侧重。本文作为探索性研究,基于LDA主题模型分析建立了《纽约时报》和《卫报》有关疫情新闻报道的主题框架。同时本文也是文本挖掘算法在社科领域的应用性研究,尝试在计算传播学与传统传播学方法之间搭建可沟通的桥梁,建立起计算数据与解释理论之间的联系。

新闻报道是对事件的选择性披露,媒介组织通过使用特定的新闻框架为公众提供对事件的定义和可描述的边界,以此来构建公众对社会现实的认知。从词云分布上看,《纽约时报》与《卫报》在新闻报道上所选用的高频词差异不明显,关键词重合度较高,其中“超高频词”涉及的是疫情相关描述。但基于LDA主题模型分析结果,研究发现,《纽约时报》和《卫报》在新冠疫情的新闻报道中主题框架选择存在显著差异。《纽约时报》可以归纳出5个新闻框架:隔离政策、经济后果、体育娱乐、疫情概况,政府与经济。《卫报》共有10个新闻框架:经济后果、美国政治选举、亚洲疫情与旅行禁令、健康科普、社会问题、医疗设施、体育娱乐、英国疫情政策、民粹主义、英国政党。总的来说,两家媒体在框架选择上既有区别,也有联系。“经济后果”、“体育娱乐”和“疫情概况”的新闻框架是两者共同的报道重点。“经济后果”往往是疾病传播新闻报道中备受瞩目的新闻框架之一,Bardhan在研究艾滋病相关新闻报道时汇报了经济后果新闻框架,[80]Luther与Zhou的研究中也指出“经济后果”框架是流行病新闻报道中经常使用的框架之一,如SARS期间美国新闻报道的研究认为由于美国在许多国家的投资都受到了SARS的影响和重创,加之SARS期间中美之间紧张的政治局势,都会使美国媒体强化经济后果框架,加重对负面经济后果的报道。[81]同样,在本次新冠疫情期间的新闻报道也呈现出了相似的经济后果框架选择逻辑,一方面与2003年相比,近些年经济全球化的速度不断加快,全球各国之间的经济贸易往来越来越频繁,全球经济呈现一个高度依赖的情形,突发疫情的确对全球经济都造成了不同程度的重创;另一方面过去两年中美贸易摩擦加剧,贸易保护主义抬头,中美两国关系比较紧张,也在一定程度上强化西方媒体对经济后果框架选择的倾向。

媒体对“体育娱乐”新闻框架的凸显体现了框架扎根于社会文化和社会结构的特点。框架是具有文化结构的,与其说它是认知现象,不如说是一种文化现象,因为框架中最具影响力的表达是来源于文化中能够产生共鸣的神话、叙事和隐喻。[82]体育运动是美国文化中非常重要的一部分,疫情导致了许多体育娱乐等相关活动赛事的取消和推迟,对人们日常的娱乐生活造成了影响。3月11日NBA宣布暂停2019-2020赛季的比赛,被认为是体现美国社会判断疫情严重程度的分水岭,引发了体育界的多米诺骨牌效应,各大赛事也纷纷宣布取消或者延期。[83]因此,对该新闻框架的选择实际上与社会中的个体、组织和机构共享对框架的理解有着较强的联系。选择体育娱乐的新闻框架容易激发公众对该新闻事件的共鸣,交流之所以可能是因为交流者对共享意义有着共同理解,而源于文化的框架提供给了社会成员共同参与讨论的前提。[84]

除此之外,与《纽约时报》相比,《卫报》的新闻框架选择的维度更加多元化,主题细分也更加明确。比如与政治相关的框架,可以分为三个主题,“美国政治选举”、“民粹主义”和“英国政党”。这三个与政治相关的主题文章共1676篇,占卫报新冠疫情新闻报道文章总数的30.8%,根据美国一家民调公司(morning consult) 的数据显示,四月中旬的网络民调结果显示美国、英国、法国、德国、加拿大、澳大利亚等国家的领导人的支持率都有所上升。[85]因而,从新闻生产角度来说,大众媒介仍是政治传播中的重要工具,其在新闻选择时很可能会迎合政治旨趣。我们纵观政治、权力与媒介组织的关系,不难理解有些媒体批评家认为媒体是“统治阶层观点的传达者,他们更多地从新闻机构分层化的制度性报道程序和技术所折射出的事实出发,而不是从其反映强势角色和时间制造者的观点出发。” [86]格伯纳称今天的大众媒介是“发轫于工业化秩序的文化利器”,[87]如果将曼海姆的意识形态和知识环境决定论的观点作用于新闻生产,即新闻是中产阶级的话语,是中产阶级意识形态的表达,因而新闻不可避免地包含了中产阶级的立场。[88]那么在新冠疫情期间政治话题的新闻框架很容易成为意识形态输出的阵地,新闻媒体也同样成为不同政党相互之间进行舆论博弈的武器。

此外,《卫报》的“社会问题”、“医疗设施”两个框架主要涉及了由于突发性公共卫生事件而引起的一些社会问题和医疗设施短缺的问题。《卫报》的政治立场被认为是具有左翼自由民主的政治倾向,在它的报道中普遍较为关注社会、医疗问题,这可能也是在《卫报》的主题分析中会生成这两个主题框架的原因。

诚然,我们在大流行的语境下也发现新闻报道框架的选择并不总是机会均等的,[89]媒体的新闻主题中突出一些重点就意味着忽视另一些内容——强化了政治主题,很可能对健康科普主题的报道产生影响。正如《纽约时报》一篇文章里强调由于特朗普在2月和3月初极力淡化新冠病毒的威胁,造成了美国社会对病毒的忽视,同时政府官员的决策延误和政治内斗,以至于延宕了应对流行病的最佳时机。[90]《卫报》的十大新闻框架里“健康科普”主题框架的文章占比仅不超过10%。据先前的研究显示,健康科普信息可以提高公众对流行病的正确认识,新闻媒体报道有关流行病的症状、风险、死亡率、治愈率、预防和治疗措施等健康传播内容可以显著的降低疫情爆发的严重程度和降低人群感染比例。[91]在流行病新闻报道中,如果在突发性公共卫生事件中缺乏对健康科普类新闻的重视,则会带来严重的社会后果。因此,健康科普类框架应该成为主流框架之一而不是其他新闻框架的附庸。

最后,我们发现新冠疫情的新闻报道框架也与之前的一些研究结果有差异。先前研究指出责任框架在流行病报道中的重要地位,美国媒体经常利用责任框架塑造公众对流行病公共卫生问题的相关责任主体的认知,[92]如许多美国媒体的报道都把SARS的全球传播责任归咎于中国。[93]在新冠疫情的相关新闻中我们确实发现了责任框架仍然是西方媒体在新冠疫情中使用的框架之一,但之所以没有出现在本研究的主题模型分析结果中,我们猜测可能有两方面原因,一方面是由于主题分析主要关注的是词与词之间的联系,但责任框架需要逻辑推断和话语辨析。另一方面可能是因为主题模型分析没有关注情感倾向判断,因而无法分辨责任框架中的指责性倾向。

五、研究不足与展望

综上,本研究仍然存在以下几点局限性,首先是研究样本,本文只选取了《纽约时报》和《卫报》作为代表分析西方媒体在此次新冠疫情报道中主要采用的新闻主题框架,由于西方媒体数量众多、类型风格多元,其所关注的视角也可能存在较大的差异,因此本研究只是对西方主流媒体新闻报道管窥一斑的主题框架进行阐释。其次是LDA主题模型分析的局限性,虽然该算法能够从大量的新闻文本中提炼出关键主题,但是由于其呈现方式是关键字,而不是对观点的连续性文字描述,会在分析过程中遗失很多重要论述,研究者较难依据主题模型的结果对新闻报道进行详细的文本分析,也较难评判新闻主题的情感倾向或舆论导向。因此本研究属于探索性研究,为其他研究者进行新冠疫情的媒介分析奠定基础。未来研究者可以尝试基于本文的新闻框架选取具有代表性的新闻报道进行质性的话语分析,从更深层次探讨网络时代新闻框架选择与权力之间的联系,或者从框架效果视角探讨不同的新闻报道框架对受众的影响。

参考文献

1. 联合国新闻,《世卫组织:下一场流感大流行“只是时间问题”最新规划着重提升应对能力》,2019年3月11日,https://news.un.org/zh/story/2019/03/
2.  Blakely, D. E., Social construction of three influenza pandemics in the New York Times, Journalism & Mass Communication Quarterly, 2003,80(4):884-902.
3. Tony, Stewart, Kristin, The Fouth Paradigm:Data-Intensive Scientific Discover, Microsoft Research, 2009:177-178.
4.  Luther, C. A., Zhou, X., Within the boundaries of politics: News framing of SARS in China and the United States, Journalism & Mass Communication Quarterly, 2005,82(4):857-872.
5.  Blakely, D. E., Social construction of three influenza pandemics in the New York Times, Journalism & Mass Communication Quarterly, 2003,80(4):884-902.
6.  Vessey, D., ‘People want newspapers far more than weekly collections of articles’: The Sheffield Guardian, the Labour Party and the left-wing press, Labour History Review, 2015,80(3):249-272.
7.  金苗,《国际新闻报道主题模型分析及解释性理论探思》,《江苏社会科学》,2019年第3期,第213-221+260
8. 潘忠党,《架构分析;一个亟需理论澄清的领域》,《传播与社会学刊》,2006年第11期,第17-46页
9. 潘忠党,《架构分析;一个亟需理论澄清的领域》,《传播与社会学刊》,2006年第11期,第17-46页
10. 潘忠党,《架构分析;一个亟需理论澄清的领域》,《传播与社会学刊》,2006年第11期,第17-46页
11. [美]盖伊·塔奇曼(Gaye Tuchman) ,麻争旗、刘笑盈、徐扬译,《做新闻》,北京:华夏出版社,2008年,第13页
12. 陈阳,《框架分析:一个亟待澄清的理论概念》,《国际新闻界》,2007年第4期,第19-23页
13. 陈阳,《框架分析:一个亟待澄清的理论概念》,《国际新闻界》,2007年第4期,第19-23页
14. [美]盖伊·塔奇曼(Gaye Tuchman) ,麻争旗、刘笑盈、徐扬译,《做新闻》,北京:华夏出版社,2008年,第13页
15. [美]托德·吉特林,张锐译,《新左派运动的媒介镜像》,北京:华夏出版社,2007年,导言第13页
16.  Entman, R. M., Framing: Toward clarification of a fractured paradigm, Journal of Communication, 1993,43(4):51-58.
17. [美]托德·吉特林,张锐译,《新左派运动的媒介镜像》,北京:华夏出版社,2007年,第7-9页
18.  Sheshadri, K., Ajmeri, N., Staddon, J., No (privacy) news is good news: An analysis of New York Times and Guardian Privacy News from 2010–2016, In 2017 15th Annual Conference on Privacy, Security and Trust (PST), Calgary, Alberta, Canada. 2017:159-15909.
19. [美]托德.吉特林,张锐译,《新左派运动的媒介镜像》,北京:华夏出版社,2007年,导言第14页
20. [美]盖伊·塔奇曼(Gaye Tuchman) ,麻争旗、刘笑盈、徐扬译,《做新闻》,北京:华夏出版社,2008年,第5页
21. [美]盖伊·塔奇曼(Gaye Tuchman) ,麻争旗、刘笑盈、徐扬译,《做新闻》,北京:华夏出版社,2008年,导言第15页
22. [美]盖伊·塔奇曼(Gaye Tuchman) ,麻争旗、刘笑盈、徐扬译,《做新闻》,北京:华夏出版社,2008年,第30页
23. [美]盖伊·塔奇曼(Gaye Tuchman) ,麻争旗、刘笑盈、徐扬译,《做新闻》,北京:华夏出版社,2008年,第175页
24. 陈阳,《框架分析:一个亟待澄清的理论概念》,《国际新闻界》,2007年第4期,第19-23页 引自Gamson, William A., Goffman's legacy to political sociology, Theory and Society, 1985,14(5):605-622.
25.  Tuchman, G., The production of news, In Klaus Bruhn Jensen (Ed.), Handbook of Media & Communication Research, London: Routledge, 2002:80-81.
26. [英]丹尼斯·麦奎尔、[瑞典]斯文·温德尔,祝建华、武伟译,《大众传播模式论》,上海:上海译文出版社,1987年,第42-43页
27. 李金铨,《 纵横传播:历史脉络与全球视野》,北京:社会科学文献出版社,2019年,第54页
28. [美]托德·吉特林,《新左派运动的媒介镜像》,张锐译,北京:华夏出版社,2007年,导言第11页
29. [美]托德·吉特林,《新左派运动的媒介镜像》,张锐译,北京:华夏出版社,2007年第190页
30.  Hartman, G. H., Public memory and modern experience, The Yale Journal of Criticism, 1993.6(2):239.
31. [美]盖伊.塔奇曼(Gaye Tuchman) ,麻争旗、刘笑盈、徐扬译,《做新闻》,北京:华夏出版社,2008年,第7页
32. [美]托德·吉特林,《新左派运动的媒介镜像》,张锐译,北京:华夏出版社,2007年,第198页
33.  Mummert, A., Weiss, H., Get the news out loudly and quickly: the influence of the media on limiting emerging infectious disease outbreaks, PloS one, 2013,8(8): e71692.
34.  Dudo, A. D., Dahlstrom, M. F., Brossard, D., Reporting a potential pandemic: A risk-related assessment of avian influenza coverage in US newspapers, Science communication, 2007,28(4):429-454.
35. [美]盖伊.塔奇曼(Gaye Tuchman) ,麻争旗、刘笑盈、徐扬译,《做新闻》,北京:华夏出版社,2008年,第178页
36. [美]盖伊.塔奇曼(Gaye Tuchman) ,麻争旗、刘笑盈、徐扬译,《做新闻》,北京:华夏出版社,2008年,第178-179页
37. [美]盖伊.塔奇曼(Gaye Tuchman) ,麻争旗、刘笑盈、徐扬译,《做新闻》,北京:华夏出版社,2008年,第179页
38. [美]盖伊.塔奇曼(Gaye Tuchman) ,麻争旗、刘笑盈、徐扬译,《做新闻》,北京:华夏出版社,2008年,第179页
39.  Blakely, D. E., Social construction of three influenza pandemics in the New York Times, Journalism & Mass Communication Quarterly, 2003,80(4):884-902.
40. [美]苏珊·桑塔格,程巍译,《疾病的隐喻》,上海:上海译文出版社,2003年,第91-92页
41.  Spratt, M., Science, journalism, and the construction of news: How print media framed the 1918 influenza pandemic, American Journalism, 2001,18(3):67.
42. [英]凯瑟琳·阿诺德,田奥译,《1918年之疫:被流感改变的世界》,上海:上海教育出版社,2020年,第13页
43.  Spratt, M., Science, journalism, and the construction of news: How print media framed the 1918 influenza pandemic, American Journalism, 2001,18(3):61-79.
44. [美]苏珊·桑塔格,程巍译,《疾病的隐喻》,上海:上海译文出版社,2003年,第1页
45.  Blakely, D. E., Social construction of three influenza pandemics in the New York Times, Journalism & Mass Communication Quarterly, 2003,80(4):884-902.
46. [美]苏珊·桑塔格,程巍译,《疾病的隐喻》,上海:上海译文出版社,2003年,第93-95页
47.  Blakely, D. E., Social construction of three influenza pandemics in the New York Times, Journalism & Mass Communication Quarterly, 2003,80(4):884-902.
48.  Orders Fight on Influenza; City to Keep Watch on Ship Passengers Who Have the Disease. New York Times, 17 August, 1918:5. https://timesmachine.nytimes.com/timesmachine/1918/08/17/97018434.html?pageNumber=5
49.  Spratt, M., Science, journalism, and the construction of news: How print media framed the 1918 influenza pandemic, American Journalism, 2001,18(3):61-79.
50.  Spratt, M., Science, journalism, and the construction of news: How print media framed the 1918 influenza pandemic, American Journalism, 2001,18(3):61-79.
51.  Hume, J., The “forgotten” 1918 influenza epidemic and press portrayal of public anxiety, Journalism & Mass Communication Quarterly, 2000,77(4):898-915.
52.  Hume, J., The “forgotten” 1918 influenza epidemic and press portrayal of public anxiety, Journalism & Mass Communication Quarterly, 2000,77(4):898-915.
53.  Luther, C. A., Zhou, X., Within the boundaries of politics: News framing of SARS in China and the United States, Journalism & Mass Communication Quarterly, 2005,82(4):857-872.
54.  Semetko, H. A., Valkenburg, P. M., Framing European politics: A content analysis of press and television news, Journal of communication, 2000,50(2):93-109.
55.  Blakely, D. E., Social construction of three influenza pandemics in the New York Times, Journalism & Mass Communication Quarterly, 2003,80(4):884-902.
56.  金苗、自国天然、纪娇娇,《意义探索与意图查核——“一带一路”倡议五年来西方主流媒体报道LDA主题模型分析》,《新闻大学》,2019年第5期,第13-29页
57.  Guo, L., Vargo, C. J., Pan, Z., Ding, W., Ishwar, P., Big social data analytics in journalism and mass communication: Comparing dictionary-based text analysis and unsupervised topic modeling, Journalism & Mass Communication Quarterly, 2016,93(2):332-359.
58.  Burscher, B., Odijk, D., Vliegenthart, R., De Rijke, M., De Vreese, C. H., Teaching the computer to code frames in news: Comparing two supervised machine learning approaches to frame analysis, Communication Methods and Measures, 2014,8(3):190-206.
59.  Weber, R. P., Computer-aided content analysis: A short primer, Qualitative sociology, 1984,7(1-2):126-147.
60.  Krippendorff, K., Content analysis: An introduction to its methodology, Thousand Oaks, CA: Sage, 2019:215-276.
61.  Burscher, B., Odijk, D., Vliegenthart, R., De Rijke, M., De Vreese, C. H., Teaching the computer to code frames in news: Comparing two supervised machine learning approaches to frame analysis, Communication Methods and Measures, 2014,8(3):190-206.
62.  Guo, L., Vargo, C. J., Pan, Z., Ding, W., Ishwar, P., Big social data analytics in journalism and mass communication: Comparing dictionary-based text analysis and unsupervised topic modeling, Journalism & Mass Communication Quarterly, 2016,93(2):332-359.
63.  Krippendorff, K., Content analysis: An introduction to its methodology, Calif.: Thousand Oaks Sage, 2004:215-276.
64.  Burscher, B., Odijk, D., Vliegenthart, R., De Rijke, M., De Vreese, C. H, Teaching the computer to code frames in news: Comparing two supervised machine learning approaches to frame analysis, Communication Methods and Measures, 2014,8(3):190-206.
65.  Pilny, A., McAninch, K., Slone, A., Moore, K., Using Supervised Machine Learning in Automated Content Analysis: An Example Using Relational Uncertainty, Communication Methods and Measures, 2019,13(4):287-304.
66.  Burscher, B., Odijk, D., Vliegenthart, R., De Rijke, M., De Vreese, C. H., Teaching the computer to code frames in news: Comparing two supervised machine learning approaches to frame analysis, Communication Methods and Measures, 2014,8(3):190-206.
67.  Blei, D. M., Ng, A. Y., Jordan, M. I., Latent dirichlet allocation, Journal of machine Learning research, 2003(3):993-1022.
68.  Blei, D. M., Probabilistic topic models, Communications of the ACM, 2012,55(4):77-84.
69.  Maier, D., Waldherr, A., Miltner, P., Wiedemann, G., Niekler, A., Keinert, A., et al, Applying LDA topic modeling in communication research: Toward a valid and reliable methodology, Communication Methods and Measures, 2018,12(2-3):93-118.
70.  Guo, L., Vargo, C. J., Pan, Z., Ding, W., Ishwar, P., Big social data analytics in journalism and mass communication: Comparing dictionary-based text analysis and unsupervised topic modeling, Journalism & Mass Communication Quarterly, 2016,93(2):332-359.
71.  金苗、自国天然、纪娇娇,《意义探索与意图查核——“一带一路”倡议五年来西方主流媒体报道LDA主题模型分析》,《新闻大学》,2019年第5期,第13-29页
72.  杨莉、王敏、程宇,《基于LDA和XGBoost模型的环境公共服务微博情感分析》,《南京邮电大学学报(社会科学版)》,2019年第6期,第23-39页
73.  Guo, L., Vargo, C. J., Pan, Z., Ding, W., Ishwar, P., Big social data analytics in journalism and mass communication: Comparing dictionary-based text analysis and unsupervised topic modeling, Journalism & Mass Communication Quarterly, 2016,93(2):332-35.
74. 获取纽约时报的公开API密钥的网址:https://developer.nytimes.com/; 获取卫报的公开 API 密钥的网址:https://open-platform.theguardian.com/access/.
75.  Ooms J. “The jsonlite Package: A Practical and Consistent Mapping Between JSON Data and R Objects.” arXiv:1403.2805 [stat.CO], 2014. https://arxiv.org/abs/1403.2805.
76.  Bastos, M. T. Shares, Pins, and Tweets: News readership from daily papers to social media, Journalism Studies, 2015: 305-325.
77.  Jacobi, C., Van Atteveldt, W., Welbers, K., Quantitative analysis of large amounts of journalistic texts using topic modelling, Digital Journalism, 2016,4(1):89-106.
78.  Sievert, C. & Shirley, K., LDAvis: A method for visualizing and interpreting topics, In Proceedings of the workshop on interactive language learning, visualization, and interfaces, Baltimore, Maryland. 2014:63-70.
79.  Sievert, C. & Shirley, K., LDAvis: A method for visualizing and interpreting topics, In Proceedings of the workshop on interactive language learning, visualization, and interfaces, Baltimore, Maryland,U.S. 2014:63-70.
80.  Bardhan, N., Transnational AIDS-HIV news narratives: A critical exploration of overarching frames, Mass Communication & Society, 2001,4(3):283-309.
81.  Luther, C. A., Zhou, X., Within the boundaries of politics: News framing of SARS in China and the United States, Journalism & Mass Communication Quarterly, 2005,82(4):857-872.
82.  Hertog, J. K., McLeod, D. M., A multiperspectival approach to framing analysis: A field guide, In Framing public life, London: Routledge, 2001:142.
83.  Deena Zaru. An unexpected loss: confronting a world without sports amid a coronavirus pandemic. 2020, April 18th, https://abcnews.go.com/Health/unexpected-loss-confronting-world-sports-amid-coronavirus-pandemic/story?id=
84.  Hertog, J. K., McLeod, D. M., A multiperspectival approach to framing analysis: A field guide, In Framing public life, London: Routledge, 2001:143.
85.  Morning Consult. Approval Rises for World Leaders Amid Pandemic. 2020, April 20th. https://morningconsult.com/form/approval-rises-for-world-leaders-amid-pandemic/
86. [美]埃里克·克里纳伯格,徐家良、孙龙、王彦玮译,《热浪:芝加哥灾难的社会剖析》,北京:商务印书馆,2014年,第201页
87.  Gerbner, G., Mass and human communication theory. in Denis McQuail, ed., Sociology of Mass Communications, London: Penguin, 1972:51.
88. [美] 盖伊·塔奇曼(Gaye Tuchman),麻争旗、刘笑盈、徐扬译,《做新闻》,北京:华夏出版社,2008年,第169-170页
89.  Lee, S. T., Predictors of H1N1 influenza pandemic news coverage: Explicating the relationships between framing and news release selection, International Journal of Strategic Communication, 2014,8(4):294-310.
90.  J. David Goodman, How delays and unheeded warnings hindered New York’s virus fight, Retrieved April 9th,2020 from https://www.nytimes.com/2020/04/08/nyregion/new-york-coronavirus-response-delays.html.
91.  Mummert, A., Weiss, H., Get the news out loudly and quickly: the influence of the media on limiting emerging infectious disease outbreaks, PloS one, 2013,8(8): e71692.
92.  Semetko, H. A., Valkenburg, P. M., Framing European politics: A content analysis of press and television news, Journal of communication, 2000,50(2):93-109.
93.  Luther, C. A., Zhou, X., Within the boundaries of politics: News framing of SARS in China and the United States, Journalism & Mass Communication Quarterly, 2005,82(4):857-872.
到此这篇lda主题模型分析文本(基于lda模型的文本主题分析)的文章就介绍到这了,更多相关内容请继续浏览下面的相关推荐文章,希望大家都能在编程的领域有一番成就!

版权声明


相关文章:

  • 安装信息是什么文件(安装信息是什么文件类型的)2025-02-18 18:54:06
  • 绿色代码图(绿色的代码是什么颜色)2025-02-18 18:54:06
  • 颜色代码表(球球大作战颜色代码表)2025-02-18 18:54:06
  • 条件变量和信号量的区别(条件变量和信号量的区别是什么)2025-02-18 18:54:06
  • 硬盘虚拟u盘(虚拟 u盘)2025-02-18 18:54:06
  • 操作系统题目和答案(操作系统的题)2025-02-18 18:54:06
  • 单片机程序烧录步骤(单片机程序烧录原理)2025-02-18 18:54:06
  • 增删改查属于什么功能(增删改查功能是什么)2025-02-18 18:54:06
  • 哔哩哔哩二维码登录的二维码在哪里找(哔哩哔哩扫码登录的二维码)2025-02-18 18:54:06
  • 圈一(圈一怎么打出来)2025-02-18 18:54:06
  • 全屏图片