跨语言和社区的事件分析 Event Analyticsacross Languagesand Communities（1-2章）

Event Analyticsacross Languagesand Communities

跨语言与社区的事件分析

https://library.oapen.org/bitstream/handle/20.500.12657/96074/9783031644511.pdf?sequence=1#page=243

概述

自然灾害、恐怖袭击等突发事件，足球世界杯等计划性事件，以及欧洲移民危机和军事冲突等长期演变的事件，都会影响全球不同语言背景的社区和社会。新闻网站和社交媒体对这些事件的报道，导致了来自异构来源的大量多语言事件信息。处理这些信息需要方法、工具和数据集，以实现跨语言的事件信息互联、验证、情境化和分析，并提供直观的多语言信息交互方式。这些技术对于数字人文研究者、记忆机构、出版商、媒体监测公司和记者等利益相关者群体至关重要。本书展示了跨语言和跨社区的事件分析研究成果，推动了这一领域的发展。

图 1 概述了 CLEOPATRA 国际培训网络（ITN），这是本书的核心组成部分。该项目提供了一个独特的跨学科和跨部门的研究与培训计划，探索如何分析和理解影响我们生活和社会的主要事件在线上如何呈现。这些事件以多种欧洲语言（包括英语和德语，以及资源较少的克罗地亚语和斯洛文尼亚语）的丰富资源表示。通过数据挖掘和自然语言处理（NLP）等领域的创新方法，以及创建新的以事件为中心的数据集（如包含 15 种语言中超过 100 万个事件的**开放事件知识图谱（OEKG）），实现了对这些事件的分析和探索。

CLEOPATRA ITN 项目于 2019 年 1 月启动，持续至 2023 年 6 月，见证了 NLP 从基于 Transformer 的语言模型向大语言模型（LLMs）时代的过渡。LLMs 在人工智能（AI）的多个领域取得了重大突破，尤其是在文本生成和理解方面，打破了以往的语言障碍。本书展示的方法和资源需要在这一过渡背景下进行审视。这些方法包括命名实体识别、对话式问答和事件叙事化，这些任务现在和未来也可以通过 LLMs 实现。

本书的目的有两个：首先，展示在 LLMs 引入之前的事件分析领域最先进的 NLP 方法，为未来的发展提供基准；其次，强调即使在 LLMs 时代，所提出的方法和资源仍然具有重要价值，特别是在解决 LLMs 在可靠性方面的固有缺陷时。在涉及不同文化和感知的敏感领域，真实性是不可或缺的维度，可以通过精心设计的模型架构和符号知识表示（如以事件为中心的知识图谱）来实现。

CLEOPATRA ITN 的一个核心方面是创建支持事件分析的资源，最终形成了包含符号事件知识（如事实、多语言文本、新闻文章、图像、示例问题及其答案）的 OEKG。在进行事件分析时，这些可信资源的可用性至关重要，因为事件的感知可能高度依赖于接收者的特征，包括政治观点和文化影响。随着越来越多的信息来源出现在网络上（尤其是社交媒体），LLMs 基于未公开资源生成文本的能力几乎不受限制，通常缺乏进一步调查的参考依据。因此，AI 生成的虚假信息预计将通过欺骗性叙述、篡改图像和深度伪造视频主导未来的虚假信息环境，使用户和算法难以区分真相与虚构。

通过 CLEOPATRA ITN 的研究和资源，我们旨在为事件分析提供基础，支持开发和评估未来技术，以实现真实且有依据的事件分析。

本书结构

本书分为三个部分，分别关注跨语言和跨社区事件分析的不同方面：

第一部分：以事件为中心的多语言和多模态 NLP 技术

介绍处理多语言信息所需的 NLP 技术的最新发展。特别是，本部分包含五章，展示了支持资源较少语言的 NLP 方法，以及处理多模态信息以从异构来源推进事件分析的技术。

第二部分：以事件为中心的多语言知识技术

讨论将多语言事件信息集成到知识图谱中并提供用户访问的技术。本部分的贡献包括 OEKG，一个包含 15 种语言中超过 100 万个事件的多语言事件知识图谱。此外，还介绍了 QuoteKG（引述知识图谱）以及事件推荐和对话式问答的方法。

第三部分：事件分析

涵盖多语言事件分析的三个选定方面，即事件中心新闻传播障碍的分析、社交媒体中的声明检测以及事件叙事化作为呈现事件数据的手段。

第一部分：以事件为中心的多语言和多模态 NLP 技术

本书的第一部分包含五章，主要涉及应用于不同类型事件文本的自然语言处理（NLP）新方法的研究。CLEOPATRA 项目最初在其 NLP 活动中依赖于现有且经过验证的方法，涵盖了常见的任务，如词形还原、词性/形态句法标注（PoS/MSD）、命名实体识别与分类（NERC）、依存句法分析等。然而，该项目也正值大语言模型（LLMs）在 NLP 处理流程中引入的初期，LLMs 对 NLP 方法论产生了深远影响，并在几年内引发了范式转变。因此，第一部分中的一些章节展示了仍基于先前方法的研究，而其他章节则已将 LLMs 作为其方法论核心。

第 1 章 提出了一个适用于任何语言的通用命名实体识别（UNER）框架。该提案受到 NLP 领域中两个类似倡议的启发，即通用依存关系（UD）和通用标注集（UT）。它整合了所有先前的 NERC 方法，并提出了一种三层层次化的命名实体分类，与相关的 dBpedia 条目相结合，从而将名称直接关联到概念数据空间中的项目。

第 2 章 研究了如何将全球发布的大量新闻与相关地理位置进行情境化。现有的地理位置估计方法主要基于文本或照片作为独立任务。由于新闻照片可能缺乏地理线索，而文本可能包含多个地点，仅基于单一模态识别新闻故事的核心位置具有挑战性。本章引入了用于新闻文档多模态地理位置估计的新数据集，同时考虑文本和照片，并取得了更好的结果。

第 3 章 探讨了语言类型学中的计算方法如何改进语言分类结果。由于 CLEOPATRA 项目主要面向事件的多语言处理，本章提出了一种使用可比树库（如关于 2019 年欧盟选举的新闻语料库）或平行树库（如平行 UD）中的句法特征来测量语言距离的新方法。该方法还可以测量训练数据中哪些语言组合可以改进依存句法分析的结果。

第 4 章介绍了为大规模多语言和多模态新闻集合中的情感分析（SA）和仇恨言论检测开发的方法。由于文本或句子的情感对意见形成至关重要，而仇恨言论似乎比以前更频繁出现（尽管尚未有人能明确定义该术语涵盖的具体概念），这一任务变得越来越重要。本章展示的研究成功整合了多模态信息以获取整体上下文，并将该方法应用于一个具体的示例任务。

第 5 章以 LLMs 在低资源语言中的应用为主题，结束了第一部分。由于在最流行的多语言 LLMs 中，低资源语言的词汇在工作字典中往往严重不足，本章提出了通过将这些语言的“脆弱词汇”引入多语言 LLMs 的字典中，并提供合理的嵌入初始化，随后在可用低资源语料库的限制下进行微调的策略。

第一部分的章节涵盖了 CLEOPATRA 事件处理流程中开发并用于多语言处理的 NLP 方法集，展示了如何将语言技术与知识技术成功结合，以在事件相关数据的自动处理中取得更好的结果。

第 1 章 UNER：通用命名实体识别框架

Diego Alves, Gaurisha Thakkar, and Marko Tadic

摘要

命名实体识别与分类（NERC）是自然语言处理（NLP）中的一项重要任务，广泛应用于交互式问答、摘要生成、关系抽取和文本挖掘等应用中。现有的 NERC 语料库遵循不同的标注方案，这些方案在格式和复杂性方面因研究需求而异：从单层层次标注（如“人物”、“地点”和“组织”）到多层标注方案。受通用依存关系（Universal Dependencies, UD）框架在解析树标准化表示方面的启发，我们开发了通用命名实体识别（UNER）框架，该框架包括一个多层 NERC 层次结构和一个对应的工作流程，用于从 Wikipedia 和 DBpedia 解析数据并将其转换为 UNER 标注。

本章介绍了 UNER 层次结构及其数据提取和标注的工作流程。所提出的流程用于生成一个英语语料库，并对其进行了定性和定量评估。此外，还提出并讨论了七种标注改进策略，表明使用**开放事件知识图谱（OEKG）中的信息可以改进我们的数据集。

1.1 引言

命名实体识别与分类（NERC）是自然语言处理（NLP）中的一个重要子领域，因为从文本中提取信息具有重要意义。它最早于 1995 年在第六届消息理解会议（MUC-6）上定义（Chinchor 1998），此后被广泛应用于各种 NLP 应用中，包括事件和关系抽取、问答系统以及面向实体的搜索。例如，MUC-7（Chinchor 1998）定义了一个 2 层层次结构，每层有 3-8 个节点，而 Second Harem NERC 方案（Freitas 等，2010）由 3 层组成，每层有 10 到 36 个节点。

为了创建一个通用的多语言命名实体标注方案，我们提出了**通用命名实体识别（UNER）框架**，这是一个多层次的 NERC 层次结构。UNER 基于 Sekine NERC 层次结构（Sekine 2007），并进行了特定修改，使其能够轻松转换为其他 NERC 方法。结合该框架，我们提出了一种从 Wikipedia 自动提取和标注文本的流程，并根据 UNER 层次结构进行标注。该流程应用于英文 Wikipedia，生成的 UNER 语料库经过定性和定量评估。

在 1.2 节中，我们详细描述了 UNER 框架和层次结构；在 1.3 节中，我们详细介绍了数据提取和标注的工作流程。1.4 节展示了 UNER 英文语料库及其评估结果。1.5 节描述了为提高标注语料库的精确率和召回率而进行的实验，1.6 节总结了我们的结论和未来潜在的研究方向。

1.2 UNER 标注框架定义

本节概述了 UNER 层次结构及其在版本 1 和版本 2 之间的变化。

1.2.1 UNER：版本 1

UNER 层次结构的第一个版本（Alves 等，2020）基于 Sekine（2007）提出的 NERC 层次结构，该结构在比较的 NERC 方案中具有最高的概念复杂性（Alves 等，2020）。每个 UNER 层级的节点数量如表 1.1 所示。

提出的 UNER 层次结构由 4 个层级组成。层级 0 是根节点，所有其他层级均由此派生。层级 1 包含三个主要类别，对应于 MUC-7（Chinchor 1998）的主要类别：**名称**、**时间表达式**和**数值表达式**。层级 2 包含 29 个命名实体类别，这些类别在层级 3 中细分为 95 种类型。此外，层级 4 包含 129 个子类型（Alves 等，2020）。

因此，UNER 层次结构的第一个版本涵盖了 215 个标签，这些标签最多可包含 4 个层级的粒度，具体取决于命名实体类型的详细程度。UNER 标签由每个层级的标签组成，用连字符“-”分隔。由于层级 0 是根节点且对所有实体通用，因此不在标签中描述。例如：

- UNER 标签 Name-Event-Natural_Phenomenon-Earthquake 由层级 1 的 Name、层级 2 的 Event、层级 3 的 Natural Phenomenon 和层级 4 的 Earthquake 组成。

1.2.2 UNER：版本 2

使用 Wikipedia 数据和与 DBpedia 信息相关的元数据生成 UNER 标注数据集的想法促使我们修订了最初提出的 UNER 层次结构。主要原因是自动标注过程基于 UNER 标签与 DBpedia 类之间的等价列表。在生成等价列表时，我们发现并非所有 UNER 标签都有对应的 DBpedia 类。这适用于绝大多数时间和数值表达式。因此，我们开发了 UNER 的版本 2，并在项目的 GitHub 网页上发布。它由 124 个标签组成，其层次结构详见表 1.2。

此外，在标注过程中，我们使用了 IOB 格式（Ramshaw 和 Marcus，1999），因为许多 NERC 系统广泛使用该格式，如 Alves 等（2020）所示。因此，每个标注的实体标记在 UNER 标签的开头还会收到字母“B”（如果标记是实体的第一个标记）或“I”（如果标记在实体内部）。非实体标记仅接收标签“O”。

1.3 数据提取与标注

开发的工作流程允许从 Wikipedia（适用于该数据库中的任何语言）提取文本和元数据，随后通过某些标记（实体）的超链接识别 DBpedia 类，并将其转换为 UNER 类型和子类型（最后两步与语言无关）。

一旦数据提取和标注的主要过程完成，工作流程会提出后处理步骤，以改进分词、实现 IOB 格式（Ramshaw 和 Marcus，1999），并收集有关生成语料库的统计信息。整个过程如图 1.1 所示，分为三个子过程。

1.3.1 文本和元数据提取

1. 从维基百科转储文件中提取：对于给定的语言，我们从维基媒体网站获取其最新的转储文件。接着，我们使用WikiExtractor工具进行文本提取，并保留文章中的超链接。这些超链接指向其他维基百科页面，以及指向这些命名实体的唯一标识符。我们提取所有唯一的超链接并按字母顺序排序。我们从超链接中提取文章路径，去除域名和子域名信息。这些文章路径被视为命名实体。

2. 维基百科-DBpedia实体链接：对于从转储文件中提取的所有唯一命名实体，我们使用SPARQLWrapper通过SPARQL查询向DBpedia端点发送请求，以识别与该实体关联的各类别。此步骤为步骤1中的每个命名实体生成一组它所属的DBpedia类别。

3. 维基百科-DBpedia-UNER反向映射：对于步骤1中提取的每个命名实体，我们使用步骤2生成的类别集合以及UNER/DBpedia映射模式，为每个命名实体分配UNER类别。对于一个实体，从DBpedia响应中获取的所有类别都会被映射到一个层级值，解析并选择最高层级的类别，然后将其映射到UNER类别。为了构建最终的标注数据集，我们仅选择包含至少一个命名实体的句子。这减少了标注的稀疏性，从而降低了测试模型中的假阴性率。此步骤从整个维基百科转储文件中生成了特定语言的初始标注语料库。

1.3.2 标注过程

1. UNER/DBpedia映射：此映射器将每个DBpedia类别链接到一个UNER标签。提取的命名实体可能具有多个DBpedia类别。它为每个DBpedia类别分配最合适的UNER标签。例如，实体“2015 European Games”具有以下DBpedia类别及其对应的UNER等价类别：

- dbo:Event—Name-Event-Historical-Event

- dbo:SoccerTournament—Name-Event-Occasion-Game

- dbo:SocietalEvent—Name-Event-Historical-Event

- dbo:SportsEvent—Name-Event-Occasion-Game

- owl:Thing—NULL

左侧的值表示DBpedia类别，而其对应的UNER等价类别显示在右侧。它将所有DBpedia类别映射到其UNER对应类别。

2. DBpedia层级：此映射器为每个DBpedia类别分配一个优先级。这用于从关联的类别集合中选择特定的DBpedia类别。以下是类别及其优先级的示例：

• dbo:Event—2

• dbo:SoccerTournament—4

• dbo:SocietalEvent—2

• dbo:SportsEvent—4

• owl:Thing—1

对于实体“2015 European Games”，DBpedia类别**SoccerTournament**优先于其他类别，因为它具有更高的优先级值。如果提取的实体有两个具有相同层级值的类别，则选择列表中的第一个类别作为最终类别。所有DBpedia类别都根据DBpedia本体分配了层级值，其中类别以结构化的顺序呈现，这使我们能够定义层级级别。

1.3.3 后处理步骤

后处理步骤对应于三个不同的脚本，这些脚本提供以下功能：

1. 改进分词（使用正则表达式）：通过将标点符号与单词分离来优化分词。此外，它将IOB格式（Ramshaw和Marcus 1999）应用于文本中的UNER标注。

2. 计算生成语料库的统计信息：包括总词元数、非实体词元数（标签“O”）、实体词元数（标签“B”或“I”）以及实体数（标签“B”）。该脚本还提供了所有UNER标签及其在语料库中出现次数的列表。

3. 列出语料库中的实体（词元及其对应的UNER标签）。每个识别的实体在此列表中仅出现一次，即使它在语料库中多次出现。

整个流程和后处理步骤均应用于英语，生成了UNER英语语料库，该语料库将在下一节中描述和评估。此基线语料库是后续章节中改进实验的基础。

1.4 UNER英语语料库（基线）

在本节中，我们将详细介绍UNER英语语料库及其评估活动，该活动旨在检查数据的整体质量。

1.4.1 基本信息

英文维基百科由6,188,204篇文章组成（3.3 GB）。在应用所提出工作流程的主要处理后，我们获得了分文件夹存储的标注文本文件（17,150个文件，分布在172个文件夹中）（Alves等，2021）。

通过应用前述的后处理步骤，我们获得了关于语料库的统计信息。表1.3展示了关于词元和实体数量的主要统计数据。在UNER英语语料库中，8.9%的词元是实体。表1.4则展示了最频繁出现的NERC类别的统计数据。

如第1.2.2节所述，用于标注英文维基百科文本的UNER层级结构由124个不同的多层次标签组成，这些标签与DBpedia类别具有对应关系。然而，在UNER英语语料库中，仅出现了99个不同的UNER标签（占总数的80%）。

如前所述，UNER层级结构由类别、类型和子类型组成。UNER在其第二层级中包含了NERC中最常用的类别（人物、地点、组织）。因此，可以基于这些广泛使用的通用类别对生成的语料库进行分析。这三个类别覆盖了生成语料库中68.2%的命名实体。

1.4.2 定性评估

为了评估工作流程的这一步骤，我们对从UNER英语语料库中随机选择的943个实体进行了分析。对于每个实体，我们检查了其关联的DBpedia类别以及最终选择的UNER标签。表1.5展示了此次评估的结果。

在选定的样本中，91%的实体被正确地标记了UNER标签。然而，6%的实体虽然关联了正确的UNER类型，但其子类型较为泛化。例如，Bengkulu本应被标记为Name-Location-GPE-City，但却被标记为**Name-Location-GPE-GPE_Other。错误可能源于与词元关联的DBpedia类别存在错误，或者是由于DBpedia与UNER之间定义的优先级规则和等价关系所致。

1.4.3 UNER英语黄金数据集

除了上述统计信息外，我们还从生成的语料库中选取了一个样本，并由一名标注者使用WebAnno（Eckart de Castilho等，2016）进行了校正。该样本对应于输出文件夹中的一个完整文件，包含519个句子和105个不同的UNER标签。标注工作由项目组中的一名非英语母语成员完成，遵循客观的指导原则。在存在多种可能标注的情况下，标注者会做出最终选择，以确保每个实体在黄金数据集中仅有一个标签。表1.6展示了用于创建黄金数据集的文件的基线标注评估结果，包括精确率（Precision）、召回率（Recall）和F1值（F1-measure），并考虑了所有105个标签的均值。

如前所述，特定命名实体的标注依赖于超链接的存在。然而，如果实体在文章中多次提及，这些链接并不总是与词元相关联。这可能是导致召回率较低的主要原因之一。

1.5 数据集改进

通过使用UNER英语黄金数据集对基线标注文件进行评估，我们发现自动标注工作流程仍有改进空间，尤其是在减少假阴性数量方面。我们采用了基于词典和知识图谱的策略来完善英语语料库的标注。以下是实验设计和评估结果的详细说明。

1.5.1 实验设计

我们进行了七项不同的实验：

1. 全局词典：从整个UNER英语语料库中，我们建立了一个单词语实体及其对应UNER标签的词典。由于同一实体可能因关联的DBpedia类别而在语料库中出现不同的UNER标签，我们为每个实体选择了出现次数最多的标签。该词典用于补充语料库的标注。仅考虑长度超过两个字符的实体，并排除了数字实体。最终全局词典包含826,371个实体。

2. 仅包含多词语实体的全局词典：与前一实验类似，但仅考虑由多个词元组成的实体。全局词典共包含665,081个多词语实体。

3. 局部词典：在此设置中，我们将每个维基百科转储文件视为一篇文章，并应用“每篇文章一个含义”的策略。文章中每个链接到UNER的实体都会被缓存到局部查找词典中，以其文本为键，UNER类别为值。对于给定文章中键的后续出现，我们使用相应的UNER类别进行标注。我们推测，实体更有可能在同一篇文章中重复出现，而不是在完全不相关的文章中。例如，Barack Obama作为人物更有可能出现在描述他作为总统的文章中，而不是出现在关于他的虚构内容的文章中。

4. 全局OEKG词典：开放事件知识图谱（OEKG）是一个多语言的事件中心资源。其实例具有特定的DBpedia类别，因此我们将全局词典中的所有单词语条目与OEKG中的元素进行了交集处理。对于每个实体，其关联的OEKG中的DBpedia类别被映射到UNER。全局OEKG词典包含128,813个条目。

5. 仅包含多词语实体的全局OEKG词典：与实验4类似，但仅考虑由多个词元组成的实体（共110,226个实体）。

6. 局部词典后接全局OEKG词典：将实验3与使用实验4建立的词典进行标注补充相结合。

7. 局部词典后接仅包含多词语实体的OEKG词典：使用实验5的词典对实验3的语料库进行补充标注。

在所有实验中，词典按实体从长到短的顺序排列（“最长匹配”策略），以确保优先标注多词语实体而非单词语实体。

1.5.2 评估

评估使用了之前介绍的黄金语料库进行。基线是对应文件的自动标注结果，其标注流程如第1.4节所述。

黄金语料库包含105个不同的UNER标签，但基线标注文件仅包含62个标签。对于每个可能的标签，我们计算了精确率（Precision）、召回率（Recall）和F1值（F1-measure）。由于采用了IOB格式（Ramshaw和Marcus 1999），每个UNER标签可以以“B”或“I”开头，非实体词元则标记为“O”。

在基线标注文件的62个标签中，只有45个标签的结果不为0。因此，下表1.7中的值仅考虑了这些标签，并代表了所有相关标签的平均值。表1.7展示了基线及前一节中描述的每个实验的评估指标。

全局词典方法（实验1）提供了最高的召回率（相比基线提高了+3.7），但精确率显著降低（-40.8）。当仅使用多词元实体的全局词典时（实验2），也观察到类似情况。其他实验并未显著降低精确率，在某些情况下甚至有所提高。除实验3、6和7外，所有实验的召回率均高于基线。使用局部词典并未有效提升召回率。

从F1值的角度来看，最佳选择是使用经过OEKG验证的词典（实验4）。其精确率略低于基线（-1.8），但召回率和F1值均有所提高（分别提高了+1.9和+1.6）。

表1.8展示了仅考虑UNER层级结构顶层时的各实验评估结果。同样采用了IOB格式，因此UNER标签可以以“B”或“I”开头，非实体词元标记为“O”。

在此场景下，基线标注的精确率最高。使用全局词典时（实验1）召回率最高，但正如之前观察到的，这种情况下精确率相比基线大幅下降（-51.0）。实验4的F1值最高，与之前考虑所有UNER层级的评估结果一致。

因此，在改进实验中，最佳选择是使用基于开放事件知识图谱（OEKG）优化的词典。该资源能够更精确地识别特定的DBpedia类别，从而在不显著损失精确率的情况下提高召回率。

1.6 结论与未来方向

在本章中，我们介绍了UNER层级结构，旨在作为命名实体识别与分类（NERC）的通用框架。此外，我们描述了一种自动工作流程，通过使用维基百科和DBpedia数据并遵循UNER层级结构，生成多语言命名实体识别语料库。整个过程是开源的，可应用于任何拥有维基百科和DBpedia的语言。

我们还展示了使用所提出流程生成的英语UNER语料库。该数据集通过手动标注的黄金数据集进行了描述和评估。尽管精确率得分高于60，但召回率低于30。因此，我们进行了一系列实验以改进最终的标注数据集。

我们发现，最佳结果是通过使用实体词典并结合开放事件知识图谱（OEKG）验证关联的DBpedia类别获得的：精确率为76.9，召回率为31.0，F1值为36.0。然而，这些结果表明，召回率和F1值仍有改进空间。

作为未来工作的方向，我们的主要重点是提高召回率，以获得更高效的工作流程，从而能够为维基百科上所有语言生成UNER语料库。利用生成的语料库，可以训练深度学习模型以实现自动命名实体识别与分类。此外，UNER层级结构还应补充更精细的时间标签，这些标签在UNER v.2中被排除在外。

第2章新闻文档中的多模态地理位置估计

Golsa Tahmasebzadeh, Eric Müller-Budack, Ralph Ewerth

摘要

随着互联网上新闻文档的激增，在线阅读新闻已成为人们日常生活中获取信息的重要途径。然而，人们对日益增多的虚假信息表示担忧。作为新闻文本的补充，相关照片为读者提供了额外的信息，帮助他们更高效地获取所需内容。为了对全球范围内发布的大量新闻进行情境化分析，地理信息至关重要。此外，地理信息在新闻推荐中也发挥着重要作用，能够更好地满足用户需求。现有的地理位置估计方法主要基于文本或照片作为独立任务。然而，新闻照片可能缺乏地理线索，而文本可能包含多个地点。因此，仅依赖单一模态来识别新闻故事的核心地理位置具有挑战性。

我们引入了用于新闻文档多模态地理位置估计的新数据集，并在基准数据集上评估了现有方法，同时提出了利用文本和视觉内容进行新闻地理定位的新方法。此外，我们介绍了一个基于新闻照片地理内容的新闻检索系统——**GeoWINE**，以强调地理位置估计在新闻领域的重要性。

2.1 引言

每天，世界各地都会发生新的事件，社交媒体和互联网以多种形式（如图像和文本）以及不同语言传播新闻。因此，找到管理信息流、从多种来源获取新闻并保持平衡视角的方法至关重要。事件的关键组成部分之一是其发生的地点。由于新闻文档通常附有照片，确定照片拍摄地点是许多实际应用中的重要环节。例如，新闻检索（Armitage等，2020）、图像验证（Cheng等，2019）以及新闻中的虚假信息检测（Singhal等，2019）等。大多数现有的照片地理位置预测方法仅依赖于视觉数据（Izbicki等，2019；Kim等，2017；Müller-Budack等，2018），只有少数技术利用了多模态数据（Kordopatis-Zilos等，2017，2016）。现有的基于图像的方法主要集中于特定环境，如城市（Berton等，2022；Kim等，2017）或地标（Avrithis等，2010；Boiarov和Tyantov，2019；Weyand等，2020）。

大多数多模态技术利用Yahoo Flickr Creative Commons 100 Million（YFCC100M）数据集（Thomee等，2015），并依赖于与图像相关的标签。然而，这些方法未能充分利用新闻文章中可能暗示照片位置的详细文本信息（如图2.1b1所示）。BreakingNews数据集（Ramisa等，2018）是一个包含地理标签的多模态新闻文章集合。这些标签主要通过资源描述框架（RDF）站点摘要（RSS）获取，或在不可用时通过分析出版商位置或故事文本推断得出。然而，这些地理标签可能不准确或错误。此外，BreakingNews数据集的一个局限性是测试集的标签生成过程与训练集相同。总体而言，迫切需要提供新闻照片地理标签的多模态新闻文章数据集，以及准确确定新闻文档地理位置的多模态方法。

在本章中，我们将地理位置估计任务定义为一个多模态问题。我们提出了多模态方法，整合新闻照片和正文中的视觉和文本信息，以自动识别整个新闻故事的核心位置（Tahmasebzadeh等，2022）或照片的地理位置（Tahmasebzadeh等，2023）。主要贡献总结如下：（1）我们引入了两个用于新闻地理位置估计任务的数据集。**MMG-NewsPhoto**（新闻照片的多模态地理位置估计）包含超过50万篇新闻文章，涵盖14,000多个城市和241个国家，涉及健康、商业、社会和政治等多个新闻领域；**MM-Locate-News**（新闻中的多模态核心位置估计）包含6,395篇新闻文章，涵盖237个城市和152个国家，涉及多个领域。（2）我们提出了详细的标注指南，并识别了新闻中指示照片地理位置的视觉概念。（3）我们引入了利用最先进的视觉和文本特征进行新闻文档地理定位的多模态方法。（4）我们在引入的数据集上评估了这些方法，并将其性能与最先进技术及一些基线实现进行了比较。（5）为了强调地理位置估计在新闻内容分析中的重要性，我们介绍了基于照片地理位置的信息检索系统（Tahmasebzadeh等，2020）和照片验证系统（Tahmasebzadeh等，2021）。

本章的其余部分结构如下：第2.2节描述了相关工作；第2.3节介绍了我们提出的数据集；第2.4节和第2.5节分别介绍了多模态地理位置估计的模型；第2.6节讨论了信息检索方法；第2.7节总结了本章并指出了局限性和未来研究方向。

2.2 相关工作

照片地理位置估计的方法可以根据两个主要标准进行分类：环境目标和数据类型（即图像和多模态数据）（Brejcha和Cadík，2017）。在本节中，我们简要回顾了与照片地理位置估计相关的工作，主要关注多模态方法、现有数据集及其局限性。

基于图像的方法许多现有的基于图像地理定位的方法集中于城市环境（Berton等，2022；Kim等，2017）和自然环境，如山脉（Baatz等，2012；Tomesek等，2022）。一些尝试在没有环境先验假设的情况下在全球范围内估计照片位置。大多数方法将地理位置估计视为分类问题（Müller-Budack等，2018；Seo等，2018；Theiner等，2022；Weyand等，2016）。例如，通过利用检索方法和大型地理标记图像数据库（Vo等，2017）、使用视觉相似单元的重叠集（Seo等，2018）、结合分层单元结构以及环境场景上下文（Müller-Budack等，2018），或利用对比学习的优势（Kordopatis-Zilos等，2021）进行了改进。然而，尽管这些方法仅基于视觉信息取得了令人瞩目的成果，但新闻提供了文本信息，可以进一步提高性能，特别是在缺乏明显地理线索的情况下（如图2.1b所示）。

多模态方法 只有少数方法（Crandall等，2009；Kordopatis-Zilos等，2017，2016；Ramisa等，2018；Serdyukov等，2009）将地理位置估计视为多模态问题，其中大多数依赖于通过生成基于全球文本标签提及的概率模型来构建大规模地理语言模型（Kordopatis-Zilos等，2017，2016；Serdyukov等，2009）。Crandall等（2009）在两种粒度上结合了图像内容和文本元数据：城市级别（≈100公里）和地标级别（≈100米）。Trevisiol等（2013）处理一组视频的文本信息以确定其地理相关性并找到频繁匹配项。在没有此类信息的情况下，他们依赖于视觉特征。随后，Ramisa等（2018）提出了一种多模态方法，他们使用最近邻方法和支持向量回归（SVR）将视觉特征与文本结合。

多模态数据集 大多数多模态方法基于YFCC 100M数据集（Thomee等，2015）或MediaEval Placing Task基准数据集（Larson等，2017），包括图像、视频和元数据。Uzkent等（2019）提出的另一个数据集包含来自维基百科的图像和文本以及卫星图像。最近，引入了名为多语言和多模态（MLM）的数据集（Armitage等，2020），其中包括来自Wikidata（Vrandecic和Krötzsch，2014）的多语言文本和图像。与之前的数据集不同，Ramisa等（2018）引入的BreakingNews包含多模态新闻文章，与我们的工作最为相关。它包括图像、文本、标题和元数据（如地理坐标和流行度），并涵盖体育、政治和健康等多个领域。训练和评估中提供的地理标签是从RSS、出版商或新闻文本中提取的。但如第2.1节所述，这些自动推导的位置可能不准确甚至错误。相反，我们提供了高质量的手动标注照片地理位置，以确保公平和可靠的评估（Tahmasebzadeh等，2022，2023）。

2.3 提出的数据集

本节概述了为多模态地理位置估计任务提出的两个数据集：**MMG-NewsPhoto**（Tahmasebzadeh等，2023）和**MM-Locate-News**（Tahmasebzadeh等，2022）。这两个数据集均由带有地理标签的新闻文档图像-文本对组成，但标签的具体含义略有不同。在MMG-NewsPhoto数据集中，标签仅表示照片的地理位置；而在MM-Locate-News数据集中，标签不仅表示照片拍摄地点，还表示新闻正文的核心位置。以下部分将详细讨论这两个数据集。

2.3.1 MMG-NewsPhoto数据集

本节将介绍用于新闻照片多模态地理位置估计的MMG-NewsPhoto数据集的创建和标注过程。

2.3.1.1 数据集创建

我们使用了Good News（Biten等，2019）和CC-News（Mackenzie等，2020）数据集提供的文章集合。Good News（Biten等，2019）是一个包含466,000个图像-标题对的图像标题生成数据集。基于新闻文章的网页链接，我们提取了所有包含正文、标题、图像链接（及其对应标题）和领域标签的文章。CC-News（Mackenzie等，2020）包含从约30,000个独特新闻来源中提取的4,400万篇英文文档。我们根据新闻文章数量对来源进行排序，并按照上述方法从前20个来源中抓取新闻文档。最后，我们下载了所有图像，并丢弃了损坏或无法访问的图像。最终，我们获得了约1,000万个数据样本，包括正文以及每个样本中至少一个图像-标题对。

初始清理 我们基于正文的TF-IDF（词频-逆文档频率）余弦相似度（归一化到[0, 1]）移除冗余文档（仅保留一个），相似度阈值设为0.5。接下来，我们手动将领域标签分为10个类别，如健康、商业和政治（完整列表见图2.2左）。某些领域（如艺术和技术）包含许多无效图像（如广告或库存照片）。我们丢弃了这些类型的图像，因为它们通常缺乏地理内容或与新闻正文中提到的地点不符。

位置链接 我们假设标题中提到的地点是照片地理位置的候选位置。我们应用命名实体识别和消歧技术来提取标题中的所有地点。借鉴相关工作（Müller-Budack等，2021），我们使用spaCy（Honnibal等，2020）提取命名实体，并使用Wikifier（Brank等，2018）将它们链接到Wikidata实体。我们仅保留类型为“地点”且具有有效地理坐标（纬度、经度）的实体，这些坐标从Wikidata属性P625中提取。

照片位置分配 从标题中提取的地点实体并不总是表示照片位置，例如，它们也可能指代实体属性（如“美国总统拜登”）。因此，我们对标题进行分词，提取某些介词（如“across”、“along”和“in”），这些介词与地点提及结合时更可能指向照片位置。我们保留那些介词与声称的照片位置之间的距离最多为两个词元的样本。此外，删除具有多个唯一地点的样本，确保每个样本仅有一个声称的照片位置。

位置丰富化 我们应用反向地理编码，使用Nominatim将约50,000个从标题中提取的细粒度地点（如城市、道路、建筑物等）映射到城市。接下来，我们从Wikidata中提取相关国家（属性P17）、大洲（属性P30）和地理坐标（属性P625）。

数据采样 为了进行手动标注，我们选择了3,000个样本来构建测试数据集。为避免偏差，样本选择遵循以下原则：（1）涵盖所有领域；（2）涵盖所有大洲；（3）包括高人口城市（人口至少50万）和中等人口城市（人口2万至50万）；（4）文本中至少提到三个唯一地点；（5）正文中真实地点的提及次数不同。最后一点确保包含简单案例（真实地点频繁提及）和复杂案例（文本中提到的多个地点频率相近）。对于简单案例，仅利用命名实体频率的文本方法即可实现高性能，而无需考虑图像。基于复杂案例，我们可以分析图像对多模态地理位置估计的直接影响。测试集的统计数据如图2.2右侧所示。从剩余样本中，随机选择10%用于验证，其余用于训练。

2.3.1.2 数据注释过程

我们详细解释了用于测试集手动标注的指南，旨在使评估过程公平且透明。标注过程中使用的具体指南可在我们的GitHub页面5上找到。

地理代表性概念 对于照片地理位置估计，地理代表性图像描绘了有助于识别其位置的概念。我们将地理代表性概念分为两类：**强概念**和**弱概念**。强概念是地点的唯一标识，例如图像中出现的埃菲尔铁塔可以明确地指向法国巴黎和欧洲大陆。弱概念则为一个或几个特定地点提供线索，但本身证据不足。例如，某位总统是一个国家的标识，但他可能到访多个地点。只有图像中多个弱概念都指向同一地点时，才能确定新闻照片的地理位置。例如，多个车牌或人群可以代表相应的国家。如表2.1所示，我们基于以下八类定义了强或弱视觉概念：建筑、服装、事件、人群、自然景观、物体、公众人物和场景文本。

标注问题（Q） 给定一个图像-标题对及其链接的地点，我们向每个标注者提出以下问题： Q1：这是一个有效样本吗？‍‍‍‍

为了确定样本是否适合用于识别照片地理位置，如果图像是广告、库存照片、网页、地图或数据可视化，或者链接的地点错误、不是地点或不是标题中声称的照片位置（见“照片位置分配”段落），则标注者选择“否”。否则，选择“是”。

Q2：图像中显示了哪些弱概念和强概念？

标注者选择图像中描绘的强概念或弱概念（表2.1）。

Q3：图像中显示了链接的城市（Q3.1）、国家（Q3.2）或大洲（Q3.3）吗？

这些问题旨在获取不同粒度的真实地点。如果满足以下条件之一，用户选择“是”：（1）至少一个强概念可见；（2）单个弱概念高频出现（例如多个车牌）；（3）至少两个不同的弱概念组合出现；（4）提供了单个弱概念的有效证明（例如证明地点的网页）。否则，选择“否”。如果选择“是”，还需选择置信度：“非常自信”、“自信”或“不自信”。

Q4：图像的环境设置是什么？

用户选择以下类别之一：“室内”、“城市户外”或“自然户外”，以指示图像的拍摄环境。

Q5：这是特写吗？

由于特写图像通常难以预测地点，我们要求标注者判断图像是否为特写。

Q6：你在回答Q3时是否需要外部资源？

最后一个问题用于确定标注者在回答Q3时是否需要外部资源。如果选择“是”，我们要求标注者提供相关链接。

标注者培训

我们聘请了四名具有计算机科学背景的研究生进行标注工作，每小时支付10欧元（略高于2022年初德国的最低工资）。此外，三名专注于计算机视觉和多模态分析研究的专家（博士和博士后研究人员）也参与了标注。所有标注者均基于标注指南5进行了培训。我们使用100个样本进行了两次试标注，并讨论了结果以完善指南。

标注过程 标注任务分为以下两步进行：

1. 样本验证：所有标注者被要求根据Q1验证3,000个样本。通过多数投票，获得了1,700个有效样本。

2. 详细标注：对于每个有效样本，三名标注者对Q2至Q6进行标注，并通过多数投票选择每个问题中至少两名标注者达成一致的样本。基于Q3.1至Q3.3的选定答案，我们获得了最终标注。对于所有问题，答案应为“是”，且置信度为“非常自信”或“自信”。如果至少两名标注者选择“不自信”，则由专家重新标注。最终，我们获得了Q3.1、Q3.2和Q3.3的最终标注，这些标注对应于图像地理位置的粒度。这些粒度被转化为测试数据的三个变体：Testcity、Testcountry和Testcontinent。请注意，更细粒度的样本是更粗粒度样本的子集。

标注研究结果 我们使用Krippendorff’s alpha（Krippendorff，2011）计算了Q3的标注者间一致性。城市、国家和大陆的一致性分别为0.41、0.41和0.51，我们认为这些值处于低到中等水平。对Q4和Q5的回答表明，40.2%的图像是特写，37.7%是室内图像，这两类图像通常描绘的弱地理代表性概念较少，对照片地理位置任务具有挑战性。在49.7%的样本中，标注者需要外部资源（Q6）来判断图像是否显示了链接地点。总体而言，这些数字表明该任务对人类来说具有难度，也解释了Q3的中等标注者一致性。

数据集统计 MMG-NewsPhoto包含554,768个训练样本、60,893个验证样本和2,259个测试样本（所有粒度的总和）。数据集涵盖14,331个城市、241个国家和6个大洲。表2.2显示了各大洲和前十名国家的数据分布。由于1,700个测试样本（约57%）是有效的，我们假设训练集和验证集中有效样本的比例相似。

2.3.2 MM-Locate-News数据集

本节介绍了一个名为**多模态新闻核心位置（MM-Locate-News）**的新数据集3。接下来，我们将介绍数据收集和清理步骤（图2.3），以及标注过程和数据集统计信息。

2.3.2.1 数据集创建

数据收集 该数据集以弱监督的方式收集。为了涵盖来自六大洲的多种地点，我们从Wikidata（Vrandecic和Krötzsch，2014）中提取了所有国家、首都、高人口城市和中等人口城市。对于每个地点，我们使用EventRegistry4查询2016年至2020年期间的事件，事件类别包括体育、商业、环境、社会、健康和政治。需要注意的是，EventRegistry会自动聚类报道相同（或相似）事件的新闻文章，并且聚类中心点的新闻标题代表事件名称。为确保质量，我们过滤掉名称中未包含地点的事件，或者其类别相关性和查询相关性得分低于每个查询地点所有事件平均得分的事件。此步骤的直觉是，名称中提到地点的事件更可能提供聚焦于查询地点的新闻文章。最后，我们从剩余的事件聚类中提取所有新闻文章。

数据过滤 我们采用以下步骤去除不相关的样本：

1. 命名实体-查询地点匹配**：我们假设如果一篇文章至少与一个命名实体在地理上接近，则该文章与查询地点相关。借鉴相关工作（Müller-Budack等，2021），我们使用spaCy（Honnibal等，2020）提取命名实体，并使用Wikifier（Brank等，2018）将其链接到Wikidata以进行消歧。我们提取坐标位置（Wikidata属性P625），该属性主要适用于地点（如地标、城市或国家）。对于人物，我们提取出生地（Wikidata属性P19），因为他们可能在相应的国家（甚至城市）活动。我们计算查询地点的地理坐标与提取的实体位置之间的大圆距离（GCD）。我们保留包含至少一个命名实体的新闻文章，这些实体的GCD与查询地点的距离小于k√a，其中a是查询地点的面积（Wikidata属性P2046），k是第2.4.2节中定义的超参数。

2. 事件-新闻文章距离：EventRegistry中的每篇新闻文章都被分配了一个相似性度量，表示其与事件的接近程度。我们丢弃相似性低于同一聚类中所有文章平均相似性的文章，以保留与相应事件最相关的新闻文章。

3. 冗余去除：我们使用TF-IDF向量（词频-逆文档频率）计算新闻文章之间的相似性，并在相似性高于0.5时丢弃其中一篇文章以去除冗余。

4. 罕见地点过滤：在应用过滤步骤1-3后，我们删除了少于五篇文章的罕见地点（及相关文章），因为这些地点包含的文章数量太少，不适合训练。

数据集统计 我们总共查询了853个地点，并提取了13,143篇新闻文章。经过数据清理步骤后，我们最终获得了6,395篇新闻文章，涵盖389个地点（237个城市和152个国家）。我们将MM-Locate-News数据集按地点均匀划分为训练集、验证集和测试集，如表2.3所示，大致比例为80:10:10（数据集样本见图2.1）。

2.3.2.2 数据标注过程

数据标注 数据集的测试集部分由人工标注。标注者根据表2.4中给出的三个标准（C1–C3），对给定的新闻文章及其图像和查询地点进行标注，提供“是”、“否”或“不确定”的标签。根据不同的答案，这些标准被转化为不同版本的测试数据，用于评估地理位置估计模型。在T1版本中，文本聚焦于查询地点；在T2版本中，图像和文本都代表查询地点。由于很难找到明确显示查询地点的图像，我们创建了T3版本，其中标注者不确定图像是否显示了地点。因此，在文本聚焦于地点且图像与文本相关的情况下，我们假设图像也显示了该地点。

标注者一致性 共有三名用户对测试集进行了标注，每篇样本由两名用户标注。根据Krippendorff’s alpha（Krippendorff，2011），标准C1、C2和C3的标注者间一致性分别为0.44、0.38和0.55。尽管一致性得分相对中等，但我们注意到百分比一致性较高：C2和C3为80%，C1为66.6%。这是由于标注者对所有标准的答案倾向于“是”导致的。

2.4 新闻照片的多模态地理位置估计

我们将新闻照片的多模态地理位置估计定义为一个分类任务，其中照片位置基于视觉内容和伴随正文的上下文信息进行预测。对于某一粒度g（例如城市、国家或大洲），数据集中可用的|Cg|个地点被视为目标类别。|Cg|维的独热编码向量yg = [y1, y2, ..., y|Cg|] ∈ {0, 1}|Cg|表示真实地点。在本节的剩余部分，我们定义了从最先进方法中提取的特征，并描述了多模态架构和损失函数。

文本特征 我们使用预训练的语言模型BERT（Bidirectional Encoder Representations from Transformers，Devlin等，2019）从新闻文章的正文中提取两种不同类型的文本特征，每种特征的维度均为768。

1. 全局上下文特征：我们平均每个句子的BERT嵌入，生成一个单一向量B-Bd ∈ R768，以编码全局上下文信息。

2. 实体中心特征：为了创建实体中心嵌入（记为B-Et ∈ R768），我们借鉴相关工作（Müller-Budack等，2021），结合spaCy（Honnibal等，2020）和Wikifier（Brank等，2018）将地点、人物和事件实体链接到Wikidata。基于这些实体的Wikidata标签提取其BERT嵌入。最后，我们计算实体向量的平均值，同时考虑同一实体的多次提及，因为这些提及可能对照片的地理位置更为重要。

视觉特征 为了表示地理代表性的视觉概念，我们依赖于CLIP（Contrastive Language-Image Pretraining，Radford等，2021）。我们使用ViT-B/32图像编码器提取512维特征，记为。

网络架构 在我们提出的模型架构中，我们的目标是结合文本和视觉特征来预测不同粒度（即城市、国家和大陆级别）的照片地理位置。由于视觉和文本特征的维度不同，我们首先使用le个全连接（FC）层对每个特征向量进行编码，每层包含ne个神经元。接下来，我们将这些嵌入连接起来，并将其输入lo个输出FC层。在隐藏输出层中，我们使用no个神经元，而在最后的输出层中，神经元的数量对应于给定粒度g的地点数量|Cg|。为了利用层次信息，我们为城市、国家和大陆级别分别使用独立的分类器，输出概率，|Ccontinent| = 6。请注意，除使用softmax的最后一层输出层外，所有层均使用ReLU（Rectified Linear Unit）激活函数（Nair和Hinton，2010）。更多细节可在GitHub5上找到。

损失函数 为了聚合粒度分类器并突出层次属性，我们构建了以下多任务学习损失函数：

其中，λg 是训练过程中为不同粒度学习的相对权重，通过整合对数标准差来考虑损失之间的量级差异。对于单个粒度 g ∈ {城市, 国家, 大陆}，交叉熵损失 Lg 的定义如下（公式 2.2）。

2.4.1 实验设置

本节介绍了在MMG-NewsPhoto数据集和BreakingNews（Ramisa等，2018）数据集上的实验设置以及不同架构的比较。

评估指标 我们使用预测位置与真实位置的地理坐标之间的大圆距离（GCD）作为评估指标，并在几个可容忍误差半径下进行测量（Hays和Efros，2008）。对于城市、国家和大陆，这些半径值分别为25公里、200公里和2,500公里。此外，我们还测量了Accuracy@k，该指标表示真实位置是否在模型预测的前k个结果中。

超参数设置 为了提取文本特征，我们将文本限制为500个词元。我们设置全连接（FC）层的数量为le = 2和lo = 2，并选择ne = 1,024和no = 512个神经元。单任务学习模型变体（用stl表示）使用单一粒度g进行优化，而其余模型则使用公式（2.1）中提出的多任务损失来学习层次化地理信息。

基线模型 我们将我们的模型与以下基线模型进行比较。需要注意的是，我们没有对这些模型进行微调，而是使用了它们的官方模型或实现。

2.4.2 MMG-NewsPhoto数据集上的结果

单模态模型的比较 如表2.5所示，在视觉模型方面，CLIPi显著优于基线模型base(M, f ∗)（Müller-Budack等，2018）。在文本模型方面，B-Bd ⊕ B-Et优于单独的特征。这表明上下文信息以及命名实体及其频率在新闻照片的地理位置估计中起着至关重要的作用。表2.7报告了Accuracy@k的结果，显示CLIPi视觉模型在国家和大陆级别上表现优异，但在城市级别上，CLIPi（stl）略胜一筹。在文本模型中，B-Bd ⊕ B-Et在国家和大陆级别上优于其他模型，但在城市级别上并未显著优于B-Bd ⊕ B-Et（stl）（表2.6）。

多模态模型的比较 如表2.5所示，最佳单模态特征的组合CLIPi ⊕ B-Bd ⊕ B-Et在所有粒度级别上均显著优于其他模型。关于Accuracy@k，表2.7也证实了相同的结果。对于多任务设置，它在所有粒度上都有效。总之，从较大粒度级别传播的层次信息不仅提高了较小粒度（如城市）的性能，还提高了国家和大陆级别的性能。

不同领域的比较 图2.4右侧展示了不同模型在各个领域上的Accuracy@1表现。如图所示，多模态模型在大多数领域中表现最佳。在金融、健康和体育等领域，视觉模型优于文本模型。在电视节目和世界领域，添加视觉信息并没有帮助；而在健康领域，额外的文本信息对性能没有显著影响。

不同概念的比较 图2.4左侧展示了每个概念（见表2.1）的Accuracy@1表现。如图所示，所提出的多模态模型在除公众人物和人群之外的所有概念上均优于其他模型。此外，基于多模态模型，事件概念的表现最差，而场景文本的表现最佳。

定性结果 图2.56展示了不同模型的结果。正如预期的那样，当图像中仅包含弱地理代表性概念时，视觉模型会失败（图2.5a）。然而，在以下情况下，视觉模型能够成功：（1）存在强概念（如图2.5b中的地标）；（2）弱概念高频出现，例如图2.5d中的士兵。文本模型在以下情况下会失败：（1）未提及相关地点（图2.5b）；（2）提及了各种不相关的实体，例如图2.5d中的美国。正如预期的那样，如果文本中提到了许多与地点相关的实体，文本模型会成功（图2.5a，c）。当文本提到许多与图像无关的主题时，多模态模型会失败（图2.5d）。相反，在以下任一条件下，多模态模型能够成功：（1）文本提供了丰富的信息（包括实体和内容），例如图2.5a，c；（2）图像展示了强视觉概念，例如图2.5b。

2.4.3 BreakingNews数据集上的结果

尽管BreakingNews（Ramisa等，2018）提供的地理位置可能不准确（如第2.1节所述），我们仍在该数据集上进行了实验以进行比较。BreakingNews包含33,376个训练样本、11,209个验证样本和10,580个测试样本。Ramisa等（2018）将该任务视为回归问题，其模型输出地理坐标。在我们的实验中，我们将该问题作为分类任务处理，以预测特定的城市、国家或大陆。因此，我们基于大圆距离（GCD）将地理坐标映射到MMG-NewsPhoto中最接近的城市、国家和大陆类别。表2.6展示了我们提出的模型与BreakingNews（缩写为BN，Ramisa等，2018）方法的比较。比较基于平均和中位数的GCD值（Ramisa等，2018）。我们在两种设置下评估了我们的方法。在零样本设置中，模型在MMG-NewsPhoto上训练并在BreakingNews上测试，无需进一步优化。在第二种配置中，我们在MMG-NewsPhoto上表现最佳的模型在BreakingNews上进行了微调和测试。B-Bd ⊕ B-Et模型在零样本设置中具有最低的中位数值（470公里），优于VGG19 + Places + W2V矩阵（Ramisa等，2018）（880公里）。总体而言，比较结果证实了将所提出的模型应用于未见样本的可行性。在第二种设置（MMG → BN）中，CLIPi ⊕ B-Bd ⊕ B-Et在所有BreakingNews基线上表现最佳，中位数值降低了180-380公里。正如观察到的，我们的模型在中位数指标上表现更好，即我们的模型对大多数样本表现更优。

2.5 新闻的多模态核心位置估计

2.5.1 实验设置

在本节中，我们报告了实验结果，包括使用GCD评估指标（第2.4.1节）在MM-Locate-News数据集（第2.3.2节）上与最先进方法的比较。

对比系统 我们基于特征模态评估了所提出模型的不同组合。我们还与两种流行的基于文本的方法（Cliff-clavin，D’Ignazio等，2014；Mordecai，Halterman，2018）和一种基于图像的最先进模型（ISNs，Individual Scene Networks，Müller-Budack等，2018）进行了比较。

2.5.2 MM-Locate-News数据集上的结果

结果如表2.8所示，并在下文讨论。

文本模型 对于较小的GCD阈值（特别是城市和区域），在T2中，B-Et ⊕ B-Bd组合提高了性能；而在T1和T3中，B-Et模型提供了最佳结果。单独使用时，B-Et比B-Bd的影响更大，这表明命名实体及其频率在预测新闻核心位置中起着至关重要的作用。虽然Mordecai和Cliff-clavin分别在T1和T3的国家和大陆级别上取得了最佳结果，但与我们的模型相比，这些基线在更细粒度级别上要么不适用（Mordecai），要么表现较差（Cliff-clavin）。

视觉模型 结果表明，CLIPi在所有测试变体中表现良好，在T1和T3上提供了最佳结果，并且与场景特征（Sc ⊕ CLIPi）和地点特征（Lo ⊕ Sc ⊕ CLIPi）的组合可以进一步提高结果。专门为照片地理定位训练的ISNs在T2上表现优异，因为T2中的图像描绘了查询地点并提供了足够的地理线索。与CLIPi不同，ISNs在其他测试变体上泛化能力较差。

多模态模型 与单模态模型相比，CLIPi与多模态信息的组合在所有测试数据变体和距离阈值上显著提高了结果。尽管我们的视觉模型在T2中未能超越ISNs，但当与文本特征（Lo ⊕ Sc ⊕ B-Bd ⊕ B-Et）结合时，结果显著改善。这些结果表明，多模态架构对新闻核心位置估计是有益的。

2.6 信息检索

在本节中，我们简要回顾了新闻检索领域中提出的多种方法。讨论的核心是强调新闻文章中地理信息的重要性。这些地理数据通常在定制和优化检索过程中起着关键作用。此外，我们研究了从新闻照片和正文中提取的多模态信息如何增强检索任务。

2.6.1 GeoWINE：基于地理位置的维基、图像、新闻和事件检索

提出的GeoWINE（Tahmasebzadeh等，2021）是一个基于地理位置的多模态检索系统，包含五个模块（见图2.6）。给定一张图像作为输入，它首先应用最先进的地理位置估计模型，从Wikidata（Vrandecic和Krötzsch，2014）、EventRegistry4和OEKG（Gottschalk等，2021）中检索数据。地理位置估计模型预测输入图像的坐标。第二个模块在Wikidata上执行地理空间查询，以检索距离预测坐标不超过指定半径的所有特定类型的实体。这里，实体类型和半径作为系统的输入。第三个模块利用从地理位置估计和地点识别任务中派生的三种不同的图像嵌入表示，以及用于图像分类的ImageNet模型。这些嵌入用于对与输入图像最相似的实体进行排序。最后两个模块从EventRegistry和OEKG中检索相似的新闻和事件。

评估我们在Google Landmarks数据集（Weyand等，2020）上评估了GeoWINE，其在预测查询图像的实体标签方面表现良好。GeoWINE通过简洁直观的用户界面（UI）和交互式响应时间，使用户能够检索与图像相关的实体、新闻和事件。据我们所知，这是第一个公开且开源的基于地理位置的多模态检索演示，支持多种数据源。为了促进可重复性和重用，所有材料均已公开7。

局限性 尽管GeoWINE在地标照片的地理定位方面取得了令人瞩目的成果，但其在预测具有新闻特征的文档中照片位置的效果可能有限。为了改进新闻领域的地理定位和检索任务，地理位置估计模块可以替换为结合视觉特征和文本信息的多模态方法，特别是针对新闻照片设计的模型，如第2.4节和第2.5节中提出的方法。

2.6.2 多模态新闻检索

Tahmasebzadeh等（2020）提出了一种基于零样本的新闻检索系统，该系统使用了第2.5节中介绍的各种视觉和文本特征。检索任务应用于一个包含英语和德语新闻文档的数据集，分别有348和263个样本，涵盖多个领域。

评估实验结果表明，在英语新闻中，尽管视觉特征并不优于文本特征，但它们帮助文本特征在环境和健康等领域提高了整体性能（见表2.9中的T ⊕ V列）。另一方面，在政治和金融领域，文本特征优于视觉特征和组合特征。原因之一是这些领域的照片内容在地点、地理位置或物体方面并不显著。另一个原因是与照片相比，文本内容更为丰富。由于这两个领域涉及非常具体的事件，如大众排放丑闻和希腊政府债务危机，文本中存在的特定实体使得实体重叠特征优于其他四种特征类型，包括所有视觉特征。

局限性 总体而言，实验结果证实了视觉和文本特征的结合可以增强新闻检索任务。然而，在使用高级视觉描述符来表征新闻图像的视觉内容方面仍存在差距，特别是在金融和政治等领域。利用能够识别照片中特定人物的面部检测器可能会带来益处，尤其是在这些新闻领域的图像中经常出现重要人物的情况下。

2.7 局限性与未来工作

在本章中，我们介绍了用于提取新闻文档地理位置的各种数据集和多模态方法（第2.5节和第2.4节）。此外，我们强调了地理定位在信息检索中的潜力（第2.6.1节和第2.6.2节）。

视觉特征 我们使用了多种图像描述符（如CLIPi、场景、地点和物体）来表示照片。所有这些描述符都为整张照片提供了一个特征向量作为通用表示。为了获得更好的多模态表示，能够将照片的各个方面与文本匹配，可以表示新闻照片中的个体概念，如人物、事件类型和物体。此外，可以从照片中提取结构化特征，例如表示事件参数关系的场景图。

文本特征 在文本特征方面，我们依赖于spaCy（Honnibal等，2020）、Wikifier（Brank等，2018）和BERT（Devlin等，2019）嵌入来提取两种类型的特征B-Bd和B-Et，每种类型作为一个单一向量。为了增强新闻正文的表示，可以包括外部知识，如知识图谱信息（例如实体类型、事件参数、事件日期）。此外，来自图像和/或文本的上下文信息（如事件参数和角色、新闻主题和情感）可能对新闻检索非常有影响。

多语言性 目前，所提出的多模态地理位置估计模型仅限于英语。为了推广到更多语言，需要在系统中集成命名实体识别工具以及相应语言的文本编码器。或者，可以集成文本翻译工具，将任何语言的输入文本转换为英语。

应用我们介绍了利用照片地理定位的信息检索系统（Tahmasebzadeh等，2021，2020）。作为未来的方向，可以研究新闻文档地理定位在新闻领域各种任务中的影响，例如假新闻检测或基于位置需求的新闻推荐。另一方面，所提出的照片地理定位系统可以集成到OEKG（Gottschalk等，2021）中，例如通过相应的图像扩展节点，或基于地理位置将视觉上相似的实体连接到节点。