2020 November 19 Paper, reading

医学知识图谱研究进展

论文英语句子笔记

Classifying relations in clinical narratives using segment graph convolutional and recurrent neural networks (Seg-GCRNs) （2018）

作者提出使用分段图卷积和循环神经网络，仅使用词嵌入和句子句法依赖，在不需要手工特征工程地基础上，对临床叙述关系分类。在这项研究中，同时通过在句子句法依赖的上下文中同时学习文本的表示来对两个医学概念之间的关系进行分类。实验结果表明，加入句法依赖信息可以帮助完善医学单词嵌入和提高概念关系的分类性能，并且不需要手工提取特征。作者还鼓励进一步用深度神经网络进行研究，更好的利用句法结构和语言特征，进行关系分类和其他NLP任务。

Deep EHR: A Survey of Recent Advances in Deep Learning Techniques for Electronic Health Record (EHR) Analysis （2017）

在过去的十年中，电子病历（EHR）中存储的数字信息数量激增。虽然主要用于归档患者信息并执行诸如帐单之类的行政医疗保健任务，但许多研究人员发现这些记录可用于各种临床信息学应用。同期，机器学习社区在深度学习领域取得了广泛的进步。在这篇综述中，我们调查了基于EHR数据的将深度学习应用于临床任务的最新研究，我们发现了应用于各种临床应用的各种深度学习技术和框架，包括信息提取，表征学习，结果预测，表型和去识别。我们确定了当前研究的一些局限性，这些局限性涉及模型可解释性，数据异质性和缺乏通用基准等主题。最后，我们总结了该领域的状况并确定了未来深入的EHR研究的途径。

面对未来的一些研究，作者分别从以下几个方面给出了期望：

异质数据 异质数据是指在医学电子病历中，存在各种不同形式的数据，如临床记录、放射性报告、离散用于计费目的的受控词汇表中的代码、患者人口统计信息、重要符合的连续时间序列和其他实验室测量数据等。未来，我们希望更多的研究将重点放在直接处理这些不同的数据集上，而不是依赖于主要用于计费目的的受控词汇表中的代码
不规则测量 我们希望未来涉及临床时间序列的深度学习研究将包括更强大的机制，用于处理不规则采样的测量而无需任何手工的预处理程序。
临床文本 鉴于临床文献中包含的知识量，我们认为仍有进一步的基于文本的临床信息学研究的机会。
统一表示
病人去识别 考虑到促进跨机构知识共享的潜力，我们期望深入的患者身份识别将是未来研究的另一个大领域。
基准
可解释性 因此，我们期望深入的EHR解释能力仍将是未来研究的一个持续领域

Deep Learning for Electronic Health Records Analytics （2019）

最近的技术进步导致大量来自各个领域的医学数据。然而，从不同源得到的记录数据通常具有糟糕的标注，噪声和无结构化等特征。因此，不能充分利用数据来建立可用于临床应用的可行见解。这些记录在医院电子健康记录（EHR）中的数据包括患者信息，临床记录，图表化事件，用药，程序，实验室检查结果，诊断代码等。传统的机器学习和统计方法未能提供可被医生用来治疗患者的见解，因为他们需要在建立基准任务模型之前获得专家意见辅助的功能。随着深度学习方法的兴起，有必要了解深度学习如何拯救生命。这项研究的目的是为使用EHR进行深度学习的可能用例提供一个直观的解释。我们通过提供技术上的直觉和蓝图，说明如何由深度学习算法来完成每个临床任务，从而对健康信息学专业人员可以应用的技术进行反思。

作者表示尽管即使没有要素工程或只有很少的要素工程，深度学习算法仍能表现出更好的性能，但考虑到与EHR任务相关的高风险因素，再加上EHR数据的高纵向性，稀疏性和嘈杂性，仍需要执行由适当的患者预测性深度学习模型之前的特征选择和表示。

Deep Learning Intervention for Health Care Challenges: Some Biomedical Domain Considerations （2019）

在过去的十年中，将深度学习（DL）用于生物医学和医疗保健问题的分析和诊断受到了前所未有的关注。当前，生物和医疗设备，治疗方法和应用程序能够以图像，声音，文本，图形和信号的形式生成大量数据，从而形成大数据的概念。本文回顾了DL方法的基本原理，并通过从PubMed和电气与电子工程师协会数据库中收集了文献资料，提出了DL趋势的一般视图。实现DL的不同变体的出版物。我们着重介绍DL在医疗保健中的实施，我们将其分为生物系统，电子健康记录，医学图像和生理信号。此外，我们讨论了DL影响生物医学和健康领域的一些固有挑战，以及着眼于通过促进生理信号和现代互联网技术的应用来改善健康管理的前瞻性研究方向。

Graph Convolutional Networks with Argument-Aware Pooling for Event Detection（2018）

当前用神经网络方法检测事件仅仅考虑了句子表示序列。尽管语法表示法提供了一种有效的机制，可以将单词直接链接到其内容丰富的上下文中以进行句子中的事件检测，但尚未在该领域进行探讨。在这项工作中，我们研究了基于依赖树的卷积神经网络来执行事件检测。我们提出了一种新颖的合并方法，该方法依靠实体提及来聚合卷积向量。广泛的实验证明了基于依赖的卷积神经网络和基于实体提及的事件检测池化方法的好处。我们在具有完善和预测性实体提及的广泛使用的数据集上实现了最先进的性能。

将来，我们希望研究采用句法结构的事件提取（即事件检测和参数预测）联合模型。我们还计划将GCN模型应用于其他信息提取任务，例如关系提取，实体链接等。

Overview of the First Natural Language Processing Challenge for Extracting Medication, Indication, and Adverse Drug Events from Electronic Health Record Notes (MADE 1.0)（2019）

这项工作描述了电子健康记录（MADE 1.0）语料库中的药物治疗和药物不良事件，并概述了MADE 1.0 2018从电子健康记录（EHR）笔记中提取药物，适应症和药物不良事件（ADE）的挑战.

我们创建了一个专家策划的语料库，其中包含来自癌症患者的纵向EHR注释。在MADE队列中标注了与药物和ADE相关的信息。我们将此队列发布给了研究社区，并以此为基准来评估最新的NLP模型。 MADE结果显示，NLP的最新进展已导致NER和RI的显着改善临床领域的任务。但是，正如NER-RI联合任务所表明的，仍有改进的空间。我们邀请未来的研究工作，以提高这些基准的最新状态。

Pattern Discovery for Wide-Window Open Information Extraction in Biomedical Literature（2018）

公开信息提取是生物医学领域的重要任务。 OpenIE的目标是在无监督的情况下从非结构化文本中自动提取结构化信息。它旨在从语料库中提取所有关系元组，而无需预先指定的关系类型。现有的工具可能会提取结构错误或不完整的信息，或者由于句子冗长而复杂，因此无法在生物医学文献上发表。在本文中，我们提出了一种新颖的基于模式的宽窗口实体（WW-PIE）信息提取方法。 WW-PIE首先使用依存分析来分解长句，然后再使用频繁的文本模式来提取高质量的信息。图案分层分组组织和构造提取内容，使其简单明了。因此，与现有的OpenIE工具相比，WW-PIE产生的结构化输出可直接用于下游应用程序。拟议的WW-PIE还能够提取n元和嵌套的关系结构，而在现有方法中对此研究较少。来自PubMed摘要的现实世界生物医学语料库的大量实验证明了WW-PIE在提取精确且结构良好的信息方面的强大功能。

结论：WWPIE首先通过使用依存解析树将句子分解成较短的句子，从而解决了冗长而复杂的句子结构。然后，WW-PIE发现频繁的文本元模式，并将其分层进行分组，以提取具有实体类型信息的n元分层元组。与最新的OpenIE基准相比，我们的方法可实现最高的精度，并保持所提取信息的简单性和层次结构。这些各种实验证明了WW-PIE在处理结构复杂且信息丰富的现实世界生物医学文献中的有效性。

Scalable Knowledge Graph Construction over Text using Deep Learning based Predicate Mapping

从文本中自动提取信息并将其转换为结构化格式是语义Web研究和计算语言学的重要目标。知识图（KG）是为非结构化文本提供结构的直观方法。 KG中的事实以三元组的形式表示，该三元组捕获实体及其相互关系（谓词）。从文本中提取的多个三元组在语义上可以是相同的，但它们可能会有词汇上的差距，这可能导致冗余三元组的数量激增。因此，为了摆脱词汇量的差距，需要将三元组映射到同质名称空间。在这项工作中，我们提出了一个端到端的KG构造系统，该系统识别并从文本中提取实体和关系并将它们映射到同质的DBpedia命名空间。对于谓词映射，我们提出了一种深度学习架构来对语义相似性进行建模。由于DBpedia中有大量的三元组，因此此映射步骤的计算量很大。我们确定并修剪不必要的比较，以使此步骤可扩展。我们的实验表明，相对于以前的工作，所提出的方法能够以显着较低的计算成本构建更丰富的KG。

Adverse Drug Event Detection from Electronic Health Records Using Hierarchical Recurrent Neural Networks with Dual‑Level Embedding

药物不良事件（Adverse drug event ,ADE）检测是朝着有效的药物警戒和预防由潜在有害ADE引起的未来事件迈出的重要一步。医院患者的电子健康记录（EHR）包含有关ADE的宝贵信息，因此是检测ADE信号的重要来源。但是，EHR文本往往比较吵。然而，将现成的工具用于EHR文本预处理会危害随后的ADE检测性能，这取决于标记良好的文本输入。

在本文中，我们报告了我们在NLP从电子健康记录中检测药物和不良药物事件所面临的挑战（MADE1.0）中的经验，该研究旨在促进这一主题的深入创新。尤其是，我们开发了基于规则的句子和单词标记化技术来处理EHR文本中的噪音。

我们的结果表明，两种广泛使用的序列标记技术的集成相互补充以及双级嵌入（字符级和单词级）以表示输入层中的单词，从而形成了深度学习架构，该架构可实现出色的信息提取精度电子病历说明。