论文阅读笔记(医学自然语言处理)

阅读博士论文《医学领域知识抽取方法研究》笔记

博士论文是了解某个研究领域很好的材料,这里没有做详细的笔记,只记录了我认为要熟悉的概念和一些方法。

记录

  1. Unified Medical Language System, UMLS 一体化医学语言系统,是医学领域的专家系统,定义了医学实体的本体和概念、多种关联关系、规划库等,其目的是克服医学领域的描述多元化问题。

  2. 知识图谱可以用来更好的查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。

  3. 作为知识抽取的第一步,识别文本中的医学实体,其目的在于通过识别关键概念后能够进一步提取关系和其他信息,并将识别的概念以标准化的形式表示出来。医学领域的实体抽取是从医学数据源中提取出特定类型的命名实体,主要有疾病、药物、检查、化学式、基因、蛋白质等。

  4. 大多数情况词典难以应对医学中实体抽取中的多样性和广泛性。因此,基于医学词典及规则方法仅可作为一个初步的基线解决方案,因其简单且无需监督的特点,在一些限定场景使用。

  5. 传统的浅层机器学习方法在实体抽取中能够取得较好且稳定的性能,但性能很大程度上依赖于特征工程的人工选择结果,由于人工选择的局限性,系统的泛化能力受到限制。在此基础上,医学领域的实体抽取采用了一些基于神经网络方法的自动抽取特征的方式。整体而言,传统机器学习方法能够在小规模数据集上取得可靠的效果,且有完善的理论证明,但在大规模语料上的效果会略逊于具有更强学习能力的深度神经网络方法。标准的循环神经网络模型单个节点输出为当前节点的局部最优解(虽然考虑了上下文的影响),因而容易忽略前后类标的整体性,结合 CRF 后,输出计算全局的最优解,能够进一步提升性能。

  6. 在医学领域,知识特征对深度学习方法的性能依然具有较大的影响,完全端到端的深度学习方法通常难以取得能够和采用知识特征的浅层机器学习、深度学习方法相当的性能。

  7. 医学知识图谱中知识来源的多样性导致了知识重复、知识质量良莠不齐、知识间关联不够明确等问题。医学实体在不同的数据源中存在严重的多元指代问题。实体标准化是判断多源异构数据中的实体是否指向真实世界同一对象的过程。实体标准化(Entity Normalization),在通用医学知识图谱领域也常被作为实体链接(Entity Linking)或者实体对齐(Entity Alignment),是医学知识抽取中非常重要的一步,若不进行实体标准化,则抽取的实体依旧是描述性的文字,而非知识性的概念。现有的实体标准化算法有单实体标准化基于结构的实体标准化两类,各自在不同场景下应用。

    1. 单实体标准化考虑实体形式和属性之间的相似性,包括基于规则的实体标准化方法和基于机器学习的实体标准化方法。单实体标准化不依赖于大规模知识图谱,多用于知识抽取阶段的实体标准化,适用于医学领域知识图谱完备程度较低的情况。目前研究的方法大多都基于词法和人工规则或一些浅层语义来寻求相似性,对实体本身的深度语义层面的建模较少。
    2. 基于结构的实体标准化则是依赖于知识图谱的图结构信息,核心思想是知识图谱中其他相关节点和关系能够对医学实体标准化提供帮助,例如两个实体被多个相同实体以相同关系指向,则二者为同一实体的概率较高。在单实体标准化的基础上再计算实体相似度时加入了实体间的相互关系,分为局部结构实体标准化与全局结构实体标准化。前者典型算法是使用向量空间模型和余弦相似度计算实体相似性,通常具有较低的精确度,但召回率较高且效率较快。后者通过不同匹配决策之间的相互影响来调整实体间的相似度,又分为基于相似性传播和基于概率模型的实体标准化方法。基于结构的标准化方法由于需要两个实体均处于在知识库中且具有关联的其他节点,其应用在于已构建成型的大规模知识图谱中的实体去重或异源知识库的合并,在知识抽取阶段由于缺乏冗余的大规模知识数据则难以适用。由于其能够利用知识图谱的结构信息来计算语义相似性[57,58]以提高实体标准化效果,通常性能较单实体标准化较好。
  8. 实体消岐(Entity Disambiguation)为医学实体标准化的核心问题。对于通用领域,通过一系列有监督以及半监督的方法,抽取文本或者知识图谱的结构特征来进行实体标准化是主流的研究方法[60]。对于医学领域而言,医学知识库由于可靠性和权威性的要求,主要由专家设计制定,不同知识库结构差异较大相对难以利用知识图谱结构,因此单实体标准化方法相对应用更多[61]。随着知识库规模扩大和实体数量的增加,知识库中的实体标准化越来越受到重视,如何准确高效地实体标准化是知识抽取方法研究重点之一。

  9. 医学实体关系抽取可以分为两个层级,第一个层级是医学实体层级关系抽取,这个层级按照本体的的观点通常是上位本体和下位本体或实体的概念关系,例如“糖尿病”与“I 型糖尿病”;第二个层级则是非层次关系抽取,例如“三多一少”与“糖尿病”是一种症状和疾病之间的联系,又如蛋白质之间、化学药品之间的相互作用关系。

    1. 对于同类型实体层级关系抽取而言,关系类型通常为两种,一种是上下位关系、一种是部分和整体的关系。对于同类型实体层级关系抽取,在医学领域通常均采用标准的知识库和词典,通过开放访问接口针对数据格式进行抽取分层结构,构建知识图谱。由于大量医学专家本体概念词表的存在,对于自动抽取而言技术难度较低,通常不是关系抽取研究的重点内容,而集中在实体标准化对齐表示这一方面。
    2. 对于不同类型医学实体间的语义关系识别,通常可以依照数据来源划分为两类。一是百科、知识库等结构化数据,这种通过已有的结构化知识转换的抽取构建方法,清晰的定义了具体的实体和关系,本文称为自上而下的抽取构建方法;二是医学文献、电子病例、健康档案、专业说明等半结构化或无结构化数据,由于这些半结构化和无结构化数据中蕴含的专业知识,通过自然语言描述,实体和关系都不是显见的,对此本文称为自下而上的抽取构建。

    通常预定义好要在实体间抽取的关系类型,再将抽取任务转换为分类问题来处理。如何预定义实体关系目前尚未有统一的标准,这取决于医学知识图谱构建过程中模式图的设置、实体识别情况、语料来源、构建目的及应用场景等。在 I2B2 2010 评测数据集中,将电子病历中的实体关系分成了疾病症状定义为问题,因此具有三类关系:问题与问题、问题与治疗、问题与检查。在样本数较少时,人工规则方法效果更明显,而面向大规模样本时则机器学习方法效果更好。句法分析特别是最短依存路径[69,76]被证明能够提升深度学习关系抽取模型的效果

  10. 对于医学领域而言,医学信息化的一个核心是医学知识信息化,也就是医学知识库乃至知识图谱的应用与构建。对于医学知识图谱的自动构建方法[106]而言,主要可分为四个部分,知识抽取方法、知识表示方法、知识推理方法以及知识展示方法。

    1. 构建医学知识图谱首要的问题是如何抽取知识,知识抽取是指如何从结构化、非结构化医学数据中抽取实体和关系知识、并且对应到知识图谱中的相应实体,防止产生冗余和歧义。
    2. 医学知识的表示是应对医学知识图谱的网络结构导致的数据稀疏性问题,若推理步骤多、网络规模较大,通常复杂网络会导致推理效率过低,此时可将网络结构转换成稠密低维的张量表示
    3. 医学知识推理是从已有医学知识图谱中找到更多的知识,减少人工参与,推理出缺失的事实,完成问题求解
    4. 医学知识图谱需要知识加工来量化评估抽取知识质量、表示损失的信息量、推理的可信度和准确度,对于知识构建而言,医学诊疗对于数据的可信度的要求通常更为严格

    医学知识抽取和通用领域抽取类似,首先需要从语料中获取实体的描述,再判断实体描述在知识库或知识图谱中对应的实体,最后将各个实体之间的关系进行汇总。主要是从非结构化数据中人工或自动地提取实体、关系和属性。

  11. 实体抽取和关系抽取任务通常采用查准率(Precision, P)、查全率(Recall, R)以及 F 值 (F-score, F) 来进行评估性能,而常见的用来评价实体标准化的指标是正确率 (Accurary, Acc)。查准率表示正确抽取的正例数据占实际标注数据的比例,查全率表示分类正确的正例数据占全部正例的比例。查全率和查准率二者相互制约,在模型性能不变的情况下,查全率的提高通常会导致查准率的下降。对于正确率而言,则为正确标准化的实体个数占据整个实际标注数据的比例,也就是损失函数是 0-1 损失时测试数据集上的准确率。对于多分类问题,则采用宏平均值和微平均值对各个指标进行统计,其中微平均值将各个类别的各个实例均等看待,若与标注结果一致则认为是正例,否则认为是负例,然后通过上述公式计算;宏平均值则是对各个类别分别计算查准率、查全率、F 值,然后取平均值。

  12. 医学领域实体标准化。将无序的信息组织成知识,文本描述的对象通常面临对应到相应的知识条目的标准化问题。主要挑战包含有三个方面:歧义性问题、多样性问题、知识缺失问题。在大多数医学领域,特别是临床文本关注的疾病、症状、药物、治疗这些实体标准化中,多样性的问题远较歧义性问题更为突出。至于知识缺失问题,该问题的重要性取决于数据集中对应的知识库的完备性而各有不同。

第2章

​ 相较于通用自然语言处理领域的各类型命名实体抽取(如人名、地名等,通常为连续的词或词组),医学(特别是临床医疗)所关注的通常而言不仅包括直接描述疾病、症状、药物、治疗的短语实体,还关注表示形式更加多元化的复杂实体。与通常以短语形式描述的命名实体不同,复杂实体还常以非连续、短句、含有数值或描述性指标的描述形态记录在医疗健康档案中。通用领域的命名实体抽取通常采用基于结构学习的序列标注方法,将实体抽取问题视作对文本中的字词进行分类,在实践中对短语实体抽取效果明显,但对于非连续、短句或者指标型等更复杂的实体抽取识别力有不及。(通用领域与医学领域实体识别的差异)。

​ 除此之外,由于医学知识紧密的结构体系,根据应用情况不同中可能确定一个实体多个不同层次的类型和分类,例如“Propranolol”(普萘洛尔) 是一个药物实体,而具体又属于“受体阻断药”这一药物分类,因此需要具有对实体进行层次分类的能力。临床诊疗还关注于事实实体出现的先后顺序,如诊断前是否用药、手术时间等,需要对实体出现的时间进行判断。

传统机器学习方法,具有较好的数学可解释性,且在小空间搜索的优势明显,可以得到全局最优解,但其依赖于特征的选择和优化方法;深度学习模型则多缺乏收敛性证明,但由于其通常不依赖于过多的外部特征,在具有大规模训练样本的情况下,通常能取得相比前两类方法更好的性能,但进行训练时的时间复杂度较高。

​ 概率图模型是一类用图来表达变量相关关系的概率模型。以图作为表示工具,最常见的使用一个节点表示一个或一组随机变量,节点之间的边表示变量间的概率相关关系,即“变量关系图”。条件随机场(CRF)作为一种无向概率图模型,在自然语言处理领域,由于文本的线性表示特性,通常采用链式无向图结构来计算给定观察值来估计输出状态的条件概率。通常通过梯度下降算法算法计算该条件概率以学习模型参数 λ, t, µ, s。对于预测过程则采用动态规划方法中的维特比算法预测序列。结构化支持向量机(SSVM),是在多分类支持向量机上的一种改进,其在函数间隔的约束条件中引入损失函数。深度循环神经网络(RNN),其输入为时序化状态序列,输出为对应时刻的预测值,其对每个时刻的每个状态序列采用相同的参数和操作进行运算,每一个操作都依赖于之前时刻的计算结果。因此其能够涵盖上下文的信息,适用于序列标注问题。将一篇文档中的每一个字词看做一个时间点状态,对应的类标作为输出,整个文档则作为一个时间序列,则对于每个时刻 t,其输入为 xt,输出为 yt,。相比于传统前馈神经网络模型,其输入和输出之间的关联性更强,每一个操作都依赖于之前的计算结果,对于文本序列而言,其逐字逐句的处理方式也更符合人类本身对语言的处理方法。在具体应用中,通常采用双向循环神经网络(Bidirectional RNN)、长短记忆神经元(Long-short term memory,LSTM)网络和门限循环神经元(Gated RecurrentUnit,GRU)网络等能够更好的处理较长序列依赖问题的改进算法。

基于结构学习的序列标注技术广泛应用于实体抽取应用上,对于短语层面的抽取效果在通用领域和医疗领域均经过多年的检验,但其难以直接应用于需要进行逻辑推理或者长段文本的抽取情况。而对于医疗实体抽取而言,虽然实体主要以短语的形式进行描述,但依旧有大量类型的实体难以通过短语记录表达。

i2b2(Informatics forIntegrating Biology & the Bedside)组织在其 2014 年评测中给出了符合现今标准需要的具体抽取定义。

医学命名实体抽取的步骤:给定一个无结构化的临床诊疗记录文件,首先预处理进行句子边界检测和词法分析操作,得到经过规范化的字词和句子。然后分别按照表 2-1 中表述的方式对不同描述方式的风险因子进行抽取,同时判断其类型和指标类型。在之后,采用一个时间属性鉴别模块,对各个需要分析其时间属性的风险因子进行鉴别。最后将这些风险因子进行转换回标准格式,并处理一些边界识别冲突、缺失项等。在词法、句子边界分析操作中,通用领域的词法分析系统难以准确的针对临床医疗文本进行分析。另一方面,临床医疗文本的书写通常由繁忙的医务人员书写,难以保证其格式或结构良好。因此,本章采用了 MedEx[114]的词法和边界分析方法,针对临床医疗文本进行规则定制,专门用于医药信息的句子边界检测和词法分析。

这两个基序列标注器使用的特征包括词袋模型、词性标记、词与词性标记的组合、句子信息、前后缀、描述性特征、词形、章节段落信息、通用命名实体识别、词表示、领域词典特征和否定信息。其中每一个特征的具体实现介绍如下:

  1. 词袋模型:对每个词取窗口 [−2, 2] 中词的一元、二元以及三元文法。
  2. 词性标注:对每个词进行词性标注,然后取窗口 [−2, 2] 中词性的一元、二元以及三元文法。
  3. 词性和词组合标注:对于每个词而言,该词语及其上文的词性搭配可能对其识别有所帮助。本文中采用当前词和窗口 [-1,1] 之间的词性的一元、二元文法进行组合。
  4. 句子信息:包括句子长度、句末结尾的字符、是否有未完成的括号。
  5. 前后缀:在长度 1-5 之间的词语的前缀和后缀。
  6. 描述性特征:对于词的一些特定的属性进行描述,包括词是否为全大写、是否含有数字、是否有大写字符、是否有标点、是否是纯数字。
  7. 词形:本文采用全词形和缩略词形结合的方式,其中全词形为采用“X”替换大写字母,“x”替换小写字母,“1”替换数字,“z”替换其他符号,缩略词形则是将全词型中的相邻的相同字符进行合并为一个后的结果。
  8. 章节段落信息:确定词归属的章节段落,该章节段落从临床电子病例样例文档中抽取获得(如“描述”、“家庭病史”,“治疗方案”等),共 29 个。
  9. 通用命名实体识别:判断词是否为一个通用命名实体,例如组织机构或者地名。
  10. 词聚类特征:对样例文本采用布朗聚类,得到词的类别,最大类别数设为 50。
  11. 领域词典特征:本文采用了 DrugBank 作为药物词典资源,首先根据风险因子药物示例找到其相关或类似药物,然后讲该药物加入词典。
  12. 否定信息:该词所在句子中是否出现否定词。
  13. mention 提及, high A1c 高糖化血红蛋白 high glucose 高血糖。前一个是直接描述该病人具有糖尿病,后两个是糖尿病的相关指标超出健康标准
  14. 本文的实体识别研究尚未涉及医疗领域中另一类常见的医疗实体识别描述方式问题,即非连续实体和多个实体描述部分重叠的问题。这些问题和本章描述的问题一起共同导致了医疗领域实体识别的复杂性。
  15. 如何将抽取获得的实体描述对应到标准实体概念上的标准化问题在通用领域常也称为指代消解、实体对齐、实体链接等,主要挑战包含有三个方面:(1)歧义性问题——同一个词或者词组在不同的语境下表达不同的意义,分别对应多个实体,需要对上下文语境进行解析;(2)多样性问题——一个实体可能对应多个不同的描述方式,由于知识库的有限性和描述方式的多样性,导致无法指明实体和描述之间的对应关系;(3)知识缺失问题——因知识库的不完备,实际语料文本中一部分实体可能无法准确对应到知识库的任一确定实体上,如何判断一个描述和所有知识库中的实体都不对应,这也是实体标准化实践中的一个难点。通常而言,在新闻、微博等通用领域数据集上,歧义性问题是最主要的挑战,例如人名歧义、地名歧义等。而对于大多数医学专业实体,特别是临床文本关注的疾病、症状、药物、治疗这些实体标准化中,多样性的问题远较歧义性问题更为突出。至于知识缺失问题,根据数据集中对应的知识库的完备性不同,各个领域在该问题各有不同程度的挑战。
  16. 尽管基于规则或浅层机器学习的方法和系统在疾病、症状领域取得了比较可观的性能,但规则或依赖特征工程的浅层机器学习方法,很难进行扩展和适用于其他领域,例如症状的同义词典特征无法适用于药物实体的标准化。更重要的是,规则化方法或者浅层机器学习方法由于缺乏深层的语义表示学习难以处理以下两种场景:(1)实体描述的词语很接近,但意义完全不同,例如“ADA-SCID (腺苷脱氨酶缺乏症,adenosine deaminase deficiency)”与“X-SCID (X 连锁的联合免疫缺陷病,X-linked combined immunodeficiency diseases)”,这两个实体描述对应完全不同的实体,但描述方式较为接近;(2)实体描述的词语差异性较大,但语义一致,例如“kaplan plauchu fitch syn-drome(kaplan plauchu fitch 综合症)”与“acrocraniofacial dysostosis(头面部骨质增生症)”,这两个实体描述对应同一个实体。
  17. 在词表示中,建模仅仅依赖局部或全局的共现关系,无法准确的表征同义关系,因而无法直接用于实体标准化。目前,实体标准化仍旧依赖于规则或者有监督的机器学习方法,但预训练无监督语料获取词表示能够有效的提高有监督方法的性能,加快收敛。
  18. 采用深度神经网络学习实体描述的深层语义信息,而排序学习方法获得实体描述和实体对的相关性。候选集合生成,即通过给定的医学实体描述在知识库中选取相应的候选实体子集。候选集合排序则是采用神经网络和排序学习方法在候选实体子集中找到最相关的实体。基于pairwise 的排序学习方法来进行排序。在训练阶段,将出现在训练集合中“实体描述,候选”对 < m, yi> (1 ≤ i ≤ n) 的目标标记为 1,否则标记为 0,以构建正负例。传统的实体标准化方法,特别是基于规则的实体标准化方法能够快速有效的从大量的知识库中找到有限的实体候选集合
  19. 基于规则的实体标准化方法有两种思路,一种是基于字符相似性的方式,如编辑距离、检索等,这种方法易于实现和优化,但通常难以确保效果;另一种则是采用转换方法,采用一系列规则将不规则的描述方式转换成标准的实体,这种方法通常比前一种效果更好,但缺乏普适性且实现较为复杂。在实践中,许多系统混合使用两种方式。对于缩写词而言适用于转换方法( ALICE 规则算法)、对于低频词更适用字符相似性方法。
  20. 对于基于卷积神经网络的医疗实体标准化方法而言,有以下几个值得进一步研究改进的方向,一是采用更优秀的医疗实体候选集合抽取方法,可从多个方面结合,如信息检索、知识图谱链接预测等以精确的得到候选集合。另一方面,虽然并非所有医疗数据都有规整的上下文,如诊断、检查等通常以独立的文本出现,但医学文献、住院病历等大规模医疗文本数据中尚有消岐的需求。目前通用领域集中研究的通过上下文和知识图谱来进行实体描述的语义消岐能够对篇章级的实体标准化的性能进一步提高。
  21. 对于医学文本的实体关系抽取而言,其面临以下几个挑战,一是在 通用领域研究较多的为句子内的实体关系抽取方法,其一般依赖于句法结构信息 来进行分析,对于医学文本而言,其句法结构信息通常相对通用领域抽取效果更 差,更重要的一点是在医学文本中经常有跨句子乃至跨段落的文档级实体关系描 述;另一方面,在一篇文档中,两个实体通常不仅出现一次,无法确定描述了二 者之间关系的具体句子或段落,相对有具体描述片段的关系抽取更加困难;最后, 医学领域中先验知识对于关系抽取也十分重要,在大多数实体识别任务或系统中,是否利用领域知识辅助识别的效果差异较大。
  22. 医学文本的实体关系抽取问题一直是热门的研究方向。实体关系不仅可以用以构建知识框架,更可以直接应用于实际应用诸如指导药物研发、挖掘药物新疗效等方面。海量的深层知识蕴含在医学文献中且包含复杂多样的关系,仅以导致疾病关系为例,就有大量诸如药物导致疾病、疾病导致疾病、基因导致疾病、病原体导致疾病等等诸多不同类型的关系。更为重要的是,相比于通用领域集中于对句子级实体关系抽取的研究,医学文本不同于微博等短文本,篇幅较长,包含多个句子。对于描述的实体通常会多次提及,采用不同的语句或段落介绍同一实体不同方面的信息。另一方面,医学文本需要大量专业领域知识才能通读,而大量关系都隐含在跨句子的文本片段中。相较于单个句子级实体关系抽取通常在确定实体位置后转换为句子分类问题,对于文档级实体关系抽取而言,首先需进行实体抽取和实体标准化,确定实体类型和位置并且判断哪些实体是相同的;在此基础上,对任意两个可能具有关系的实体进行两两组合(本文暂不考虑多元关系)得到待判断实体关系的实体对集合;假定 < htype, ttype, r > 为一组目标抽取关系,其中 h type为头实体类型,ttype为尾实体类型,r 为关系,例如 <“药物”,“疾病”,“导致”> 关系中“药物”和“疾病”分别是头实体类型和尾实体类型,“导致”为药物导致疾病关系。对于文档 Di有 mi个不同的 htype类型的实体集 H、ni个不同的 type类型的实体集 T。因此对于文档 Di的 < htype, ttype, r > 关系抽取,实际上是对 H × T (if htype! = ttype) 实体对集合中各个元素判断是否有 r 关系。
  23. 由于文档级的关系抽取中的关系可能存在整个文档中,因此若模型能够对所有可能的文本片段而不仅是最近的片段进行处理,则能够更全面的获取关系信息。
  24. 为了选择出在经过卷积操作后和实体关系分类更重要的特征,模型在 池化层采用注意力机制, 通过对每个过滤器的结果进行加权,增大或者降低相关过滤器的影响。在进行了基于注意力机制的池化处理后,模型得到了由分段式卷积神经网络生成的实体描述片段的向量表示。
  25. (1) 比较毒理学数据库 (The Comparative Toxicogenomics Database),该知识库构建有常见人类疾病和主要化学物质的关系,包括有:“marker/mechanism”和“therapeutic”两种主要关系,特征为实体对是否在该数据库中记录有这两种关系。 (2) 药物与适应症数据库(MEDI),该知识库包含有常见药物与常见适应症关系,特征为实体对是否记录有适应症关系。 (3) 药物副作用数据库 (SIDER), 该知识库包含有常见的药物与常见的副作用关系,特征为实体对是否记录有副作用关系。 (4) 医学主题词(Medical Subject Headings,Me SH),构建有药物和疾病实体的上下位结构关系,特征为头尾实体的所有上位实体。
  26. 有监督模型的分类样本是基于强假设进行获取,即找到两个实体的所有描述后,选取描述距离最短的文本片段进行学习。这种方法使得从整个篇章文本空间中搜索和提取特征,转换为从最短距离的片段中搜寻特征,大大降低了复杂度过 滤了噪音。然而从另一个角度,这种强假设可能带来的问题是,若关系描述并非在距离最短的文本片段中,则示例丢失了特征信息。为了解决这一问题,本文基于弱假设,不仅将距离最短的文本片段作为示例,而是将两个实体所有的描述之间的文本片段进行抽取,然后组成一个集合,对该集合进行分类。
  27. 传统的多示例学习采用的寻找有效正例然后迭代更新的方式,从算法设计而言非常依赖于针对样本设计寻找有效正例的方法,这种方法因数据不同而有所差异,从实际运算的角度来说算法复杂度过高,且容易导致误差积累。
  28. 发现采用弱监督模型处理完整的实体间文本片段集合相比仅仅处理实体间最近的文本片段具有显著的性能提升。
    • 对于目前的模型对整个文本片段采用卷积神经网络抽取特征的方式学习文本语义,尚无法准确的对缺乏显著特征的长文理解类进行处理,这种长文理解类问题也是目前自然语言处理长期存在的一个难题。
    • 缺少对关系描述并非蕴含在最短句子中的识别。
    • 部分复杂单句关系的识别错误。对于少数单句,由于描述方式的隐晦性,在训练集中也未有类似的描述形式,因此难以对该类单句进行关系抽取。
  29. 采用专业领域知识能够大幅提高抽取效果,这说明了领域知识在处理垂直领域问题的重要性,知识图谱或知识库不仅能在诸多专业领域应用,还能够帮助提高知识抽取效率和效果。
  30. 所谓药品合用是指在药品生产或者治疗过程中,将两种或两种以上药物混合在一起使用。恰当的药品合用可以改善药剂性能,增强疗效,如维生素 C 可以提高亚铁盐的吸收率。但合用也容易产生配伍禁忌,混合使用时会产生物理化学变化或者是药理性变化,若采用了配伍禁忌的药物治疗方案,轻则导致药物治疗作用失败,重则导致毒副作用,引起严重的不良反应乃至危害生命健康,在治疗中多种药物合用时需要警惕药物合用时是否有合用禁忌情况。然而,在实际治疗中使用的药品通常具有多种成分,同时采用相同成分的药物而不改变剂量容易导致药物过量,因此涉及到对药品和其 药物成分关系。由此可知,药品合用分析问题涉及多种实体和关系的推理,因而需采用知识图谱将知识进行结构化标识,便于推理和应用。由于传统中医学有别于现代医学体系,目前并未有较为完整的中文药品合用分析公开数据集。将知识分为两个类型:浅层知识(强调知识广度)和深层知识(强调知识深度),分别进行构建。对于浅层知识,可采用从结构化或半结构化数据中抽取的自上而下方法,规模化的抽取;对于深层知识,则需采用本文之前介绍的知识抽取方法并针对问题进行改进,从而进行自下而上的抽取。特别地,对于药物和成分的相互作用关系提出了一种针对头实体缺失文本的关系抽取方法。
  31. 在药品说明书中,其头实体描述对象作为主语时多为缺省。同时,一篇文档中对尾实体可能有一次以上的跨句描述。为了解决这一问题,本文提出基于循环神经网络的主语缺省关系抽取方法,该方法采用深度神经网络对头实体缺省关系进行处理,采用类似序列标注的方式,能够同时标注多个尾实体的关系。
Table of Contents