登录

凭借cw2vec方法,阿里健康拿下中文电子病历实体识别全国冠军

作者: 动脉网 2018-08-17 14:38

全国知识图谱与语义计算大会(CCKS2018)8月14日至17日在天津举行,凭借出色的专业能力,阿里健康团队在中文电子病历命名实体识别评测任务中夺冠。


电子病历结构化是让计算机理解病历、应用病历的基础。基于对病历的结构化,可以计算出症状、疾病、药品、检查检验等多个知识点之间的关系及其概率,构建医疗领域的知识图谱,进一步优化医生的工作。


例如,基于大医院的优质病历数据训练的辅助诊疗系统,可以在基层医院应用以提升医生的业务能力;根据症状和以往病历记录自动分析医生开出的药品是否合理,预测发生误诊的概率等等。结构化的电子病历对于临床医学科研等工作也具有重大作用,医生可以更加智能地搜索相关病历,或者查看相似病历,也可以对病历进行相关统计分析,有助于医生发现潜在的知识联系,产生高水平的临床研究论文。


此次CCKS2018的电子病历命名实体识别的评测任务,是对于给定的一组电子病历纯文本文档,识别并抽取出其中与医学临床相关的实体,并将它们归类到预先定义好的类别中。组委会针对这个评测任务,提供了600份标注好的电子病历文本,共需识别含解剖部位、独立症状、症状描述、手术和药物五类实体。


目前主流的中文实体识别方法主要沿用自英文和其他语言的通用方法,并没有把中文的特色发挥出来。而正如英文中可以根据单词的词根词缀来猜测其意义和性质一样,汉字的笔画及偏旁部首中也蕴含着大量信息。阿里健康团队以两种序列标注算法为基础,首次在医疗文本领域采用了cw2vec的方法构建词向量矩阵,基于全部的非标注文本和标注文本集训练词向量,以解决新字无法识别的问题;同时改进了汉字结构和拼音的特征的一般方案。最终,团队以严格指标0.8913取得了第一名的好成绩。


图片1.png


“医疗命名实体识别只是我们团队工作的一小部分,也是我们面向医院和医生提供医疗人工智能服务的基础。”阿里健康人工智能实验室主任范绎说,阿里健康团队长期专注通过实体识别、实体链接、关系提取等手段从电子病历中识别信息,并在此基础上对信息进行融合和整合,以知识图谱的呈现形式,为其他服务提供数据基础。在此之上,基于电子病历数据,阿里健康打造了大数据科研平台、临床辅助决策引擎等针对医院和医生的多款产品,为广大医生和用户提供更加智能的用户体验,帮助其提升专业水平和工作效率。


CCKS是由中国中文信息学会语言与知识计算专业委员会(CIPS)定期举办的全国年度学术会议,致力于促进中国语言与知识计算领域的学术研究和产业发展,为从事相关领域理论和应用研究的学者、机构和企业提供广泛交流的平台,已经成为国内知识图谱、语义技术、语言理解和知识计算等领域的核心会议。

文章标签 医疗信息化
注:文中如果涉及企业数据,均由受访者向分析师提供并确认。
声明:动脉网所刊载内容之知识产权为动脉网及相关权利人专属所有或持有。转载请联系tg@vcbeat.net。

动脉网

未来医疗服务平台

分享
动脉橙
以上数据来自动脉橙产业智库

我们以独创的在线数据库方式,为健康产业人士提供全方位和实时的市场资讯、行业数据和分析师见解。现已覆盖数字健康、医疗器械、生物医药等近500+细分赛道,涉及公司名单、招投标、投融资信息、头部企业动态等各类数据并持续更新。

点击 【申请试用】了解动脉橙产业智库更多内容。
精彩内容推荐

慢性病服务中心运行百余日近万人受益,潍坊门诊慢性病管理创新成果初显

获得2.2亿美元E轮融资的Komodo Health为何获得著名投资机构Tiger Global的亲睐?

红杉资本领投,三星跟投,移动健康管理公司Noom完成5800万美元E轮融资

银江健康加码数据运营,开启智慧医疗产业新时代

动脉网

共发表文章7711篇

最近内容
  • 让AI全面“下基层”,微医为健共体装上“新引擎”

    1 天前

  • 2024未来医疗100强评选价值领域奖发布,保险科技与创新支付企业TOP5揭晓

    1 天前

  • 【2024VBEF】健康管理与健康险即将迎来哪些“新”?这场论坛带您一探究竟

    1 天前

上一篇

重磅战略投资者火线加盟,创新驱动誉衡药业触底反弹

2018-08-17
下一篇

蚂蚁金服区块链再落新场景,已开出近60万张区块链医疗电子票据

2018-08-17