"); //-->
一、丁香园业务场景概述
丁香园起点是打造一个专业的医学学术论坛,为医生、医学生、医疗从业者等提供一个信息交流的平台。丁香园的主要用户是医疗从业人员,会在论坛上发布考博、规培分数线、求助医疗文献等内容。随着业务的不断扩展,发展出了丁香医生、丁香妈妈等APP,为大众用户提供了一个健康信息平台。
目前丁香园从早期的医生用户扩展到了大众用户,实现了ToD(To Dcotor),ToC双核心驱动,业务会覆盖这两类人群的日常需求。比如,对医生为主的医疗从业者来说,会涉及到日常的学术问题、经验分享、疑难病例的讨论以及查阅****品说明书、诊疗指南等。对大众用户来说,包括线上问诊、科普知识、健康商城等服务。在2021年,丁香园C端规模达到1.2亿,医生端拥有全国70%的医生作为注册用户。
二、医疗图谱构建
首先介绍一下丁香园应用到的医疗健康图谱。医疗健康图谱构建由专业的医疗团队来维护,有医学背景相关同事维护疾病、症状、手术、****品等医学概念以及60多种医学关系。同时,丁香园nlp组会用一些算法去抽取和意图分类等工作,利用算法与人工相结合的方式对实体、关系、实体属性进行扩充。因为丁香园业务模式较多,需要考虑在图谱应用上如何做迁移、融合工作。
为更好地去分析用户意图,构建用户画像,在实际工作中我们使用一种Taxonomy概念图谱。例如,搜索十二指肠溃疡,丁香医生会给出一个搜索结果:“十二指肠溃疡怎么去治疗”,它是消化内科的一个疾病,可以将其定义为一个消化内科的概念。在丁香园搜索规培考试,给对应的规培考试内容标注相关的标签,比如成绩查询、内科的标签考试答案等。
概念图谱会以一个四层结构构建:
第一层底层是entity实体层,例如规培考试、十二指肠溃疡、腹痛等。
往上一层是instance层,也就是文章内容。例如十二指肠溃疡怎么治疗。
concept层是概念层,可以根据文章的用户点击行为、搜索行为、内容聚类,抽象到上层的concept概念结构,比如十二指肠溃疡对应的是消化内科的一种疾病。
最上面一层,建立与业务强相关的topic层。
利用层级关系对长短文本进行多层次、丰富主题的刻画,去分析、理解用户的搜索行为。
之前提到了两种知识图谱的构建,接下来介绍如何使用算法去优化命名实体识别、关系抽取等。举一个命名实体识别的例子,如“症状性动脉粥样硬化性椎动脉起始部狭窄的治疗”,常规NER可能会把这个识别成三个实体:
*博客内容为网友个人发布,仅代表博主个人观点,如有侵权请联系工作人员删除。