分享嘉宾:杨比特丁香园
编辑整理:叶祺
出品平台:DataFunTalk
导读:本次分享的主题为医疗健康领域的短文本理解,主要介绍在丁香园的业务场景下,短文本理解的技术实践,并讨论知识图谱技术如何在医疗健康领域的搜索推荐中落地应用,希望能够给大家的日常工作提供一些思路。主要内容包括:
丁香园主要的业务和所服务的对象,以及在垂直领域下NLP工作可能需要面对的挑战
在医疗健康领域短文本理解上的尝试
结合工业场景,展示一些应用案例01业务场景及文本解析困境思考1.关于丁香园
丁香园的起点是打造一个专业的医学学术论坛,为医生、医学生及其他医疗从业者提供一个信息交流的平台,同时也推出了一系列移动产品以提供优质的医学信息服务。
目前,丁香园围绕着医生和大众来发展,业务覆盖这两类人群的日常需求。对医生为主的医疗从业者来说,会涉及到日常的学术问题、经验分享、疑难病例的讨论以及查阅药品说明书、诊疗指南等等。对大众来说,包括线上问诊、科普知识、健康商城等服务。
2.搜索场景的支持
搜索作为丁香园的基础服务,需要支持多个社交与工具类的应用,主要包括:丁香园论坛、用药助手、丁香医生、丁香家商场等主要App。处理的文本数据需跨越大众和专业医学这两个领域,涉及的业务线也需处理不同的场景。
这里我们举了几个比较有代表性的场景,前三个是面向专业医学背景的。
第一个是丁香园论坛,主要用户是医疗相关的从业者。用户会在论坛中,讨论最近的热门医疗事件,新冠疫情、考博、规培的分数线、医疗纠纷,或者发帖求助一些疑难病例,求一些医疗文献等等。
第二、第三个场景是来自于用药助手,这是一个工具类的应用。用户会将其作为搜索药物信息或诊疗指南的工具。
后面三个场景是面向普通大众的,包括对科普文章的检索、线上问诊数据的检索(举个例子,用户会问"湿疹反复发作怎么办?"、"坐月子能不能洗澡?"这类的问题)以及电商场景(大体上和市面上的电商场景都相似。不一样的是该场景会围绕健康话题去开展,如"产后康复"、"减肥减脂"等话题)。
3.垂直领域下的思考
①话题性
我们观察到的第一个点:医疗健康领域的内容普遍存在着话题性。
左边第一张图是医学的新闻事件,这与大多数的普通新闻比较类似。新闻事件会天然形成一个话题。比如"新冠疫苗最新进展",用户会围绕这个话题产生一些相关的搜索行为,如搜索"肺炎"、"柳叶刀"等潜在的、需要获取的话题意图。
第二张图是我们想要谈论的,在医疗领域比较特殊的话题性。因为在医疗领域关于症状相关的表述会非常多,或者用专业的表述我们会叫它"临床表现"。这里再解释一下"临床表现"的含义:你可以理解成生病后身体的一些症状,比如,头疼、发热、呕吐等。医生在做病例讨论时,常常会抛出他们认为比较关键,但又很让他们困扰、值得讨论的临床表现,如"术后出血引起的血肿"、"右下腹感染病变"、"胸部多发病变"。所以当用户发起一个讨论时,某些"临床表现"的词也会自然形成一个话题。但是这些话题相关的词并不像开放领域中的词有那么明显的边界。举个例子,在开放领域中,"梅西获得年金球奖"这样的话题相关的实体,如"梅西"、"年金球奖",在搜索时比较容易避免搜索的关键词与用户实际