我的位置:

金准数据 医疗大数据研究报告

发布人:管理员

金准数据认为,中国疾病谱从2010年开始向发达国家靠拢,在此之前基于传染病防治建立起来的、传统的医药工业、流通、服务格局开始产能过剩,而基于慢性病的新型工业、流通、服务的产能出现稀缺,肿瘤、心血管和精神类疾病占比将处于上升通道。

从投资的思维看,当前医疗健康行业处于风口之中,单个企业的价值已被挖掘充分,投资机构想要获取超额回报,必须找到“buy-and-build”机会的产业,这其中,药店既存在集中度提高、线上线下整合的机会,还有望充分享受药品产业链变革的模式红利。

1、健康产业投资分析

1.1健康产业现状分析

健康中国2030年的规划中已经提到,到2020年中国的医疗市场是8万亿的规模,但人均的医疗规模在全球还是非常小的占比。我们通过这些数据可以看到,当一个国家的人均GDP超过8000美元以后(图1),影响人均寿命的主要原因已经从传染疾病上升到了慢性病。当我们进入慢性病时代,从2010年开始,疾病谱的种类开始向发达国家靠近,意味着在此之前我们中国基于传染病的防治建立起来的传统的医药工业、流通、服务的格局已经开始产能过剩,而基于慢性病的新型的医药工业、流通、服务的格局出现了稀缺。针对这样的格局的转变,在疾病以及子行业两个维度都会出现大量的供需不平衡的局面,就会存在投资和并购的机会。

人均GDP超过8000美元,疾病谱将从传染病到慢性病转变

我们对中美两国的疾病的种类进行比较,如中国2011年的疾病发病率占比和美国2007年的疾病发病率占比,不难发现有些方面的疾病我们的占比更低,比如说肿瘤、心脑血管疾病和精神疾病方面。随着中国人均收入的提高,中国老百姓的疾病结构会逐渐地跟美国靠近,这也意味着这里面也存在着投资的机会。


1.2健康产业投资思路

我们把所有的投资机会分成三类,第一类是医疗产品驱动公司,它包括了药品及生物技术,然后是医疗器械和诊断制剂,它的核心就是产品和技术。第二类是医疗行业模式驱动型公司,包括连锁药房、医药电商、物流配送、医疗器械配送,它的核心是供给侧改革,就是供给模式变化带来的投资的机会。第三类是医疗服务提供型的公司,这实际上是新型的医疗服务机构,包括新型的私立的医疗机构、互联网医疗、远程医疗、公立医疗改制等等。

我们可以把市场上所有的标的按照这三个门类进行分类,然后在每个门类选取其中成功的因素和核心的环节。举个例子,在医药这个门类,可以看到我们分为新药研发的企业,还有强调工艺创新、提高药物质量的生产企业,还有产品线成熟、销售渠道能力强的企业。新药研发企业有研究全新药物的,也有在现有的基础上进行更新的企业。工艺创新、提高药物质量生产企业也会分为制剂工艺创新、制剂能力提升等等。医疗设备的分类我们也可以一类类地把它分下来。

但是这样分类还是不够的。我们刚才说的这些价值点,医疗行业的专家、分析员都可以看到、分析出来,所以我们不妨从另一个角度来看,这个角度我个人把它称之为第二层思维下的投资。这个概念是橡树资本董事长霍华德·马克斯在《投资最重要的事》一书中论述的。


第二层思维下的投资,就是说我们大家目前都能看到的这些企业的价值,其实作为一个投资机构来说是占不到任何便宜的,它的潜在价值已经被充分挖掘。这个投资机构如果想获取超额回报,必须能做到“buy-and-build”,也就是我们要能看到一些行业整合的机会,才能获取超额回报。

我们看到的整合的机会在哪里呢?这里我们再次举个例子进行数据分析。比如说我们看到药店行业,美国有7万家药店,平均连锁单店是1027家,有80%的药品是通过零售的渠道来销售的,而中国有43.6万家药店,平均连锁单店只有40家,药品只有23%是通过零售渠道销售。当然还有医疗器械、药企和流通等等方面,我们都可以和美国进行对标,通过这个对标我们可以发现,哪些行业存在“buy-and-build”机会呢?最明显的就是医药零售行业。

让我们来仔细分析连锁药房这样一个业态,我们可以看到存在着大量的线上线下结合的机会。

线上我们可以通过药房的移动APP,实现移动电商的O2O,可以实现轻问诊,通过小的硬件可以实现健康的检测和记录,可以通过定位服务来实现消费者到附近药店或者经过某一个物理点的商品推广,之后的大数据又能够为我们的消费者提供健康管理、互联网商业保险等服务,还能提供消费者的行为统计、精准的营销服务,这些都是在线上的行为。

在线下,实体连锁药店的机会在于,有传统的药店零售的业务,有中国特色的中医坐堂业务,我们还有代客煎药、代客送药的业务,还有健康咨询业务,同时线下药店还会有健康营养品的销售业务。所以说一个连锁零售药店是有巨大的线上和线下加在一起的机会,这些机会使得基石资本把眼光在这里面做了进一步的深层次的思考。

1.3第二层思维

刚才我们只是看到了第一层思维,即在移动互联网不断发展的中国,药店存在线上线下结合的机会。如果我们比较中美医药电商业务占药品零售额的占比,中国只占到1%,美国高达30%。

第二层思维是,如果我们进行行业整合,会有怎样的额外的经济效益产生?这里我们也对传统的医药产业链进行了分析。

我们会看到从药厂的产品出来之后,一直到终端消费者会经过非常多的层次,比如产品从药厂出来,会经过省会中心城市的医药公司,这个医药公司有两条通路,一条通路往下批发给地区、县级的医药公司,再往下批发到乡镇的医药站,各个区域的医药公司又批发到各地各层级的医院,形成这样层层批发的行为。如果说我们的连锁药店能够形成有规模的整合和协同的关系,可能我们能够绕开各种层级的批发,直接实现对上游的砍价实力,提升毛利率,最终给消费者以实际的收益,特别是中国消费者进入到慢性病管理的时代,连锁药店集中度的提升能给消费者带来巨大的节约。

如果我们把中国的医药连锁门店再次用数据进行分析,我们可以把它分成四个矩阵,从两个维度进行分析。第一个是单店产出,也就是单店的销售金额;第二是单店能服务多少人。

我们把中国所有省份的数据,按照这两个维度进行排序,排序完之后可以看到四个地区。从这四个地区可以看到,在右上角单店的产出非常高,同时单店的服务人数也非常高的区域,就是最有潜力的区域。我们可以看到上海、江苏、福建、陕西这些地方单店产出高,一个药店服务的人数又多,这是最佳的区域。还有需求薄弱区,一个店服务的人数比较多,可是它的单店销售比较少,说明这个地方的人均消费能力弱,如说广西、河南,这就属于需求薄弱区。右下角是竞争过剩区,单店非常多,服务的人数比较少,竞争激烈。

通过这样的角度可以看到,如果基石资本要进行这样一个产业的整合,我们应该在哪个领域进行着手呢?显而易见,我们应该在右上角的区域做一个密集的布局。

因此,大规模并购连锁药店,形成一定的规模,一方面可以提升和药厂的砍价实力,也可以把单个药店进行梳理和改造,让它作为一个社区医疗的服务点,让它作为一个医药O2O电商的服务点,让它作为一个中医轻问诊的服务点,让它作为各类健康营养品的销售点,这样为社区的消费者提供低价、优质的产品,最终这样的大型医药健康连锁集团还可以合适的方式进入到资本市场,为我们的投资者获取丰厚的回报。


2、人工智能技术在医学领域的应用与前景

2.1当前医疗领域深度学习应用热点方向

当前宣传的最火的就是深度学习。因为它的表征处理能力,可以很好的把很多现实问题转换成可以处理的形式。深度学习擅长处理的就是高维度、稀疏的信号。图像就是这些信号中一种有代表性的形式。医学影像处理应用很明显必然是一个热点方向。除了医学影像处理以外,临床里边还有很多其他问题域,比如时序信号处理、临床数据的信息提取等等,这些虽为很好的问题域,但都不及图像处理容易得到结果。

医学影像处理典型的四大类问题是:影像分类、目标检测、图像分割和影像检索等。都能对应到日常临床应用里的一些痛点的、比较浪费人力的问题。


2.2前沿研究成果

以下分享临床问题领域把握比较到位、得到的结果也比较好的一些论文。因为都是针对医学影像数据,采取的建模方法都是类似的,基本上是基于CNN做各种模型变换,最后得到结果。

(1) 基于乳腺钼靶影像的病变检测

乳腺钼靶是常见的乳腺癌早期筛查方法,它的诊断难度其实不算大。如果有一个模型能够有效地检查钼靶影像中间异常密度区域,就可以很好地降低人工筛查的工作量。在这篇文章里,达到的结果接近人类专家的平均水平,这是一个非常了不起的结果。

(2) 脑部核磁共振影像中的白质高信号灶分割

为什么关注白质高信号灶?因为一旦核磁共振上面发现脑白质里有异常信号表达的时候,很有可能说明,在未来的一段时间内患者容易发展出帕金森氏症,所以它是预测帕金森氏症的一个有力指标。这里最重要的是怎么能准确地分割出脑白质的高信号灶。这篇论文用的也是相对比较传统的模型组合,最后得到的分割效果接近了人类专家的水平,也是一个不错的结果。

(3) 基于皮肤镜照片的皮肤癌分类诊断

这是斯坦福做的之前引起较大影响的论文,结果已经达到了人类专家水平,甚至超过了大部分人类专家,接近了一些非常有经验的专家。而它用的结构却是非常传统。

深度学习模型本身就是一种具有非常强表达力的模型,那么我们再去构建很复杂的网络结构、增加很多参数的话,其实很可能会变成过拟合的状态,反而无助于结果的一般化。所以,最重要的是我们如何能拿到足够多的、有标注的、高质量的数据集。数据集的规模越大,数据质量越高,最后能达到的效果一定会越好。相比于机器学习领域中大家争先恐后地去寻找新的网络结构、新的激活函数、新的优化方法的趋势,我们在临床需求落地到具体场景时,更应该关注的是原始数据怎么取得,怎么能以比较低的成本拿到高质量的数据。因为只要解决了数据这一点,建模这一步上面,其实并不存在决定性门槛。

(4) 基于数字病理切片的乳腺癌淋巴结转移检测


这一篇是Google Brain给出的,对高分辨率的数字病理切片,基于Google Inception Net的网络结构去做特征提取,最后进行分类,然后刻画出来的乳腺癌细胞在组织上面的分布情况。它的检测效果达到了人类专家水平。且在与Google有合作的几个医院里,用训练集之外的真实数据去验证的结果仍然相当不错,这对于数字病理切片分割和性质的判断是很有应用前景的。

(5)基于眼底照片的糖尿病性视网膜病变检测

这篇是Google Brain的结果,仍然是以Inception Net为基础的模型结构。本身眼底镜影像相比于其他影像最麻烦的地方在于,眼底镜之间的数据异构性太大,不同人拍摄出来的眼底镜的曝光程度、偏心程度、视野范围,都有很大的变异性。如何很好的在预处理阶段尽可能的消除这些变异性影像,是它做的重要工作。最后达到的效果也是相当不错,判断视网膜病变严重程度的准确率和人类专家持平。


(6) 胸片骨减影应用

通常来说,面向的数据集都是断层扫描,因为断层扫描能够获得尽可能多的数据。但是,断层扫描单次检查对于患者的辐射量很大,用X射线要反复去切患者身体,辐射量要比做一次X光胸透大得多。我们想,有些患者是不是可以从单次胸透这种以很低剂量接受的检查的结果里面,发掘出来尽可能多的信息。胸透之所以提供信息量有限,是因为胸透是一个平面的叠加,把骨骼密度和人体里面软组织的密度分布情况,都叠加在一起,很难看清楚细节,谁也不知道这一部分吸收的X射线,到底是因为哪个组织产生的。


我们看软组织时,会希望把骨骼引起的影响给消减掉,也就是说把骨骼的影子去掉。怎么去除骨骼影这个问题很早就有人思考。医疗影像仪器制造商想了一个很聪明的办法,他考虑软组织和骨骼对于不同能量的X射线吸收特性不一样,那就先用低能量X射线拍一张,间隔很短时间后,再用高能量X射线拍一张,然后基于这两张照片上面不同组织的吸收特性不一样,做一个建模,然后利用数学方法把这个影减掉,这就是DES,也就是双能量数字减影技术。它可以拍出几乎看不到任何骨骼影子的软组织照片,但是DES技术有一个先天技术缺陷,是两次拍摄之间有一个间隔时间。

人是活着的,人体的组织在不停地蠕动,在间隔过程中,器官可能会变形,可能会移位,然后会造成DES技术拍出来的软组织照片有很多伪影,这个伪影会误导医生。在这个文章里面,它利用深度学习方法,基于单张传统胸透照片剔除其中的骨骼痕迹,得到的结果比传统DES摄影的软组织细节效果更好,也没有DES技术中产生的软组织伪影,这一篇文章是很有启发性的。


2.3医学数据处理方向、成果、挑战

(1) 医学数据处理方向

一是临床信息的提取。包括我们如何去把传统的非结构化文本病历进行电子化、结构化,转变成可分析、可处理的结构化数据。

二是掌握结构化数据。谁掌握了越多的可分析的结构化数据,谁就能做出越多的临床科研成果,数据是最核心的价值。零氪科技开发了Fellow-X自动结构化引擎,可以让95%以上通过HIS系统对接的电子病历,自动转化成可分析、可处理的结构化数据,极大的降低了结构化的工作量。还有剩下的只能靠人工部分,也设计了一个很好的双录入加QC的比对流程去处理那些很难处理的少量病历。

(2) 医学数据处理成果

基于结构化病历的数据,得到成果。其中包括肺部结节的检测模型、重要并发症的风险预测。现在做的是中性粒细胞减少症、血红蛋白减少症、血小板减少症这些的风险预测。它们是肺癌患者化疗后很容易出现的一种恶性并发症,一旦出现严重的症状可能会造成生命危险。如果应用了零氪科技的预测模型,可以提前预知患者出现严重并发症的风险如何,然后在化疗前就给予适当处理,降低出现严重并发症的风险。

(3)医学数据处理挑战

主要有三大块,一是优化目标的定义,也就是说问题本身的定义如何;二是可用数据,你能否拿到足够多的可用数据;三是模型的可解释性,如何处理对模型结果推理过程的置疑。

优化目标定义:之所以是一个问题,是因为临床上面很多问题的定义是模棱两可的,我们只能凭经验、凭一些医生的日常行为来粗略地去刻画这个问题,很难拿到一个数学上非常精确的问题定义。但是一旦问题定义不精确,最后对问题建模后的结果必然不对。所以优化目标的精确定义是非常重要的。

可用数据:即可用数据、高质量的数据集的重要性。

模型因果性、可解释性:这是与临床结合做研究的时候一个独有的问题。临床是和人的生命息息相关的,所以做的任何一件事情都要有理有据,都要有因果推论的关系。但是,我们做机器学习模型时,很容易陷入到直接对相关性进行建模的这样一个陷阱里。相关性建模涉及的两个因素未必有直接的因果关系,得出的这个模型,如何解释它最后结果的意义,是一个很难处理的事情。这一点就横亘在很多模型最后产品化、产业化的路上面,是一只拦路虎。如果不解决可解释性问题的话,就很难迈过这道门槛,把机器学习成果投入实际产业化。