谷歌大模型下场，这个AI赛道起飞在即

访客 2024-08-30 10:56:11 55725 抢沙发

默认

摘要： 通过患者体内发出的声音“听音辨病”成为现实又近了一步！今年初，谷歌（Google）正式宣布生物声学基础模型HeAR，并在近日宣布将其用于肺结核早筛。同时，今年稍早时候，Eko He...

通过患者体内发出的声音“听音辨病”成为现实又近了一步！

今年初，谷歌（Google）正式宣布生物声学基础模型HeAR，并在近日宣布将其用于肺结核早筛。同时，今年稍早时候，Eko Health（简称Eko）的人工智能获得FDA审批，被认为是FDA审批的*利用声音辅助医生识别心衰的人工智能。

动脉网统计发现，生物声音标志物近来进展迅速，正迎来重大突破。

谷歌下场，FDA首批，

声学标志物AI进展神速

近几个月以来，生物声学标志物这一新兴领域频频出现在聚光灯下。以该领域最知名的企业之一Eko为例，在今年迎来了双丰收——其突破性人工智能算法在3月被FDA批准，随后便在6月完成了4100万美元的D轮融资。

另外一家知名企业TytoCare则在去年8月完成了4900万美元的融资，其人工智能算法则刚刚在7月底获得了FDA的额外批准，可用于检测成人和两岁以上儿童的肺部湿啰音，以进一步检测潜在的肺部疾病。

如今，看好这一领域的谷歌也携大模型入场。

今年初，谷歌发布了名为HeAR（Health Acoustic Representations）的人工智能模型的研究成果。这个专业的生物声学基础模型使用了超过3亿条两秒长的音频数据集（其中包含约1亿条咳嗽的音频数据）进行训练，皆是从30亿个公共非版权YouTube音视频中提取剪辑而来，希望能够在生物声学标志物的医疗应用上取得新的进展。

谷歌的研究团队在6个数据集的13个健康声学事件检测任务、14个咳嗽推理任务和6个肺活量测定任务的健康声学任务上对HeAR进行了基准测试，证明HeAR能够在广泛的任务范围中非常准确地识别与医疗相关的声音模式，称其为目前功能最为强大的生物声学基础模型之一绝不为过。

比准确性更让人兴奋的是其对拾音设备*的兼容性。研究采用了不同的音频输入设备，从高端智能手机到入门智能手机，再到隐藏式麦克风，最终表明HeAR能够在不同的拾音设备上泛化并以有限的数据集训练以实现高性能。

8月底，谷歌宣布了HeAR的*个应用项目，将与印度企业Salcit Technologies合作，将HeAR用于肺结核早筛。

快速发现结核病人并提供及时治疗是避免结核菌传播的主要途径，但目前临床上主流的诊断技术还比较“原始”，应用最广泛的痰涂片距今已有百年历史，但这一方法从取样到出结果往往至少需要一个月时间，且其阳性率只有约30%，准确率、效率和速度均较低。

虽然影像检查和最新的分子生物学诊断技术的准确性和效率有显著提高，但受成本和技术的限制导致其很难在基层医院推广。相比之下，通过智能手机对患者咳嗽声的采集分析实现肺结核早筛为院外提供了一种*潜力的普适性无创诊断手段，可使基层获得比以往强得多的筛查能力。

除了肺结核，哮喘和慢阻肺也是生物声学标志物的目标。澳大利亚的Resapp Health在该领域有较长的积累，并在澳大利亚上市。旗下两款产品之一——SleepCheckRx用于识别阻塞性睡眠呼吸暂停，已获FDA批准；另一款产品ResAppDx则可通过咳嗽和呼吸声帮助诊断肺部疾病，也已获CE批准。

2022年底，药企巨头辉瑞以1.79亿美元收购了Resapp Health。

谷歌的这一大模型主要用于呼吸系统疾病的应用，尚处于起步阶段。在对声音标志物的利用上，心脏类疾病的进展最快，并在今年迎来了突破。

今年5月，Eko宣布其与数字听诊器配套的人工智能软件——“Eko low ejection fraction tool (eleft)”获批，被认为是FDA所批准的*个可辅助心衰早期筛查的人工智能算法，是一项重大的医学创新。

借助Eko的这一人工智能，医生可以在15秒内仅凭数字听诊器采集到的心音检测心脏低射血分数（或称心脏低EF值）——这一指标反映了心脏的收缩泵血能力。射血分数降低类心衰（HFrEF）也是主要的心衰类型，根据统计，在美国超600万心衰患者中，有一半属于射血分数降低类心衰。

在以往，射血分数检测需要应用超声检测，不仅成本较高也对操作人员有一定的要求，并不适合基层常规检查。患者往往只会在已有明显症状的时候才会做进一步检查，因此错过早期黄金干预时机的案例屡见不鲜。

Eko的人工智能算法结合配套数字听诊器可以识别心脏杂音，有望在最初级的常规检查中尽早将射血分数降低类心衰患者筛查出来。被筛查出来的患者则可以接受进一步的检查以实现尽早干预。

Eko的进展并非一蹴而就，这家成立于2013年的公司一直专注于将声学标志物付诸实用。早在2015年，其数字听诊器就获得了FDA审批。不过，当时这款产品目的主要在于远程传递，并没有任何辅助功能，仅仅只是将采集到的心脏声音通过蓝牙传输到手机，随后再通过手机将音频数据上传到云端供专家进行远程会诊。

然而，这种方式可以将患者的音频数据与电子健康记录（EHR）集成在一起，以实现无缝转诊、文档编制和病情实时监测。这为Eko之后逐步建立“世界上*的心音数据库”奠定了基础。这些心音数据之后被Eko用于训练人工智能，用于识别心脏病早期症状，对于心脏疾病的早期诊断及治疗具有重要意义。

这些努力终于在近年结出了硕果。2020-2023年间，Eko又获批了多款医疗器械，除了升级后的数字听诊器，更包括可生成心音图并对其进行分析的人工智能算法。

除了Eko，全球有不少企业也在这一领域取得了实质性进展。比如，日本AMI（Acute Medical Innovation）旗下可辅助识别瓣膜性心脏病（包括主动脉瓣狭窄）早期征兆的AI听诊器就在2022年10月通过了日本医疗器械审批。

这一领域的进展，有目共睹。

生物声学标志物潜力巨大，

起飞在即

人体器官的物理结构会随着生理和病理状况而改变，从而导致不同疾病患者发出的声音以及器官自身发声产生特异性变化，这些声音特征可被作为疾病的“声音标志物”。一个简单的例子莫过于得了感冒后声音会变沙哑，便是这种变化的一种体现。

一直致力于研究生物声学标志物研究的环宇瑞声创始人、CEO高政向动脉网介绍了生物声学标志物的原理：“举例来说，肺癌患者因主动脉瘤、纵膈肿瘤等压迫支气管导致咳嗽金属音并伴随声音嘶哑，肺炎患者则因一侧或双侧肺泡发炎引起的感染导致肺泡充满液体或脓液，而发出伴随痰鸣音的咳嗽音。不同疾病的声学标志物具有独特性和差异性，通过梅尔语谱图（Mel-spectrogram）进行可视化特征鉴别性分析，可以发现肺癌、肺结核与健康人之间声音的显著差异，从而为疾病诊断提供全新的视角和方法。”

健康人和肺部疾病患者的梅尔语谱图

正因为此，声音数据自古以来都是医学范畴内必要的医疗数据。中医自古强调的“望闻问切”中的“闻”就是指聆听患者的声音和气息，也在几千年的实践中被证明的确可以对某些疾病进行诊断。

1816年被发明，并于1819年被公布听诊器的出现则代表了医学界对于生物声音标志物的进一步探索。因其成本低廉和小巧便携的特点，听诊器得到了普及。在诸如CT等大型医疗器械出现之前，通过人体声音的变化诊断疾病一直都是主要的医学检查手段。

不过，受限于传统听诊器对声音的采集精度限制，以及人类听觉器官的极限，听诊器只实现非常粗浅的判断，且高度依赖于医生经验。尽管如此，它在基层应用中的作用仍然不能被小视。

数字时代的到来则为已有两百多年历史的听诊器带来了新生命。数字听诊器利用电子技术将声波转换为高精度的数字化电信号，然后通过放大和处理，从而获得清晰度远比传统听诊器高得多的声音。再加上人工智能近年的高速发展，将生物声学标志物用于临床开始从以往的“遥不可及”逐渐向“触手可及”转变。

即便如此，这一进程也并不是一条坦途。音频信号会受到环境噪声的干扰，说话声、户外噪声等因素都会影响咳嗽音特征的提取和分析。此前，受制于硬件性能限制，往往难以抓取到高质量的声音信号。

一个好消息是传感器技术近年的迅速进步极大地解决了这一短板。以压电陶瓷传感器作为拾音部件的新一代电子听诊器相比以往已经具有更好的信号质量和更平稳的频响曲线。能够获得更加准确、清晰的心肺音信号，从而准确获取用户健康数据。

更为重要的是，作为更为普及的声音标志物拾取设备，智能手机历经多年激烈竞争和技术进化，普遍在麦克风拾音性能上进步巨大，足以满足基本的音频信号采集需要。

“智能手机对声音频率的要求实际上已经符合临床需求了。虽然不同的手机会带来声音的一些变化，但是通过领域泛化技术和损失函数改进可以将这种差异缩小，所以，现在硬件基本不会产生太大的影响了。”高政向动脉网介绍道。

在解决了硬件的门槛后，声学标志物的发展正在进入快车道。

西天取经非坦途，

国内进展不输巨头

硬件的问题虽然基本解决，但生物声学标志物的应用并非一条坦途，仍需解决一系列难点。

高政表示，目前生物声学标志物的应用难点主要集中在软件方面，即人工智能部分。技术上仍然需要解决人工智能模型有关患者声学标志物靶点特征分析、复杂环境及跨设备场景下模型稳定性，以及少量精标注数据下小样本的学习方法等难题。

由于病理因素，呼吸系统疾病患者（如肺结核）与健康人之间的咳嗽声音特征差异较为显著，较易识别。然而，不同的肺部疾病患者却可能表现出类似的症状，其咳嗽音的特征可能相互重叠，难以辨别是哪种具体的疾病。

如何在通用音频特征基础上，针对咳嗽的发声特性以及特定疾病（如肺结核）的病理特性及症状表现，设计精准的特定疾病患者咳嗽音的靶点特征，从而实现将特定疾病患者与健康人群以及其他肺部疾病患者的精准区分，是一个仍需解决的难点。

复杂环境及跨设备场景下的模型稳定性则是另一个难点。通常，模型训练所采用的音频数据较为理想，但实际应用中需要识别的音频信号会受到各种干扰，会影响咳嗽音特征的提取和分析。此外，不同拾音设备的性能差异也可能导致咳嗽音频质量和特性发生变化，将会影响模型的诊断结果。

“在模型训练过程中，如何通过数据增强、噪声抑制等方法减轻噪声影响，利用领域泛化技术消除设备差异，从而提升诊断模型的鲁棒性将是提升生物声学标志物模型实际可用性的关键问题。” 高政表示。

此外，由于音频数据的采集及标注都较为困难，这要求模型在少量精标注数据的条件下仍然保持较好的检测性能。如何解决小样本数据和复杂模型学习之间的矛盾也是一个课题。

“音频数据的获取是目前最困难的一环。在目前的医学检测手段中，医学影像数据占据了90%的医疗信息，从而为模型的训练提供了基础。但此前没有医院会专门存储音频数据，对于人工智能的训练来说就成为了无米之炊。”高政向动脉网介绍道。

“高质量音频数据集非常缺乏。如果用开源数据则会涉及到跨信道的问题。以谷歌为例，它的模型训练所用的数据集是从Youtube的音视频数据中剪辑而来，尤其是视频数据转成音频数据需要多次解码，会造成数据丢失。此外，像微信语音也存在类似数据压缩的问题。我们的模型训练用了2000万条声学数据，*的优势就是所有数据都是手机录制，其信道是完全一致的。”他补充道。

他表示，高质量数据的缺乏会对相应产品的研发带来难题：“统计来看，目前已获批的医疗AI产品都具有较高的敏感性（90%以上）和特异性（85%左右）。但声音跟影像不太一样，个体之间是有很大差异的。仅仅用这种少量的标签数据训练出来的模型在真实环境中使用，要达到要求的敏感性和特异性并不容易。”

正因为此，高政认为，大模型可以提升这个模型的稳定性和在真实世界的这种泛化性，将成为未来声学标志物能否投入实用的关键。

这种大模型的趋势已经开始显现。成立于2016年的Canary Speech主要利用声音标志物检测疾病症状明显之前的情绪、压力和能量水平，但一直没有引发太多的关注。去年5月，Canary Speech宣布与微软合作，导入微软大模型技术助力研发。今年6月，这家企业首次获得了1300万美元的A轮融资。

在生物声学标志物的研究上，国内的进展也颇为可观，有关生物声学标志物应用的媒体报道也并不鲜见。中国医科大学附属*医院就在此前开展了基于声学生物标志物的颈动脉狭窄智能诊断技术研究，目前该项目的颈动脉狭窄辅助诊断准确率已达到97%。此外，首都医科大学附属北京胸科医院也正开展将该声学生物标志物应用于肺癌、肺结核智能诊断的临床研究。

写在最后

基于声学标志物的AI智能诊断技术有着广阔的应用前景，除了呼吸系统疾病、心脑血管疾病外、神经性疾病（例如阿尔兹海默症、抑郁症、创伤后应激障碍等）以及胎心音等更广泛的医疗领域都有其用武之地。

随着硬件和人工智能等相关技术的进步，生物声学标志物的研究进展正在加速，相信未来将会越来越多地迎来相关领域的突破。

参考资料：

Baur, Sebastien et al. “HeAR - Health Acoustic Representations.” ArXiv abs/2403.02522 (2024): n. pag.

K. S. Alqudaihi et al., "Cough Sound Detection and Diagnosis Using Artificial Intelligence Techniques: Challenges and Opportunities," in IEEE Access, vol. 9, pp. 102327-102344, 2021, doi: 10.1109/ACCESS.2021.3097559. keywords: {Pulmonary diseases;Artificial intelligence;COVID-19;Medical services;Tools;Lung;X-ray imaging;Artificial intelligence (AI);cough detection;2019 novel coronavirus disease (Covid-19);respiratory illness diagnosis;cough-based diagnosis},

Anthony Vecchione，mobihealthnews.com：Salcit partners with Google on AI technology to detect disease based on coughs

标签：声学听诊器