欢迎光临小豌豆知识网!
当前位置:首页 > 生活技术 > 医学兽医> 频谱图用于监视饮食活动的系统和方法独创技术48700字

频谱图用于监视饮食活动的系统和方法

2021-02-07 21:01:38

频谱图用于监视饮食活动的系统和方法

  优先权要求

  本申请要求2018年3月2日提交的题为“Wearable Neckband Dietary ActivityMonitoring Apparatus and Method”的美国临时申请序列号62/637,800的优先权,该美国临时申请的公开内容通过引用以其整体并入本文中。

  技术领域

  本公开总地涉及饮食监视,并且更特别地涉及用于监视饮食活动和对饮食活动进行分类的可佩戴系统和方法。

  背景技术

  除非本文中另有指示,否则本章节中描述的材料不是本申请中权利要求的现有技术,并且不因包含在本章节中而被承认为现有技术。

  已知的可佩戴饮食活动监视系统已经引起了越来越多的关注量,因为当饮食跟踪活跃时,该系统可以跟踪个体每日摄入、食物量、相关卡路里和营养素数据。可佩戴的饮食活动监视系统包括:(a)基于图像/相机的系统,(b)腕部佩戴的系统,(c)颈部佩戴的系统,以及(d)基于耳塞的系统。

  基于图像/相机的系统分析个体正在消耗的食物的照片,并且旨在自动检测消耗的卡路里数量。然而,基于图像/相机的系统无法在没有人工反馈的情况下确认个体完全地还是部分地消耗了食物。

  在另一个示例中,基于腕带的系统聚焦于个体的手势和手部移动,以检测吃/喝活动。再次,这样的系统无法在没有人工反馈(例如自我报告食物消耗)的情况下确认个体完全地还是部分地消耗了食物,并且因此高度不准确。另一方面,基于喉部佩戴和耳塞的系统是基于颚肌移动和声音活动检测的。然而,常规的系统不能准确地监视摄取的食物量和消耗的卡路里。

  一般而言,基于头部佩戴的系统包括安装在壳体内的听诊器或振动传感器。听诊器能够捕获呼吸声,但不能够检测摄取声音的高频特性。照此,基于听诊器的系统的准确性是低的。常规的基于振动传感器的系统具有低灵敏度,并且可以当用户移动时生成信号。照此,记录的振动是不准确的,并且不能用于对摄取活动进行准确分类。

  因此,能够对咀嚼和吞咽声音进行准确分类并且监视食物摄入和卡路里的可佩戴饮食活动监视系统将是有益的。

  发明内容

  在一个实施例中,一种用于监视用户饮食活动的系统包括具有至少一个音频输入单元的可佩戴设备,所述至少一个音频输入单元被配置成记录与来自用户颈部的音频相对应的音频样本。该系统进一步包括处理器,该处理器被配置成执行被存储在存储器中的编程指令,以从可佩戴设备的音频输入单元获得音频样本,通过从音频样本中提取所选特征集合中的短期特征并从提取的短期特征中确定所选特征集合的分段特征值,来确定来自音频样本的所选特征集合的分段特征值。处理器进一步被配置成使用分类器,基于音频样本的所确定的分段特征值对饮食活动进行分类,并且生成与所分类的饮食活动相对应的输出。

  在一些实施例中,音频输入单元包括驻极体电容麦克风、硅麦克风、微机电系统(MEMS)麦克风、动态麦克风、麦克风阵列和振动传感器中的一个或多个。

  在一些实施例中,该系统包括外部设备,该外部设备包括处理器和存储器,并且该可佩戴设备进一步包括通信模块。处理器进一步被配置成经由与通信模块的无线通信来获得音频样本。

  在另一个实施例中,处理器被布置在可佩戴设备中。

  在又一个实施例中,可佩戴设备是被配置成佩戴在用户颈部周围的颈带。

  在另外的实施例中,在机器学习训练过程中确定存储在存储器中的所选特征集合和分类器的分类器参数。

  在该系统的一个实施例中,分类器是随机森林、高斯混合模型、线性判别分析、朴素贝叶斯、决策树和k-最近邻分类器中的一个。分段特征值的确定可以进一步包括将提取的短期特征分段成预定持续时间的分段,并且将统计函数应用于每个分段中的提取的短期特征。

  在一些实施例中,短期特征包括以下各项中的一个或多个:至少一个MFCC系数、至少一个MFCC系数的德尔塔、至少一个MFCC系数的德尔塔-德尔塔、能量熵、短期能量、过零率、频谱通量、频谱波峰、频谱偏斜度、频谱形心、频谱斜率、频谱下降、频谱扩展、频谱滚降和频谱平坦度。统计函数可以包括均值、中值、标准差、偏斜度、峰度、最大值和最小值中的一个或多个。

  该系统的一个实施例进一步包括被配置成生成可感知输出的输出设备,其中处理器被配置成与输出设备通信以生成作为可感知输出的输出。

  在另一个实施例中,输出的生成包括将输出存储在存储器中。

  在一些实施例中,处理器进一步被配置成在确定所选特征集合的分段特征值之前,通过将帧的能量与预定能量阈值进行比较来检测活动是否在音频样本的每个帧中发生。

  在另一个实施例中,一种监视饮食活动的方法包括:利用处理器从可佩戴设备的音频输入单元获得音频样本,音频样本对应于来自用户颈部的音频;利用处理器确定来自音频样本的所选特征集合的分段特征值,分段特征值的确定包括:从音频样本中提取所选特征集合中的短期特征;以及从提取的短期特征中确定所选特征集合的分段特征值;利用处理器使用分类器,基于音频样本的所确定的分段特征值对饮食活动进行分类;以及生成与分类的饮食活动相对应的输出。

  在该方法的一些实施例中,音频输入单元包括驻极体电容麦克风、硅麦克风、微机电系统(MEMS)麦克风、动态麦克风、麦克风阵列和振动传感器中的一个或多个。

  在另一个实施例中,音频样本的获得包括通过经由可佩戴设备的通信模块进行无线通信获得音频样本,并且处理器被布置在外部设备中。

  在另外的实施例中,处理器安装在可佩戴设备中。

  在该方法的一些实施例中,可佩戴设备是颈带。

  可以执行该方法,使得在机器学习训练过程中确定所选特征集合和分类器的分类器参数。

  该方法的分类器可以是随机森林、高斯混合模型、线性判别分析、朴素贝叶斯、决策树和k-最近邻分类器中的一个。分段特征的确定可以包括将提取的短期特征分段成预定持续时间的分段,并且将统计函数应用于每个分段中的提取的短期特征。短期特征可以包括以下各项中的一个或多个:至少一个MFCC系数、至少一个MFCC系数的德尔塔、至少一个MFCC系数的德尔塔-德尔塔、能量熵、短期能量、过零率、频谱通量、频谱波峰、频谱偏斜度、频谱形心、频谱斜率、频谱下降、频谱扩展、频谱滚降和频谱平坦度。统计函数可以包括均值、中值、标准差、偏斜度、峰度、最大值和最小值中的一个或多个。

  在该方法的另一个实施例中,输出的生成包括经由输出设备生成可感知输出。

  根据本公开的可佩戴颈带包括:至少一个音频输入单元,其包括被配置成记录与来自用户颈部的音频相对应的音频样本的驻极体电容麦克风、硅麦克风、微机电系统(MEMS)麦克风、动态麦克风、麦克风阵列和振动传感器中的一个或多个;通信模块,其被配置成将记录的音频样本无线传送到外部设备;能量存储单元,其被配置成存储用于所述至少一个音频输入单元和通信模块的操作的电力;以及壳体,在其中布置所述至少一个音频输入单元、通信模块和能量存储单元,壳体可弹性变形并且在壳体的每个端部处包括紧固布置。

  附图说明

  当参考附图阅读某些示例性实施例的以下详细描述时,本公开的这些和其他特征、方面和优点将变得更好理解,其中贯穿附图,同样的符号表示同样的技术,其中:

  图1是其中可佩戴设备与外部设备通信的饮食活动监视系统的示意性图示。

  图2是其中可佩戴设备包括处理器和存储器的饮食活动监视系统的示意性图示。

  图3是根据本公开所述实施例的示例性可佩戴颈带饮食活动监视装置的简化透视图。

  图4是根据本公开所述实施例的示例性可佩戴颈带饮食活动监视装置的简化透视图。

  图5是训练和/或校准图1的饮食活动监视系统的方法的过程图。

  图6是使用图1的饮食活动监视系统对饮食活动进行分类的方法的过程图。

  图7a是饮食活动监视系统的实验性实施例的透视图。

  图7b是图7a的饮食活动监视系统的示意性框图。

  图8a是在任何部件被附到弹性条带之前,图7a的实验性实施例的示意性视图。

  图8b是在驻极体电容麦克风、蓝牙®模块和电池被附到弹性条带之后,图8a的弹性条带的示意性视图。

  图8c是附到图8b的弹性条带的壳体部件的示意性视图。

  图9图示了使用实验性设备获取的喝水和饼干咀嚼记录的频谱图。

  图10是图示颈带与训练和评估过程之间的关系的简化示意图。

  图11是示出在5-类分类任务中使用的来自实验的不同机器学习算法的性能的条形图。

  图12是描绘计算移位德尔塔倒谱系数的一个形式的图示。

  具体实施方式

  出于促进对本文中描述的实施例原理的理解的目的,现在对附图和以下书面说明书中的描述进行参考。参考不意图对本主题范围的任何限制。本公开还包括对所说明的实施例的任何变更和修改,并且包括如本文件所属领域的技术人员通常将想到的所描述实施例原理的另外应用。

  以最有助于理解所要求保护的主题的方式,各种操作可以依次被描述为多个分立的动作或操作。然而,描述的次序不应当被解释为暗示这些操作必定依赖于次序。特别地,这些操作可以不按照呈现的次序来执行。所描述的操作可以以与所描述实施例不同的次序来执行。在附加的实施例中,可以执行各种附加的操作和/或可以省略所描述的操作。

  如关于本公开的实施例使用的术语“包含”、“包括”、“具有”等是同义的。如本文中所使用的,术语“近似”指代在参考值的±20%之内的值。

  图1图示了具有可佩戴设备的饮食活动监视系统100的示意性图示,在图示的实施例中,该可佩戴设备是被配置成监视和跟踪用户的饮食摄入的颈带监视装置120。如本文中所述,监视装置120被配置成佩戴在人类的颈部周围,以监视人类的食物和饮品消耗。在一些实施例中,监视装置120可以被佩戴在用户身体上可以感测到咀嚼和吞咽噪声的不同位置处,例如在下巴、头部、嘴、脸颊、胸部或其他期望的位置上。此外,读者应当领会,在一些实施例中,可佩戴设备可以被配置成佩戴在动物上(例如在动物的颈部周围),以跟踪动物的食物和饮品消耗。附加地,虽然图1将监视装置120描绘为颈带,但是读者应当领会,监视装置可以被配置为另一个可佩戴设备,诸如例如项链、吊坠等。

  监视装置120包括具有第一和第二端部128、130的壳体124。在一些实施例中,壳体124可以是单个连续的主体壳体,而在其他实施例中,壳体124可以包括多层连续的主体壳体、附接在一起以形成连续的主体壳体的多个接合区段、或者形成不连续壳体的多个壳体部分。壳体124由能够形成到个体颈部的弹性可拉伸材料形成,并且在一些实施例中可以是被覆盖在天鹅绒或另一种舒适且可佩戴的织物中的弹性条带。在一个实施例中,壳体124可以由生物材料或生物相容材料形成。在一些实施例中,壳体124由成形聚合物形成,该成形聚合物是弹性的、可拉伸的并且被配置成恢复到其原始形状和长度。在另外的实施例中,壳体124由当放置监视装置120时可弯曲和可折叠的材料制成,使得当用户没有在佩戴监视装置120时,监视装置120可以容易地存放。

  锁定或紧固组装件132被并入到壳体124的端部128、130。如所图示的,锁定或紧固组装件132被配置为钩和环型紧固件系统(例如Velcro®),其中一个端部(例如端部128)具有钩部,并且另一端部(例如端部130)具有环部。在其他实施例中,锁定或紧固组装件132是另一种期望的紧固布置,例如磁性连接器、纽扣紧固件、结带、诸如龙虾扣的扣、弹簧圈、卡口扣或桶扣等。在另一个实施例中,锁定或紧固组装件132形成为端部128、130之间的永久连接,使得用户通过弹性拉伸监视装置120来戴上和脱下监视装置120,以便将监视装置120适应在用户的头部之上。

  通信模块136、音频输入单元140和能源144安装到壳体124或安装在壳体124内。其他计算机实现的模块,诸如:计算机可读介质,例如存储器152(例如图2);输入和/或输出接口156(例如图2),例如显示器、触摸屏、跟踪板、开关、按钮、指示器和/或一个或多个LED;数字信号处理单元(DSP)148(例如图2);以及任何其他期望的模块可以并入到壳体124中或壳体124上。

  通信模块136被配置成与例如机器设备、网络、服务器和/或其他设备之类的一个或多个外部设备160通信,以传送由监视装置120收集的参数和数据。如本文中所使用的,智能设备指代蜂窝电话或智能电话、平板计算机、智能手表等。通信模块136可以被配置用于任何合适的无线通信协议,诸如例如蓝牙®、近场通信、互联网数据通信、无线电话网络、Wi-Fi®、ZigBee®、Z-Wave®、Thread®、超声协议等。在某些实施例中,通信模块136可以被配置用于经由例如USB、以太网或另一种合适的有线数据连接协议进行有线数据传送。如所图示的,通信模块136是蓝牙®传送器或收发器。

  机器设备可以是以下各项中的一个或多个:蜂窝设备,诸如智能电话;便携式设备;可佩戴设备,诸如手表、眼镜或护目镜;膝上型计算机;台式计算机、平板计算机;娱乐系统,例如电视;具有或不具有显示器的语音激活设备,例如数字个人助理(例如,Alexa®、Google Assistant®、Siri®、Cortana®等),以及能够接收、存储和/或显示由监视装置120收集的信息的任何合适的机器设备。网络可以是以任何组合的任何合适类型的一个或多个通信网络,包括无线网络、有线网络、局域网、广域网、蜂窝数据网络、因特网、云网络等等。服务器可以由任何配置或诸如远程服务器计算机等之类的一个或多个计算机机器的任何配置来实现。

  在图示的实施例中,音频输入单元140包括能够在食物摄入事件期间捕获吞咽和咀嚼声音活动的单个驻极体电容麦克风(ECM)。在其他实施例中,音频输入单元140可以包括硅麦克风、微机电系统(MEMS)麦克风、动态麦克风、麦克风阵列、振动传感器(例如压电传感器)等中的一个或多个。在另外的实施例中,音频输入单元140可以包括多个驻极体麦克风、多个其他类型的音频传感器或两者的组合。在一些实施例中,音频输入单元140或单独的输入单元可以包括运动传感器、加速度计、相机和/或任何其他期望的输入单元。

  能量源144可以是例如可再充电电池。在一个特定的实施例中,能量源是100mAh的基于Li的电池。能量源144可以通过例如有线连接(例如,USB®或专用AC或DC电源)、感应充电(例如,Qi充电)、RF充电、能量收获系统等来充电。

  饮食活动监视系统100进一步包括可操作地连接到存储器172的处理器168。在图1的实施例中,处理器168和存储器172布置在外部设备160中,外部设备160包括与监视装置120的通信模块136通信的收发器164。在图2中示意性图示的另一个实施例中,处理器168和存储器172集成在监视装置120的壳体124中或该壳体124上。在一些实施例中,处理器168可以集成在通信模块136和/或音频输入单元140中。在另外的实施例中,监视装置120和外部设备160各自具有处理器,该处理器可以联合或单独地对音频输入单元140收集的数据执行数据处理。

  本领域普通技术人员将认识到,“处理器”包括处理数据、信号或其他信息的任何硬件系统、硬件机构或硬件部件。处理器168可以包括具有中央处理单元、多个处理单元、用于实现功能性的专用电路的系统,或者其他系统。

  存储器172可以是能够存储可由处理器168访问的信息的任何类型的设备,诸如可写存储器、只读存储器、存储卡、ROM、RAM、硬盘驱动器、磁盘、闪速存储器或其他计算机可读介质。存储器172被配置成存储程序指令,该程序指令当由处理器168执行时使得处理器168能够执行摄取活动检测、特征提取和分类中的一个或多个,如下面进一步详细描述的。

  特别地,存储器172被配置成存储与至少一个机器学习模型、特别是摄取分类模型及其分类参数相对应的程序指令。处理器144被配置成利用摄取分类模型从一个或多个音频信号中提取特征,并且基于音频信号对用户的消耗进行分类。如本文中所使用的,术语“机器学习模型”指代被配置成实现算法或数学模型的系统或程序指令集合和/或数据,该算法或数学模型基于给定的输入来预测和提供期望的输出。将领会,机器学习模型的参数没有被明确编程,或者机器学习模型不一定被设计成遵循特定的规则以便为给定的输入提供期望的输出。取而代之地,机器学习模型被提供有训练数据的语料库,处理器从该训练数据的语料库标识或“学习”数据中被一般化以相对于新的数据输入做出预测的模式和统计关系或结构。分类参数包括在训练过程期间学习的摄取活动分类模型的参数的多个值。

  图3和4图示了示例性可佩戴颈带活动监视装置120a、120b的简化透视图。在图3的实施例中,壳体124a包括编织的弹性织物。通信模块136、音频输入单元140和能量源144附接到编织的弹性织物并且封装在弹性织物中,以便保护通信模块136、音频输入单元140和能量源144。

  在图4的实施例中,壳体124b包括覆盖弹性带的织物管( fabric tube)。织物管可以是例如天鹅绒、布或其他舒适的织物。在图4的实施例中,音频输入单元140和能量源144布置在织物管中,而通信模块136安装到弹性管的外部。

  系统训练

  图5图示了机器学习过程200,其用于训练机器学习摄取分类系统(诸如图1和图2的饮食活动监视系统100)以对用户的摄取进行分类。在方法的描述中,方法正在执行某个任务或功能的陈述指代控制器或通用处理器执行被存储在操作性地连接到控制器或处理器的非暂时性计算机可读存储介质中的编程指令以操纵数据或操作饮食活动监视系统100中的一个或多个部件来执行该任务或功能。特别地,上述饮食活动监视系统100的处理器168可以是这样的控制器或处理器。可替代地,控制器或处理器可以利用多于一个处理器和相关联的电路和部件来实现,所述多于一个处理器和相关联的电路和部件中的每个被配置成形成本文中描述的一个或多个任务或功能。将领会,该方法的一些或所有操作也可以由远程服务器或云处理基础设施来执行。附加地,方法的步骤可以以任何可行的时间次序执行,而不管各图中所示的次序或描述步骤所用的次序如何。

  过程200通过获得音频样本开始(框204)。在一个实施例中,音频样本由单个音频传感器(例如音频输入单元或驻极体麦克风140)感测。处理器与一个或多个音频传感器通信,以接收与检测到的音频相对应的声学值的时间序列。音频样本可以包括由音频输入单元140检测并且存储在与处理器相关联的存储器(例如存储器172)中的来自多个受试者的多种已知吞咽和说话活动的数据集。

  在一些实施例中,音频特征的提取以活动检测过程开始(框206)。音频信号被划分成例如在近似10 ms与近似100 ms之间的帧,或者在另一个实施例中,近似40 ms的帧。处理器然后根据以下等式确定帧的音频能量(即信号的二次幂的和):

  

  如果能量在预定阈值以下,则音频帧因为不包含相关饮食活动而被丢弃。如果能量在预定阈值以上,则假定存在帧中检测到的某个活动,并且音频样本被保留以供进一步处理。

  当方法200以从音频样本中提取特征(框208)而行进时,处理器通过将音频样本分离成短期帧而开始。在一个实施例中,帧在近似5 ms与近似500 ms之间。在另一个实施例中,帧在近似20 ms与近似80 ms之间。在一个特定实施例中,帧近似或恰好是40 ms。在一个实施例中,帧可以是不重叠的。在另一个实施例中,帧可以以近似25%与近似90%之间重叠。在一个特定实施例中,帧以近似或恰好75%重叠。

  特征提取以确定每个帧的短期特征而继续。表1图示了可以在过程200的一个实施例中被提取的短期特征的列表。

  表1:短期特征全体

  

  梅尔频率倒谱系数(MFCC)及其微分(也称为“德尔塔”或“d”)和加速度(也称为“德尔塔-德尔塔”或“dd”)系数是本领域中常用的系数,用以使得自动化频率检测能够更像人耳那样解释频率差。在一个实施例中,利用30个滤波器组来计算MFCC,并且保留较低的21个滤波器组的静态系数以及它们相关联的德尔塔和加速度系数,尽管读者应当领会,在其他实施例中可以计算和保留其他数量的滤波器组。

  利用表1中列出的63个MFCC系数和基于频谱、波形和能量的特征,每个帧包括76维特征向量。读者应当领会,在其他实施例中,可以从帧中提取其他特征和/或更少的特征。附加地,在一些实施例中,使用移位的德尔塔倒谱(SDC)系数来代替德尔塔系数。移位的德尔塔系数是德尔塔系数的一般化版本,并且通过从更长的持续时间跨度(d)中减去特征向量(MFCC)来被提取。图12图示了SDC特征的计算。参数d确定在其内计算德尔塔的分散范围(spread),并且参数P确定接续德尔塔计算之间的间隙。对于未移位的德尔塔系数,使用d=1和P=1,而对于SDC,使用d和P的较大值。在一个实施例中,用于饮食监视系统的SDC可以是d=2和P=2。

  过程200通过将特征分区成具有固定时间长度的分段来继续(框212)。在对特征进行分段时,提取的特征向量在分段长度之上被分组在一起,以使得能够对于每个分段执行统计函数。在一些实施例中,分段完全重叠,即分段与相邻分段具有仅一个帧的偏移。在其他实施例中,分段可以仅部分地重叠,使得每个分段以5、10、25或50帧或者以任何其他期望数量的帧从时间上相邻的分段移位。在另外的实施例中,分段可以彼此没有重叠。

  分段可以具有例如在0.1秒与60秒之间的长度。在一个实施例中,分段具有在1秒与10秒之间的长度。在一些实施例中,特征被分区成近似或恰好3秒的分段。在其他实施例中,取决于被应用于分段的统计函数、期望的准确性、可用的计算资源和其他参数,特征可以被分区成不同的分段长度。此外,在一些实施例中,处理器分析特征的不同分段长度,以研究用于特定摄取确定的最佳时间窗。最佳时间窗可以基于音频信号中的特征和/或正被分析的个体或任务的特征。

  接下来,过程200以处理器将统计函数应用于针对每个分段确定的分段特征来行进(框216)。表2图示了用于一个示例性实施例的统计函数。然而,读者应当领会,其他函数和/或更少的函数可以应用于分段特征。

  表2:用于分段特征的统计函数

  

  处理器可以被配置成将每个分段的每个函数确定为所确定的分段函数。可替代地,处理器可以被配置成确定有限数量的分段函数,以减少对于确定分段函数所必需的计算资源。

  在使用表1的特征产生的76维特征向量上使用表2的七个统计函数结果得到532维分段特征向量。在确定分段特征之后,执行特征选择步骤以将特征的数量减少到所选特征集合(框220)。在一个实施例中,根据ReliefF方法选择特征。在其他实施例中,可以使用其他已知的特征选择方法来选择与摄取分类的确定最相关的系数的特征集合。在一个实施例中,ReliefF方法用于选择近似或恰好76个特征的特征集合,尽管在其他实施例中可以选择其他数量的特征。

  该过程通过对所选特征进行分类而结束(框224)。在一个实施例中,处理器被配置成在所选特征上实现随机森林分类器。随机森林分类器可以使用每树近似或恰好76个袋生成并且使用分类决策树方法。装袋(bagging)是可以用于任何机器学习(ML)算法的集成学习方法。在图示的实施例中,ML 算法是随机森林,并且集成学习方法是装袋。特别地,训练数据利用替换被随机采样,并且分类算法(例如,随机森林)在样本的每个子集或袋中运行,并且各袋随后通过平均来自每个子集的结果而被组合。

  在另一个实施例中,可以使用高斯混合模型(GMM)来确定分类器,该高斯混合模型(GMM)具有例如近似16个混合分量和近似50次迭代。在另外的实施例中,可以使用具有线性内核和贝叶斯优化的线性判别分析来确定分类器。在又一个实施例中,可以使用具有正态分布内核和近似30的最大客观评估的朴素贝叶斯分类器来确定分类器。在一些实施例中,处理器确定具有为10的最大网格划分部的决策树分类器。在另外的实施例中,使用具有近似5个近邻的k-最近邻分类器并且使用kd树近邻搜索方法来确定分类器。读者应当领会,在其他实施例中也可以使用其他分类器模型。

  在一些实施例中,训练过程200在计算机或服务器上执行,并且所得特征和分类器存储在饮食活动监视系统100的存储器172中。在这样的实施例中,饮食活动监视系统100可以在具有减少的费用和安装成本的情况下容易地适应多种不同的用途,因为训练过程的结果可以预先安装在饮食活动监视系统100中。

  在另一个实施例中,当首次使用饮食活动监视系统100时,训练过程作为系统校准来执行。然后,训练数据可以存储在存储器172中以供后续使用。此外,训练过程可以基于预先安装的数据和在校准步骤期间获得的训练数据两者。因此,饮食活动监视系统100的机器学习算法可以针对个体用户进行定制,同时还包括足够的数据来产生准确的结果。在这样的实施例中,因为特征和分类参数基于要使用饮食活动监视系统100的用户的特定特性,所以可获得高度的准确性。

  摄取活动检测和监视

  图4图示了用于监视饮食活动的过程300的流程图。过程300指代处理器(例如处理器168)执行被存储在存储器(例如存储器172)中的编程指令,以执行下面描述的功能来对饮食活动进行分类。在方法的描述中,方法正在执行某个任务或功能的陈述指代控制器或通用处理器执行被存储在操作性地连接到控制器或处理器的非暂时性计算机可读存储介质中的编程指令以操纵数据或操作饮食活动监视系统100中的一个或多个部件来执行该任务或功能。特别地,上述饮食活动监视系统100的处理器168可以是这样的控制器或处理器。可替代地,控制器或处理器可以利用多于一个处理器和相关联的电路和部件来实现,所述多于一个处理器和相关联的电路和部件中的每个被配置成形成本文中描述的一个或多个任务或功能。将领会,该方法的一些或所有操作也可以由远程服务器或云处理基础设施来执行。附加地,方法的步骤可以以任何可行的时间次序执行,而不管各图中所示的次序或描述步骤所用的次序如何。作为示例,在一些实施例中,过程300可以由外部设备160来执行,而在其他实施例中,过程300可以由可佩戴的颈带监视装置120来执行。

  在一些实施例中,过程300通过校准或训练系统开始(框304)。例如,可以使用图5的过程200来执行训练。从系统的校准或训练选择的短期特征、分段特征和/或分类器参数(例如随机森林)存储在与处理器168相关联的存储器(例如存储器172)中。在其他实施例中,可以利用所选短期特征、所选分段特征集合和/或分类算法对系统预先编程,使得机器学习饮食分类系统的一些或全部校准或训练不是必需的。

  然后,该过程以处理器使用例如驻极体麦克风的音频输入单元获得音频样本而行进(框308)。在一个实施例中,音频样本由单个音频传感器(例如可佩戴监视装置120的音频输入单元140)感测。在另一个实施例中,音频样本由一个音频输入单元或多个音频输入单元的多个音频传感器感测。处理器与一个或多个音频传感器通信,以接收与可佩戴监视装置120检测到的音频相对应的声学值的时间序列。处理器经由直接连接或经由通过有线或无线网络的通信从(一个或多个)音频传感器获得感测的音频样本。当可佩戴监视装置120通电时,处理器对音频样本的获得可以连续发生,处理器可以被配置成以批量获得多个音频样本。在一个特定实施例中,利用三个第二缓冲器实时获得音频样本。在其他实施例中,音频数据可以存储在存储器(例如存储器172)中,并且例如在“同步”过程中,当处理器物理地连接到音频输入单元时和/或当用户提示时,处理器可以获得存储的音频数据。

  由于音频输入单元可以连续收集音频数据,因此在一些实施例中,音频特征的提取以活动检测过程开始(框310)。类似于上述活动检测过程(框206),处理器被配置成将音频样本划分成例如在近似10 ms与近似100 ms之间的帧,或者在另一个实施例中,近似40ms的帧。处理器然后确定帧的音频能量,并且如果能量在预定阈值以下,则音频帧因为不包含相关饮食活动而被丢弃。如果能量在预定阈值以上,则假定存在帧中检测到的某个活动,并且音频样本被保留以供进一步处理。活动检测过程减少了系统100使用的计算资源,因为在其期间没有活动发生的音频样本以最少处理被丢弃。

  接下来,处理器从音频样本确定所选短期特征(框312)。除了仅提取在校准和训练过程期间、例如在上述步骤304或训练过程200中选择的短期特征之外,短期特征提取以与上述短期特征提取步骤208中类似的方式执行。特征帧可以具有与上述特征提取步骤期间使用的特征帧类似的长度,或者特征帧可以具有不同的长度。在一个实施例中,帧在近似5ms与近似500 ms之间。在另一个实施例中,帧在近似20 ms与近似80 ms之间。在一个特定实施例中,帧近似或恰好是40 ms。在一个实施例中,帧可以不重叠。在另一个实施例中,帧可以以近似25%与近似90%之间重叠。在一个特定实施例中,帧以近似或恰好75%重叠。

  与上述训练过程200形成对比,用于对饮食活动进行分类的过程300受限于所确定的短期特征的数量。特别地,在过程300中,仅确定计算所选特征集合的分段特征所需的短期特征。然而,读者应当领会,取决于期望的准确性和可用的计算资源,可以使用任何期望数量的短期特征。附加地,所选短期特征可以基于从执行机器学习模型接收的数据而变化。所选短期特征可以是提供与摄取活动分类相关的最大量信息的那些短期特征。

  该过程以对来自提取的短期特征的分段特征进行分段和提取而继续(框316)。再次,处理器被配置成将提取的短期特征向量分段成预定时间长度的组,以使得能够对于每个分段执行统计函数。在一些实施例中,分段完全重叠,即分段与相邻分段具有仅一帧偏移。在其他实施例中,分段可以仅部分重叠,使得每个分段以5、10、25或50帧或者以任何其他期望数量的帧从时间上相邻的分段移位。在另外的实施例中,分段可以彼此没有重叠。

  分段可以具有在例如0.1秒与60秒之间的长度。在一个实施例中,分段具有在1秒与10秒之间的长度。在一些实施例中,特征被分区成近似或恰好3秒的分段。在其他实施例中,取决于应用于分段的统计函数、期望的准确性、可用的计算资源和其他参数,特征可以被分区成不同的分段长度。此外,在一些实施例中,处理器分析特征的不同分段长度,以研究特定摄取确定的最佳时间窗。最佳时间窗可以基于音频信号中的特征和/或正被分析的个体或任务的特征。

  然后,以与上面步骤216中类似的方式,通过对分段特征向量应用统计函数,从分段中确定分段特征。然而,仅仅被存储为所选特征集合的那些分段特征被确定,从而限制了对于计算所必需的计算资源。

  最后,该过程通过对音频样本进行分类而结束(框320)。如上面所讨论的,可以使用机器学习模型(诸如图5的机器学习训练过程)来开发分类器。在一个实施例中,分类器是随机森林分类器,尽管在其他实施例中可以使用其他分类器,诸如高斯混合模型、线性判别分析、朴素贝叶斯、决策树和/或k-最近邻分类器。提取的所选分段特征被输入到分类器中,该分类器基于分段特征确定可能记录在记录的音频样本中的摄取活动。在一个实施例中,分类器输出可以是基于记录的音频的某个摄取活动的概率。在另一个实施例中,分类器输出可以是最有可能的特定活动。

  方法300通过基于占用率的确定生成输出而继续(框324)。在一些实施例中,输出基于在分类器结果的基础上将音频信号与存储在存储器172中或远程存储器或服务器中的数据库中的已知食物或饮品类型和量进行匹配。在一个实施例中,该输出可以是用户接口上描绘的关于使用分类器检测到的摄取活动的可感知输出,该用户接口例如外部设备160或可佩戴监视装置120上的屏幕。可感知输出可以包括在摄取的食物或饮品中检测到的摄取活动的指示和/或估计的卡路里量或营养成分表(nutritional fact)(例如,大量营养素和/或微量营养素等)。在其他实施例中,可感知输出可以是听觉指示器,诸如指定检测到的摄取活动和/或活动中估计的卡路里量或营养成分表的音频警报。

  在另外的实施例中,输出是被传送到另一电子设备或存储在一存储器或存储器172中的电子信号。例如,输出可以是输出到外部设备160或不同外部设备的电子信号。在一些实施例中,输出被存储在存储器172中,并且在指定的时间段(例如一天)内聚集多个输出。在另一个实施例中,输出被存储在存储器172中,并且可以由用户在期望时召回,使得用户可以在指定的时间段内跟踪他或她的营养输入。

  所公开的饮食活动监视系统100提供了通过供给一种高效且成本有效的方式来跟踪饮食和营养活动而对计算机和营养或饮食活动跟踪和监视技术的许多改进。在一个实施例中,颈带监视装置120仅要求可容易获得且廉价的部件,例如麦克风(特别是驻极体麦克风)、电池、以及传送器(特别是蓝牙®传送器)。因此,饮食活动监视系统100可以被廉价产生,从而使得能够以低成本跟踪饮食活动,这是针对常规饮食活动跟踪技术的改进。

  此外,由于饮食活动监视系统100自动检测营养活动,因此营养跟踪是在最少用户输入的情况下完成的。由于许多常规的饮食和营养跟踪系统要求用户输入,因此营养概况经常是不完整的,因为用户可能忘记或忽略记录一些活动,或者由于输入活动所要求的时间而可能完全停止跟踪营养活动。所公开的饮食活动监视系统100的营养和饮食活动的自动记录从而为用户提供更完整的营养记录。照此,所公开的饮食活动监视系统100是对饮食跟踪技术的进一步改进。

  此外,在许多常规的自动化营养跟踪系统中,该系统不能够确认用户消耗的食物或饮品的量。由于所公开的饮食活动监视系统100基于咀嚼和吞咽声音来检测营养活动,因此饮食活动监视系统100可以更准确地检测所消耗的食物或饮品的量。因此,出于该附加原因,饮食活动监视系统100是针对常规饮食跟踪技术的进一步改进。

  其他常规营养跟踪系统基于有限的频率或灵敏度操作。特别地,与层叠的压电板麦克风相比,驻极体麦克风的使用提供了对与用户皮肤接触的降低的灵敏度。由于对用户皮肤的灵敏度使得在用户头部移动期间不合期望的读数和声音失真,因此驻极体麦克风提供了改进的音频信号捕获。此外,使用压电麦克风传感器难以或不可能准确地捕获吞咽信号,并且所公开的驻极体传感器从而提供了改进的音频检测。照此,所公开的饮食活动监视系统100是对常规营养跟踪系统的改进,因为饮食活动监视系统100灵敏地检测宽范围的频率,从而供给针对常规系统改进的准确性。

  实验性结果

  使用饮食活动监视系统100的实施例执行实验。如图7a中所图示的,实验性系统包括使用壳体424设计的颈带420,壳体424包括覆盖有天鹅绒织物的弹性带。壳体424进一步包括在两端部上的可调整的钩和环条带428。基于织物的设计实现起来廉价,并且为用户提供舒适性,以确保用户可以全天舒适地佩戴该设备。

  颈带420的示例性实施例通过首先将弹性条带切割成期望的长度来制造,如图8a中所图示的。在一个实施例中,弹性条带422被切割成缺乏弹性的近似38 cm的长度,其在应变下能够伸展到近似45 cm。天鹅绒织物425被切割成近似26 cm的长度,而钩和环端部被切割成每个端部(即,一个端部处的钩部426和相对端部处的环部428)近似6 cm的长度。

  使用例如胶水在近似或恰好弹性条带的中心处将驻极体麦克风440粘附到弹性条带(图8b)。驻极体麦克风440连接到蓝牙®4.0模块436,在图示的实施例中,该蓝牙®4.0模块436是由可再充电100 mAh锂离子电池444供电的F-6888V1蓝牙4.0模块。蓝牙®模块436和电池444被粘附到织物颈带内部的弹性带,其中每个元件440、436、444之间具有至少2 cm的间隔。例如,驻极体麦克风可以具有例如2.2 mm的半径,具有~44dB至~66dB的灵敏度范围和0.5 mA的最大额定电流。将功率按钮附接并且胶粘到蓝牙模块,以便使得用户能够给颈带通电和断电。

  钩和环端部426、428附接到弹性条带422,并且天鹅绒织物435缠绕在弹性条带422的与钩和环端部426、428相邻的中心部分之上,从而形成颈带420的壳体424,如图8c中所图示的。

  实验性饮食活动数据收集是在孟加拉工程技术大学(BUET)生物医学工程系中的隔音设施中执行的。该设施由完全隔音和消声的记录室连同相邻的控制房间组成,在它们之间具有隔音窗。每个受试者在记录室内部以舒适的坐姿执行各种营养和其他任务。

  饮食活动数据集是从20个年龄在20与25岁之间的性别平衡的健康受试者收集的。对于喝活动,每个受试者在四个不同的时期消耗100 ml的水。对于固体食物,受试者被给予15g薯片(松脆度)、1个俱乐部三明治(柔软度)和2块巧克力曲奇(硬度)。为了训练算法针对其他发声活动鲁棒,还记录了其他非营养活动,例如讲话、咳嗽、大笑、呼吸和干吞咽。下面表3中总结了数据集中记录的活动。在图9中图示了使用实验性设备420获取的喝水和饼干咀嚼记录的示例性频谱图。

  表3:针对每个受试者的活动总结

  

  为了标识包含饮食活动的帧,首先将音频信号划分成40 ms的帧,并且计算每个帧内的能量。如果帧的短期能量高于预限定阈值,则假定存在相关的饮食活动。通过观察从数据子集获得的能量直方图来依经验设置能量阈值。

  六十三维梅尔频率倒谱系数(MFCC)被用作第一短期特征集合。使用了30通道梅尔滤波器组,其中保留21个静态系数(包括C0和对数能量)。接下来,附上MFCC的德尔塔和加速度系数。如上面表1中总结的,除了MFCC之外,还提取了若干个基于频谱、波形和能量的特征。所有短期特征都是从具有75%重叠的40 ms帧计算的。然后将特征连结到所选特征集合,以获得76维向量。

  为了检测长期饮食活动(例如咀嚼),在若干秒的窗内观察特征参数。在实验性可佩戴系统420中,通过从3秒的窗或分段内的短期特征计算若干个统计函数来提取分段特征。从表1中的76维特征中的每一个,计算表2中总结的7个统计函数(均值、中值、标准差、偏斜度、峰度、最大值和最小值),以从每个3秒窗获得维度532的分段特征。实验性实时实现方式还利用了3秒的音频缓冲器,并且在3秒的时间帧内提供了分类决策。

  ReliefF方法用于从532维分段特征向量选择特征子集,以将532维分段特征向量的维数减少到包含76个所选特征集合的分段特征向量,所述76个所选特征中的每一个是通过将统计函数应用于短期特征的分段而确定的系数。

  利用用于从提取自3秒窗的分段特征进行饮食活动检测的若干个不同的机器学习算法对实验性数据进行测试。评估的分类器包括高斯混合模型(GMM)、线性判别分析(LDA)、朴素贝叶斯(NB)、决策树(DT)、k-最近邻(kNN)和随机森林(RF)。下面表4中总结了如在实验性实施例中使用的分类器参数。

  表4:用于实验性分类器的参数

  

  图10图示了颈带420与训练和评估过程之间的关系。为了实时监视饮食活动,颈带420作为蓝牙®设备连接到PC。计算机上的MATLAB应用启动该设备作为音频输入,并且当饮食监视开始时,该应用在3秒的缓冲器上从该设备获取音频流,并且向用户通知检测到的饮食/非饮食活动。

  为了评估可佩戴饮食活动检测系统420的有效性,设计了具有5-类分类任务的实验性设定。5类包括:(i)喝水(液体),(ii)吃饼干(硬度),(iii)吃薯片(松脆度),(iv)吃三明治(柔软度),和(v)其他非摄取活动。还为另外的实验设计了3-类实验性协议,其中三个类包括:(i)喝(液体),(ii)咀嚼(固体食物),和(iii)其他非摄取活动。

  在记录的数据集中,饮食活动的总持续时间与非饮食活动的总持续时间相比小得多,这在训练集中造成不平衡。为了解决该问题,饮食类的饮食活动特征被过采样了若干倍以平衡训练数据集。

  实验是在20个受试者的数据之上以留一个受试者交叉验证的形式设定的。对于性能评估,逐类的精度、召回率、F-量度以及还有这些度量的平均值是在不同的类之上确定的。

  首先,针对5-类分类任务观察特征选择效果。表5示出了当使用RF分类器时,具有和不具有特征选择的平均分类结果。

  表5:特征选择对使用RF分类器的5-类任务的效果

  

  图11图示了在5-类分类任务中使用的来自实验的不同机器学习算法的性能。性能度量的比较示出了,RF分类器表现优于实验性数据集中的其他分类器。表6示出了详细的RF分类器实验结果,这说明RF分类器在5-类分类实验中具有86.53%的总体准确性。

  表6:随机森林分类器的5-类实验性结果

  

  上面描述的实施例已经作为示例被示出,并且应当理解,这些实施例可能容许各种修改和替代形式。应当进一步理解,权利要求不意图限于所公开的特定形式,而是要覆盖落入本公开的精神和范围内的所有修改、等同物和替代物。

  通过使用在喝、固体食物和其他活动之间进行分类的更简单的任务,来在实验性系统上评估了另一个实验。在表7中示出了使用RF分类器的3-类实验的结果,表7图示了本实验的80%以上的总体精度、召回率和F-量度以及92.49%的准确性。

  表7:对使用随机森林分类器的3-类分类的结果

  

  3-类和5-类实验两者的实验性结果说明,可佩戴颈带饮食活动监视系统准确地检测不同类型的营养活动,并且进一步充分区分于其他非摄取活动(例如,说话、咳嗽、大笑)。附加地,使用更详细的训练数据集使得能够不仅检测食物的分类,而且还检测特定的食物,以便使得能够基于咀嚼和吞咽摄取声音来跟踪摄取的营养成分。

  将领会,上述和其他的特征和功能的变体或其替代物可以合期望地组合到许多其他不同的系统、应用或方法中。各种目前未预见或未预料到的替代物、修改、变型或改进可以后续由本领域技术人员进行,所述替代物、修改、变型或改进也意图被前述公开内容所包含。

《频谱图用于监视饮食活动的系统和方法.doc》
将本文的Word文档下载到电脑,方便收藏和打印
推荐度:
点击下载文档

文档为doc格式(或pdf格式)