Le modèle de reconnaissance de la toux classe les sons de toux en temps réel

Le Center for Noise and Vibration Control de KAIST a annoncé que sa caméra de détection de la toux reconnaît l'endroit où la toux se produit et visualise les emplacements. La caméra de reconnaissance de la toux qui en résulte peut suivre et enregistrer des informations sur la personne qui a toussé, son emplacement et le nombre de toux en temps réel.

Le professeur Yong-Hwa Park du Département de génie mécanique a développé un modèle de reconnaissance de la toux basé sur l'apprentissage en profondeur pour classer un son de toux en temps réel.

Le modèle de classification des événements de toux est combiné à une caméra sonore qui visualise leurs emplacements dans les lieux publics. L'équipe de recherche a déclaré avoir obtenu une meilleure précision de test de 87,4%.

Le professeur Park a déclaré que ce sera un équipement médical utile pendant les épidémies dans les lieux publics tels que les écoles, les bureaux et les restaurants, et pour surveiller en permanence l'état des patients dans une chambre d'hôpital.

La fièvre et la toux sont les symptômes les plus importants des maladies respiratoires, parmi lesquelles la fièvre peut être détectée à distance à l'aide de caméras thermiques. Cette nouvelle technologie devrait être très utile pour détecter les transmissions épidémiques sans contact.

Le modèle de classification des événements de toux est combiné avec une caméra sonore qui visualise l'événement de toux et indique l'emplacement dans l'image vidéo.

Pour développer un modèle de reconnaissance de la toux, un apprentissage supervisé a été mené avec un réseau de neurones convolutifs (CNN). Le modèle effectue une classification binaire avec une entrée d'une fonction de profil sonore d'une seconde, générant une sortie pour être un événement de toux ou autre chose.

Lors de la formation et de l'évaluation, divers ensembles de données ont été collectés auprès de Audioset, DEMAND, ETSI et TIMIT. La toux et d'autres sons ont été extraits de l'Audioset, et le reste des ensembles de données a été utilisé comme bruit de fond pour l'augmentation des données afin que ce modèle puisse être généralisé pour divers bruits de fond dans les lieux publics.

L'ensemble de données a été augmenté en mélangeant des sons de toux et d'autres sons de l'Audioset et des bruits de fond avec un rapport de 0,15 à 0,75, puis le volume global a été ajusté à 0,25 à 1,0 fois pour généraliser le modèle pour différentes distances.

Les ensembles de données de formation et d'évaluation ont été construits en divisant l'ensemble de données augmenté par 9: 1, et l'ensemble de données de test a été enregistré séparément dans un environnement de bureau réel.

Dans la procédure d'optimisation du modèle de réseau, la formation a été menée avec diverses combinaisons de cinq caractéristiques acoustiques, y compris le spectrogramme, le spectrogramme à l'échelle Mel et les coefficients de cepstre à fréquence Mel avec sept optimiseurs.

Les performances de chaque combinaison ont été comparées à l'ensemble de données de test. La meilleure précision de test de 87,4% a été obtenue avec le spectrogramme à l'échelle Mel comme fonction acoustique et ASGD comme optimiseur.

Le modèle de reconnaissance de la toux formé a été combiné avec une caméra sonore. La caméra sonore est composée d'un réseau de microphones et d'un module de caméra. Un processus de formation de faisceau est appliqué à un ensemble collecté de données acoustiques pour découvrir la direction de la source sonore entrante.

Le modèle intégré de reconnaissance de la toux détermine si le son est de la toux ou non. Si tel est le cas, l'emplacement de la toux est visualisé sous la forme d'une image de contour avec une étiquette «toux» à l'emplacement de la source sonore de toux dans une image vidéo.

Un test pilote de la caméra de reconnaissance de la toux dans un environnement de bureau montre qu'elle distingue avec succès les événements de toux et d'autres événements, même dans un environnement bruyant. De plus, il peut suivre l'emplacement de la personne qui a toussé et compter le nombre de toux en temps réel.

Les performances seront encore améliorées avec des données de formation supplémentaires obtenues à partir d'autres environnements réels tels que les hôpitaux et les salles de classe.

Le professeur Park a déclaré:

Dans une situation pandémique comme celle que nous connaissons avec le COVID-19, une caméra de détection de la toux peut contribuer à la prévention et à la détection précoce des épidémies dans les lieux publics. Surtout lorsqu'il est appliqué à une chambre d'hôpital, l'état du patient peut être suivi 24 heures sur 24 et permettre des diagnostics plus précis tout en réduisant l'effort du personnel médical. «

La source:

Institut supérieur des sciences et de la technologie de Corée