Manual de utilizare pentru clasificarea sunetului și detectarea direcției sunetului cu inteligență artificială Hanwha Vision SPS-A100M

Cuprins ascunde

1 Clasificarea sunetului prin inteligență artificială Hanwha Vision SPS-A100M și detectarea direcției sunetului

2 Introducere

3 Tehnologie de analiză audio bazată pe inteligență artificială

4 Instalare și mediu: Un ghid pentru performanță optimă

5 Concluzie

6 Documente/Resurse

6.1 Referințe

Clasificarea sunetului prin inteligență artificială Hanwha Vision SPS-A100M și detectarea direcției sunetului

Introducere

Sunetul este adesea un instrument de supraveghere trecut cu vederea, dar puternic, în contextul amenințărilor invizibile. În timp ce sistemele convenționale de supraveghere video s-au concentrat pe captarea vizuală a ceea ce se întâmplă, mediul de securitate de astăzi a evoluat pentru a recunoaște nu doar tipurile de evenimente sonore, ci și sursele lor exacte. Pe măsură ce limitele siguranței publice și ale protecției activelor se extind, tehnologia de analiză audio are potențialul de a contribui dincolo de simpla asistență la prevenirea criminalității și la răspunsul rapid la incidente.
În acest context, tehnologia de clasificare a sunetelor bazată pe învățare profundă de la Hanwha Vision oferă funcții inteligente care recunosc cu precizie evenimente audio specifice - cum ar fi țipete pre-antrenate și spargerea de geamuri - declanșând alerte imediate. În plus, tehnologia de detectare a direcției sunetului identifică locația sursei audio, oferind informații decisive nu numai despre „ce este sunetul”, ci și despre „unde a provenit sunetul”. Aceste două tehnologii lucrează sinergic pentru a maximiza capacitățile integrate de conștientizare situațională, stabilind un nou standard pentru sistemele de securitate de generație următoare.
Această lucrare specială analizează în detaliu aceste tehnologii, oferind îndrumări practice pentru implementarea și utilizarea optimă în medii diverse.

Tehnologie de analiză audio bazată pe inteligență artificială

Clasificarea sunetelor
Tehnologia de clasificare a sunetelor de la Hanwha Vision este construită pe un model de bază de învățare profundă: Rețeaua Neuronală Convoluțională (CNN). Această tehnologie începe prin transformarea informațiilor sonore abstracte într-o formă vizuală cunoscută sub numele de spectrogramă1.
O spectrogramă acționează ca o „amprentă” acustică, afișând clar tiparele unice ale unui anumit sunet. CNN excelează în învățarea și recunoașterea automată a caracteristicilor și tiparelor acustice subtile din aceste imagini spectrograme, care sunt adesea dificil de distins de urechea umană. Acest proces permite identificarea și clasificarea precisă a unei game largi de evenimente sonore, inclusiv țipete, spargerea geamurilor, claxoane de mașină și derapaje.
Odată ce un sunet a fost detectat și clasificat, sistemul extrage automat date din fluxul audio. Deoarece datele audio sunt deja preprocesate și...ampsunetul clasificat este apoi generat ca un clip audio file, complet cu metadate pentru descărcare și reutilizare ușoarăview.
Această tehnologie este disponibilă pe anumite produse Hanwha Vision.
Detectarea direcției sunetului
Tehnologia de detectare a direcției sunetului de la Hanwha Vision oferă un răspuns rapid prin identificarea și notificarea utilizatorilor cu privire la direcția unui anumit eveniment audio. Tehnologia determină această direcție prin măsurarea diferenței de timp de sosire.
(TDoA) a semnalului sonor pe măsură ce acesta ajunge la mai multe microfoane separate fizic.
Algoritmul TDoA funcționează prin analizarea diferenței de fază în timpul necesar unui sunet pentru a ajunge la fiecare microfon, estimând astfel distanța reală până la sursă. Aceste informații sunt apoi utilizate pentru a calcula unghiul sursei sonore. Așa cum este ilustrat în Figura 1, un sistem multi-microfon cu microfoane (MIC1, MIC2, MIC3, MIC4) aranjate în cerc poate determina diferențele de distanță (d1, d2, d3, d4) dintre sursa sonoră și fiecare microfon. Calcularea diferenței de timp de sosire pe baza acestor diferențe de distanță este nucleul algoritmului TDoA.

Figura 2 demonstrează vizual diferența de timp (τij) în sosirea unui semnal sonor la două microfoane (forme de undă maro și albastru). Prin măsurarea precisă a acestor diferențe de timp de sosire, sistemul poate triangula cu precizie direcția sursei sonore.

Procesul de detectare a direcției sunetului este împărțit în patru etape principale:

Colectarea semnalelor: Colectarea simultană a semnalelor sonore prin intermediul mai multor microfoane.
Prelucrarea semnalelor: Analizați semnalele colectate folosind un algoritm specializat.
Estimarea direcției: Estimați direcția sunetului pe baza semnalului procesat.

Rezultat rezultat: Afișează direcția finală detectată ca unghi de orientare.

Această tehnologie este disponibilă pe produsele Hanwha Vision care acceptă mai multe microfoane, cum ar fi Audio Beacon (SPS-A100M) și anumite camere echipate cu Wisenet 9 SoC.

Instalare și mediu: Un ghid pentru performanță optimă

Eficacitatea soluției audio bazate pe inteligență artificială de la Hanwha Vision este strâns legată de mediul de instalare. Luând în considerare în mod activ următoarele aspecte, puteți maximiza potențialul sistemului și asigura o performanță stabilă.

Selectarea locației optime de instalare
Pentru o clasificare fiabilă a sunetului și o detectare a direcției, se recomandă următoarele condiții:
Clasificarea sunetului: Sistemul funcționează cel mai fiabil atunci când distanța dintre produs și sursa de sunet este de cel puțin 2 m. Această distanță se bazează pe înălțimea sursei de sunet. Dacă distanța este prea mică (în limita a 2 m), chiar și un sunet aparent de volum redus, cum ar fi o bătaie din palme, poate deveni excesiv de puternic, ducând la rezultate fals pozitive. Instalarea pe tavan într-un cadru interior este o metodă ideală pentru clasificarea sunetului, deoarece minimizează reflexiile acustice și permite detectarea uniformă a sunetului pe o suprafață largă.

Detectarea direcției sunetului: Pentru o detectare precisă a direcției, se recomandă un spațiu minim de cel puțin 6.0 m lățime și 6.0 m lungime. Acest lucru minimizează efectele reflexiilor și reverberațiilor sunetului și asigură un spațiu suficient pentru analiza semnalului între mai multe microfoane.

Menținerea distanței și a unghiului de incidență corespunzători: Distanța și unghiul dintre sursa sunetului evenimentului și produs sunt esențiale pentru precizia detecției. Dacă unghiul de incidență al sunetului evenimentului este prea mare (depășește 20°) sau distanța este prea scurtă, precizia detecției poate scădea. Tabelul de mai jos prezintă distanțele minime recomandate în funcție de înălțimea de instalare a produsului.

Înălțimea de instalare a produsului	Distanța minimă de detectare a direcției
2.3m	≥ 2.2m
2.5m	≥ 2.7m
2.7m	≥ 3.3m
2.9m	≥ 3.8m
3.1m	≥ 4.4m
3.3m	≥ 4.9m
3.5m	≥ 5.5m
3.8m	≥ 6.3m
4m	≥ 6.9m
5m	≥ 9.6m

Asigurarea unei căi sonore clare: Obstacolele fizice precum pereții, sticla sau perdelele groase dintre sursa sonoră și produs pot slăbi sau distorsiona semnalul. Pentru a obține performanțe maxime, asigurați o cale sonoră clară și directă.

Analiza mediului pentru detectarea și clasificarea eficientă a sunetului
Pentru detectarea și clasificarea precisă a sunetului, luați în considerare următoarele condiții acustice și factorii de mediu înconjurători.

Tip de sunet	Prag dB	Distanța prezisă
țipând	>70dB	2m~20m
Spargerea geamurilor, claxoane auto, derapajul anvelopelor	>80dB	2m~16m

De exampDe exemplu, un sunet de tip țipăt poate fi clasificat cu precizie și detectat direcțional atunci când volumul său este peste 70 dB. Volumul sunetului evenimentului trebuie să fie, de asemenea, semnificativ mai puternic decât zgomotul de fundal din jur (recomandat: cu cel puțin 30 dB mai puternic). Pentru o măsurare și o clasificare precise, zgomotul de fundal nu ar trebui, în mod ideal, să depășească 60 dB, ceea ce asigură o distincție clară între eveniment și zgomotul ambiental.
Întrucât zgomotul ambiental poate afecta performanța, este o practică bună să analizați în prealabil următoarele aspecte:

Medii exterioare: Fiți atenți la zgomotele naturale (vânt, ploaie, tunete) și la sunetele artificiale (trafic, impacturi, smucituri ale mașinilor). În medii imprevizibile, o analiză amănunțită vă poate ajuta să selectați locația optimă de instalare.

Medii interioare: Reflexiile și reverberațiile sunetului pot fi semnificative în funcție de materialele (pereți, tavane, podele) și de dimensiunea camerei. Sunetele similare cu un eveniment țintă, cum ar fi spargerea unui balon sau scăparea unei cutii grele, pot crea reverberații care duc la alarme false. Instalarea trebuie să țină cont de proprietățile acustice ale spațiului interior.

Configurarea pragurilor dB pentru clasificarea sunetului
Pentru a optimiza funcția de Clasificare a sunetului, puteți configura pragul dB pentru a se potrivi mediului specific.

Într-un mediu zgomotos, setați pragul la o valoare mai mare pentru a reduce alarmele false.
Într-un mediu liniștit, unde evenimentele sunt subtile, setați pragul la un nivel mai scăzut pentru a evita ratarea alertelor importante.

După verificarea valorii medii în dB a zgomotului de fond, se recomandă setarea unui prag cu cel puțin 55 dB mai mare decât media respectivă.

Așa cum se arată în Figura 6, pragul dB poate fi ajustat intuitiv folosind un cursor sau un câmp de introducere numerică, având un impact direct asupra sensibilității detecției în timp real. Graficul reprezintă vizual modificarea în dB a sunetului în timp (linia neagră) și pragul configurat (linia gri), facilitând observarea momentului în care un eveniment sonor (vârf portocaliu) depășește pragul.

Calibrarea direcției sunetului și configurarea sistemului
Produsele Hanwha Vision oferă evenimente sub formă de clipuri audio, care includ atât rezultatele clasificării sunetului, cât și cele ale detectării direcției.

După cum se arată în Figura 7, rezultatul clasificării sunetului este afișat cu o pictogramă intuitivă în partea de jos, împreună cu rezultatul detectării direcției sunetului. „Direcția (N+301.8°)” înseamnă că sursa sunetului este situată la 301.8° în sensul acelor de ceasornic față de Nord (N).
Valoarea „Încredere (0.74)” însoțitoare indică un nivel de încredere de 74%. Aceasta, împreună cu nivelul presiunii sonore (52 dB), ajută utilizatorii să evalueze cu precizie situația și să reacționeze rapid.
Informațiile despre direcția sunetului transmise de sistem pot abate de la nordul real în timp sau din cauza instalării. Deoarece informațiile precise despre direcție sunt esențiale, este important să calibrați punctul de referință Nord, după cum este necesar. Acest lucru se poate face folosind una dintre cele trei metode:

Instalați produsul cu orientare spre nordul real, așa cum indică o busolă.
În meniul produsului, navigați la [Sistem] > [Informații despre produs] > [Mod de montare] și introduceți direct unghiul măsurat în sensul acelor de ceasornic de la nordul busolei până la punctul de referință al camerei.

Folosește funcția busolă inclusă în instrumentul de instalare Wisenet pentru o configurare inițială mai convenabilă și mai precisă.

Sfaturi pentru medii acustice complexe

Medii acustice complexe: Într-un mediu cu mai multe sunete simultane, modelul de inteligență artificială le poate clasifica drept un singur sunet sau le poate clasifica greșit. Acesta este un fenomen natural; o analiză cuprinzătoare a informațiilor furnizate de sistem va ajuta la asigurarea unei conștientizări situaționale precise.
Analiza mediului pentru alarme precise: Modelul de clasificare a sunetelor poate genera alarme pentru sunete similare cu sunetele evenimentelor, dar care nu se încadrează în categoriile de clasificare - cum ar fi frecarea obiectelor metalice, strigătele animalelor, instrumentele muzicale sau alte zgomote bruște și puternice. Înțelegerea acestei caracteristici a modelului vă permite să anticipați și să vă pregătiți pentru alarmele cauzate de aceste sunete excepționale, reducând eficient confuzia inutilă.

Concluzie

Depășind limitele observației vizuale, soluția audio bazată pe inteligență artificială de la Hanwha Vision creează un sistem de avertizare timpurie cu adevărat cuprinzător, care analizează inteligent sunetul.
Această carte albă servește drept ghid practic, oferindu-vă posibilitatea de a implementa și optimiza tehnologia pentru mediul dumneavoastră specific - de la instalarea inițială până la reglarea fină pentru performanță maximă.
Pe măsură ce provocările de securitate evoluează, Hanwha Vision își menține angajamentul de a-și îmbunătăți capacitățile de analiză audio, asigurând o experiență de securitate mai stabilă, mai eficientă și mai proactivă în orice situație.

Hanwha Vision

13488 Centrul de Cercetare și Dezvoltare Hanwha Vision,
6 Pangyo-ro 319-gil, Bundang-gu, Seongnam-si, Gyeonggi-do, Coreea www.HanwhaVision.com

Documente/Resurse

Clasificarea sunetului prin inteligență artificială Hanwha Vision SPS-A100M și detectarea direcției sunetului [pdfManual de utilizare
Clasificarea sunetului prin inteligență artificială (AI) și detectarea direcției sunetului SPS-A100M, Clasificarea sunetului prin inteligență artificială și detectarea direcției sunetului, Clasificarea și detectarea direcției sunetului, Detectarea direcției sunetului, Detectarea direcției, Detectare

Referințe

Manual de utilizare