HowToAV.tv mluví s Alexem Capecelatrom – spoluzakladatelem a generálním ředitelem společnosti Josh.ai — jeden z předních světových inovátorů technologie hlasové aktivace o integraci hlasového ovládání s AV a systémy domácí automatizace.

HowToAV mluví s jedním z předních světových inovátorů hlasové aktivace a hlasového ovládání — Alex Capecelatro z Josh.ai — diskutovat o nejnovějších inovacích v hlasovém ovládání a o tom, jak jej nejlépe integrovat jako součást profesionálního domácího automatizačního nebo audiovizuálního systému.

Hlasová aktivace popř hlasové ovládání umožňuje uživateli aktivovat nebo ovládat širokou škálu automatizace domácnosti a AV zařízení jednoduše pomocí svého hlasu, na rozdíl od mačkání tlačítek k používání zařízení s dotykovou obrazovkou.

Akuvox Smart Intercom with Voice controlKdo jsou hlavní hráči na trhu hlasového ovládání?

„Na trhu hlasového ovládání jsou v podstatě tři hlavní hráči; Hlasová služba Amazon Alexa (se zařízeními, jako jsou Amazon Echo a Amazon Dot), Google Home s mnohem novějším produktem se skvělým mikrofonem a mojí společností — Josh.ai. V některých případech všichni spolupracujeme a v jiných případech si naše systémy konkurují.“

Jak se tyto systémy hlasového ovládání liší?

„Amazon Alexa i Google Home jsou v podstatě inteligentní mikrofonní zařízení, hardwarové platformy, které jsou schopny provádět jazykové zpracování pomocí softwarové vrstvy. Josh je plnohodnotný řídicí systém využívající černou skříňku ukrytou ve skříni, která také zajišťuje veškeré jazykové zpracování. To je důvod, proč bychom mohli spolupracovat s Amazonem a Google Home v tom, že bychom mohli používat jejich mikrofony a náš systém ovládání/zpracování.

Jakou část systému domácí automatizace lze ovládat pomocí hlasové aktivace?

„Moje místo, mohu například otevírat garážová vrata, ovládat světla podle podlahy nebo místnosti, přehrávat hudbu – vybrat si konkrétní umělce nebo žánry prostřednictvím Sonos nebo jiných integrací. Mám fontánu, různé kamery po celém domě, které mohu ovládat jednoduše pomocí hlasových příkazů.
Takže prakticky vše, co lze integrovat do systému domácí automatizace, lze ovládat také hlasem.

voice activation / speech controlPotřebuje systém hlasové aktivace naučit se náš hlas?

„Nepotřebuje se učit; způsob, jakým technologie funguje, je zajímavý. Proces v podstatě potřebuje převést mluvené slovo na psaný text. Převod z mluveného slova na psaný text se provádí pomocí technologie tzv ASR (automatická regonizace řeči), technologie vycházející od společností jako Amazon, Microsoft, Google a Apple a je to open source, což znamená, že ji může používat většina lidí.

ČTĚTE VÍCE
Co dělá pojistka motoru ventilátoru?

Je technologie hlasového ovládání bezpečná?

„Některá z těchto opatření již existují, takže pokud máte hands-free mikrofon jako Amazon Echo, neumožní vám hlasově ovládat poplašné systémy, garážová vrata a zámky bez hlasového PIN kódu.
Zákazníci také rádi používají svůj smartphone jako své rozhraní, takže je to opravdu uzamčené a bezpečné.

Jaké klíčové oblasti je třeba vzít v úvahu při navrhování hlasového ovládání a aktivace do systému domácí automatizace?

  • Proveďte audit sítě. Ujistěte se, že máte dobrou síť. Právě teď je veškerá část zpracování řeči na text v cloudu. V oblastech s pomalým výkonem sítě nebude systém fungovat dobře.
  • Proveďte audit zařízení. Pokud nemůžete zařízení ovládat tlačítkem, pak nebude fungovat s hlasovým ovládáním.
  • Dejte přirozené názvy místnostem, zónám a zařízením. Proto při používání hlasových frází, jako je „zapni světla v kuchyni“, žádáte mnohem přirozenější akci.

Děkujeme Alex Capecelatro, Josh.ai, CEDIA a Integrated Systems Europe. Rozhovor vznikl jako součást školení CEDIA na ISE 2017.

Nechte tým návrhářů CIE pomoci s vaším dalším AV projektem

CIE System Design team

Oceněný tým odborníků na AV a systémovou integraci společnosti CIE poskytuje jedinečné komplexní služby projektového řízení na britský trh instalačních/integrátorů.

Naši AV experti nabízejí širokou škálu služeb s přidanou hodnotou nad rámec očekávání mnoha dalších distributorů, včetně; Návrh systému, specifikace produktu, schémata zapojení, návrh a sestavení stojanu, konfigurace systému, školení a podpora systému na místě/vzdálená.

Naši zákazníci mají přístup k některým nebo všem těmto službám – z nichž mnohé jsou zcela zdarma – na základě projektu po projektu; těžit ze zvýšené úrovně dovedností, specialistů na nové technologie a integraci nebo jednoduše zvýšit své zdroje pro předprodejní a poprodejní podporu.

HowToAV.tv poskytuje celou řadu tipů, triků a technologického know-how pro profesionální a rezidenční AV sektor.
Přihlaste se k odběru našeho kanálu YouTube nyní na howtoav.tv pro všechna nejnovější videa nebo nám pošlete své dotazy na [Email chráněn]

Inteligentní venkovní kamera se sirénou Buďte upozorněni v případě narušení vašeho pozemku Objevte

Chytrý termostat Spojte úsporu energie a pohodlí Objevte

Inteligentní vnitřní kamera Buďte okamžitě upozorněni v případě vloupání Discover

Umělá inteligence, a zejména rozpoznávání hlasu, se stále více stává součástí našeho každodenního života. Jeho využití je široké, ať už jde o naše chytré telefony, tablety nebo připojené reproduktory. Hlas uživatelů je nyní středem online světa nabízeného digitálními zúčastněnými stranami. S množstvím osobních asistentů, připojených reproduktorů a hlasem aktivovaných objektů se však může rychle zkomplikovat orientace na trhu rozpoznávání hlasu. Co tedy skutečně víme o rozpoznávání hlasu? Jaká je jeho funkce v každodenním životě a proč je dnes tak rozšířená? Netamo hodnotí aktuální situaci.

ČTĚTE VÍCE
Kolik stojí motor 787?

Stručná historie rozpoznávání hlasu

V roce 1961 byl společností IBM uveden na trh jeden z prvních nástrojů pro rozpoznávání hlasu na světě: IBM Shoebox. Masivní technologická společnost Apple spustila Siri až v dubnu 2011, která je dnes známá po celém světě. Následovalo několik spuštění různých hlasových asistentů: nejprve Google v červenci 2012 s Google Now, poté Microsoft následující rok spustil Cortanu a v roce 2014 Amazon odhalil Alexu a její připojený reproduktor, Amazon Echo.

Jak funguje rozpoznávání hlasu?

Definujte rozpoznávání hlasu

Rozpoznávání hlasu lze definovat jako technologii, která umožňuje zařízení porozumět a analyzovat lidský hlas a poté přepsat každé z nadiktovaných slov do použitelného textu. Konkrétně je hlas zachycen mikrofonem zařízení ve zvukových frekvencích a poté přepsán do psaného textu. Rozpoznávání hlasu lze považovat za alternativu k zadávání pomocí klávesnice/ručně a je často chváleno za to, že je rychlejší a šetří čas při každodenních úkolech. Rozpoznávání hlasu lze také definovat jako širší koncept automatického rozpoznávání řeči neboli ASR. Automatické rozpoznávání řeči zahrnuje dvě technologie: hlasové diktování a hlasové ovládání. Jaký je ale rozdíl mezi hlasovým diktováním a hlasovým ovládáním?

Hlasový diktát: jednoduchý princip, kdy musíte verbálně přenést text do zařízení, které jej pak přepíše přes procesor.

Hlasová kontrola: termín používaný při vydávání mluvených příkazů

Rozdíl mezi těmito dvěma pojmy je velmi jemný. Suma sumárum, hlasové ovládání lze popsat jako dávání skutečných pokynů stroji. Zatímco hlasové diktování jednoduše předává určité množství informací hlasem, aniž by to byl příkaz.

Pro další zlepšení softwaru pro rozpoznávání hlasu vyvinul National Institute of Standard and Technology v roce 1996 hodnocení rozpoznávání řečníků. Mnoho výzkumníků tedy používá tento nástroj k vyhodnocení pokroku, jehož bylo rozpoznávání hlasu v průběhu let dosaženo.

Je také běžné slyšet o slově chybovost, což je prostě průměr pro hodnocení výkonu softwaru pro rozpoznávání hlasu.

Různé součásti systému rozpoznávání hlasu

Slovo probuzení nebo horké slovo: toto je vstupní klíč, první interakce mezi člověkem a strojem v procesu rozpoznávání hlasu. Toto je slovo, které spustí rozpoznávání hlasu zařízení. Nejznámější slova pro probuzení jsou „Ok Google“ nebo „Hey Siri“. Slova na probuzení jsou často krátká a výstižná, protože uživatel je musí umět snadno a rychle vyslovit. Snadná výslovnost je ještě důležitější, protože v každém jazyce může být několik přízvuků a mnoho hlasových tónů atd.

ČTĚTE VÍCE
Jak se automaticky vypínají zrcátka?

Řeč na text: toto je systém, který rozebírá slova, která uživatel říká. Rozděluje slova do malých skupin (nazývaných vzorky) a spojuje je s fonémy. Jednodušeji umožňuje převod zvuku nebo hlasu na psaný text. Proces je spárován s algoritmy, což umožňuje stroji rozpoznat, co uživatel řekl. Řeč na text lze zlepšit pomocí technik umělé inteligence, jako je strojové učení nebo hluboké učení. To spočívá v trénování a „učení“ stroje správným odpovědím pomocí umělých neuronových sítí.

NLP (zpracování přirozeného jazyka): tato technologie se označuje jako automatické zpracování přirozeného jazyka. Jedná se o nástroj pro zpracování lidské řeči pomocí počítačových nástrojů. Dělí se na 2 procesy: Porozumění přirozenému jazyku a Generování přirozeného jazyka. Proces NLP následuje po převodu řeči na text, protože právě tento nástroj stroj interpretuje text.

Text na řeč: tato technologie, známá také jako syntéza řeči, umožňuje transformaci počítačového textu na zvukový skript. Umožňuje například počítačovému hlasu přečíst webovou stránku osobě se zrakovým postižením. Po zpracování textu software stanoví rytmus nebo intonaci, která se použije na text. Provádí se na konci procesu rozpoznávání hlasu, protože syntetizovaný hlas je vytvořen tak, aby reagoval na požadavek uživatele prostřednictvím tohoto nástroje.

Hlasoví asistenti na trhu

V posledních letech mnozí z hlavních zainteresovaných stran v „digitální revoluci“ zavádějí na trh rozpoznávání řeči své vlastní osobní asistenty. Ačkoli používají v podstatě stejné techniky přepisu hlasu a textu, každý asistent má své vlastní charakteristické rysy podle cílů svého výrobce. Integrace rozpoznávání hlasu do ekosystému je pro značky důležitá, protože uživatelská data zajišťují hlasovému asistentovi větší přesnost. Je třeba také poznamenat, že pro provoz všech chytrých objektů v domácnosti je nutné použít audio systém (připojené reproduktory), často prodávaný různými značkami.

Google Assistant

Google Assistant, který byl uveden na trh v roce 2016, se stal jedním z předních světových hlasových asistentů. Značka se však již před svým vystoupením umístila na trhu rozpoznávání hlasu se svým asistentem Google Now. Přesněji řečeno, Google Assistant začal jako rozšíření Google Now a nyní se používá ve vlastní kapacitě. Asistenta bylo možné použít s bývalou aplikací Google Allo k odpovídání na zprávy přímo pro uživatele. Asistent Google dnes umožňuje uživatelům zadávat hlasové příkazy a provádět různé úkoly, od překladů v reálném čase, ovládání hudby a doporučení nejlepší trasy. Slova pro probuzení tohoto asistenta jsou „Hej Google“ nebo „Ok Google“. Hlasový asistent Google je navržen tak, aby fungoval se všemi připojenými produkty řady Nest (Nest Hub, Chromecast atd.). Americká značka navíc dokázala rozšířit pole působnosti svého hlasového asistenta díky jeho kompatibilitě s mnoha dalšími značkami, jako je například Netatmo. Připojeným reproduktorem značky je Google Nest. K dispozici je také verze s obrazovkou, Nest Hub.

ČTĚTE VÍCE
Jak dlouho může motor sedět bez chodu?

Produkty Netatmo kompatibilní s Google Assistant:

  • Smart Video zvonek
  • Inteligentní venkovní kamera
  • Inteligentní vnitřní kamera
  • Chytrý termostat

Siri

Osobní asistent Siri byl uveden na trh v roce 2011 společností Apple. Stejně jako ostatní asistenti zpracovává hlasové příkazy nebo vyhledávání provedená uživatelem. Jedinečnou vlastností Siri je její kompatibilita pouze s ekosystémem Apple (iPhone, iPad…). Připojeným reproduktorem Apple je Homepod (k dispozici také jako Mini).

Produkty Netatmo kompatibilní s aplikací Apple Homekit (aplikace Apple, se kterou lze integrovat chytré produkty s podporou Siri):

  • Smart Video zvonek
  • Inteligentní venkovní kamera
  • Chytrý detektor kouře
  • Inteligentní detektor oxidu uhelnatého
  • Inteligentní vnitřní kamera
  • Chytrý termostat
  • Inteligentní meteorologická stanice
  • Inteligentní senzor kvality vzduchu v interiéru

Alexa

Amazon spustil Alexu v listopadu 2014 a zároveň svůj reproduktor Amazon Echo. Na rozdíl od Siri nebo Google Assistant je jeho probouzecí slovo jeho přímý název „Alexa“, který se zdá o něco intuitivnější než „OK“ nebo „Ahoj“. Síla tohoto hlasového asistenta spočívá v jeho vynikající znalosti nákupních zvyklostí zákazníků Amazonu. Při provádění hlasových příkazů pro nákup na Amazonu může Alexa poskytnout relevantní seznam položek. Je to také jeden z pomocníků, který má největší kompatibilitu s produkty jiných značek.

Produkty Netatmo kompatibilní s Alexa:

  • Inteligentní video zvonek
  • Inteligentní venkovní kamera
  • Inteligentní vnitřní kamera
  • Chytrý termostat
  • Inteligentní meteorologická stanice

Bixby Voice

Bixby Voice, méně známý než Siri nebo Alexa, je osobní asistent vytvořený společností Samsung. Bixby Voice nabízí mnoho stejných funkcí jako ostatní asistenti, ale je k dispozici pouze na telefonech a tabletech Samsung. Chcete-li jej aktivovat, musíte říci: „Ahoj Bixby“. Samsung říká, že Bixby Voice rozumí hlasovým příkazům jemným způsobem, to znamená, že dokáže rozlišit mezi pozoruhodně podobnými požadavky. Připojený reproduktor Samsung se nazývá Galaxy Home (existuje verze Mini).

Cortana

V roce 2013 Microsoft oznámil vydání svého softwaru Cortana. Společnost Microsoft jej popisuje jako „asistenta produktivity“, který pracuje se systémem Windows. Software Cortana usnadňuje lepší správu úkolů v Microsoftu (kalendář, schůzky, připomenutí…): vše, co musíte udělat, je stisknout tlačítko mikrofonu a spustit Cortanu se slovem probuzení „Hey Coratana“. Asistent se vyznačuje tím, že je propojen se systémem Microsoft, což je kancelářský nástroj, a lze jej tedy používat na počítačích s Windows 10 i na Windows Phone s verzí Windows 8.1 (a novější).

ČTĚTE VÍCE
Které Aston Martin používají motory AMG?

Drak přirozeně mluví

Stejně jako Windows Assistant je i Dragon NaturalSpeaking software, který umožňuje používat počítač hlasem a slouží k překladu. Běží na jiných programech, jako je Word nebo Excel, ale také na webových prohlížečích. Uživatelé jej využívají především pro diktování slov. Dragon NaturalSpeaking umožňuje přepis audio nahrávek, zpracování mluveného textu a jeho opravy. Software Dragon je také známý svou přesností, protože prý dělá v průměru méně chyb ve srovnání s uživatelem, který píše na klávesnici.

Proč investovat do čističky vzduchu?

Systém rozpoznávání hlasu je nyní ve stavu neustálého rozšiřování. Každá značka navrhuje svého osobního asistenta, který funguje v rámci jejího ekosystému (Siri, Bixby) nebo se rozšiřuje na produkty jiných značek (Alexa, Google Assistant). Přidružené aplikace jako Apple Homekit nebo Google Home nabízejí uživatelům možnost plně propojit svůj domov pomocí rozpoznávání hlasu (a v širším měřítku prostřednictvím umělé inteligence). V konečném důsledku mají různí hlasoví asistenti podobné aplikace (hlasové příkazy, diktování textu atd.) a je na uživateli, aby si vybral digitální ekosystém, který mu nejvíce vyhovuje.