Uygulamaların sayısı ve ses arayüzlerinin önemi hızla artıyor

Içerik

büyük dört
Amerikalılar satın almak istiyor
Yıkayın, pişirin, temizleyin!
Eski konsept. Sonunda zamanı geldi mi?
Teknik olarak zor soru
Ses? Grafik Sanatları? Ya da belki ikisi de?
Güvende kal!

Portland, Oregon'da yaşayan Amerikalı bir aile, geçtiğimiz günlerde ses asistanı Alexa'nın özel sohbetlerini kaydedip bir arkadaşlarına gönderdiğini öğrendi. Medyanın Danielle adını verdiği evin sahibi, gazetecilere "güvenilemeyeceği için bu cihazı bir daha asla bağlamayacağını" söyledi.

AlexaABD'deki on milyonlarca evde Echo hoparlörleri (1) ve diğer cihazlar tarafından sağlanan , kullanıcı tarafından söylenen adını veya "çağrı sözcüğünü" duyduktan sonra kaydetmeye başlar. Bu, bir TV reklamında "Alexa" kelimesi geçse bile cihazın kayıt yapmaya başlayabileceği anlamına geliyor. Donanım distribütörü Amazon, bu durumda da tam olarak böyle olduğunu söylüyor.

Şirket yaptığı açıklamada, "Konuşmanın geri kalanı sesli asistan tarafından mesaj gönderme komutu olarak yorumlandı" dedi. "Bir noktada Alexa yüksek sesle 'Kim?' diye sordu. Parke döşemeyle ilgili bir aile sohbetinin sürdürülmesi, makine tarafından müşterinin iletişim listesindeki bir öğe olarak algılanmalıydı." En azından Amazon böyle düşünüyor. Böylece çeviri bir dizi kazaya dönüşür.

Ancak kaygı sürüyor. Çünkü bazı nedenlerden dolayı, kendimizi hala rahat hissettiğimiz bir evde, bir tür "ses modu" tanıtmamız, ne söylediğimizi, TV'nin ne yayınladığını ve tabii ki göğüsteki bu yeni hoparlörün ne yaptığını izlememiz gerekiyor. çekmeceler diyor. biz.

Bununla birlikte, Kusurlu teknolojiye ve gizlilikle ilgili endişelere rağmen Amazon Echo gibi cihazların popülaritesinin artmasıyla birlikte insanlar bilgisayarlarla seslerini kullanarak etkileşim kurma fikrine alışmaya başlıyor..

Amazon'un CTO'su Werner Vogels'in 2017'nin sonunda AWS re:Invent oturumunda belirttiği gibi, teknoloji şimdiye kadar bilgisayarlarla etkileşim kurma biçimimizi sınırladı. Klavyeyi kullanarak anahtar kelimeleri Google'a yazıyoruz, çünkü bu hâlâ bir makineye bilgi girmenin en yaygın ve en kolay yoludur.

dedi Vogels. –

büyük dört

Telefonda Google arama motorunu kullanırken, muhtemelen uzun zaman önce orada bir konuşma daveti içeren bir mikrofon işareti fark etmişizdir. Bu Google şimdi (2), bir arama sorgusunu dikte edebileceğiniz, sesli mesaj girebileceğiniz vb. Son yıllarda Google, Apple ve Amazon büyük ölçüde gelişti ses tanıma teknolojileri. Alexa, Siri ve Google Assistant gibi sesli asistanlar yalnızca sesinizi kaydetmekle kalmıyor, aynı zamanda onlara ne söylediğinizi anlıyor ve soruları yanıtlıyor.

Google Asistan tüm Android kullanıcılarına ücretsiz olarak sunulmaktadır. Uygulama, örneğin bir alarm kurabilir, hava durumu tahminlerini ve Google haritalarındaki rotaları kontrol edebilir. Google Asistan Konuşma Durumu Uzantısı Google Asistan() – ekipman kullanıcısına sanal yardım. Çoğunlukla mobil ve akıllı ev cihazlarında mevcuttur. Google Now'dan farklı olarak iki yönlü iletişim kurabilir. Asistan, Google'ın Allo mesajlaşma uygulamasının yanı sıra Google Home sesli hoparlörünün bir parçası olarak Mayıs 2016'da piyasaya sürüldü (3).

3. Google Ana Sayfası

IOS'un ayrıca kendi sanal asistanı var. Siriyani Apple işletim sistemlerinde (iOS, watchOS, tvOS homepod ve macOS) bulunan bir program. Siri, Ekim 5'de Let's Talk iPhone konferansında iOS 4 ve iPhone 2011s ile ilk kez sahneye çıktı.

Yazılım, konuşma arayüzüne dayalıdır: kullanıcının doğal konuşmasını tanır (iOS 11'de komutları manuel olarak girmek de mümkündür), soruları yanıtlar ve görevleri tamamlar. Makine öğreniminin kullanıma sunulması sayesinde zamanla bir asistan kişisel tercihleri analiz eder Kullanıcının daha alakalı sonuçlar ve öneriler sunmasını sağlar. Siri, sürekli bir İnternet bağlantısı gerektirir - buradaki ana bilgi kaynakları Bing ve Wolfram Alpha'dır. iOS 10, üçüncü taraf uzantılar için destek sunuyor.

Dört büyüklerden biri daha Cortana. Microsoft tarafından oluşturulan akıllı bir kişisel asistandır. Windows 10, Windows 10 Mobile, Windows Phone 8.1, Xbox One, Skype, Microsoft Band, Microsoft Band 2, Android ve iOS platformlarında desteklenir. Cortana ilk olarak Nisan 2014'te San Francisco'da düzenlenen Microsoft Build Developer konferansında tanıtıldı. Programın adı Halo oyun serisindeki bir karakterin adından gelmektedir. Cortana İngilizce, İtalyanca, İspanyolca, Fransızca, Almanca, Çince ve Japonca dillerinde mevcuttur.

Daha önce bahsedilen programın kullanıcıları Alexa ayrıca dil sınırlamalarını da dikkate almaları gerekiyor; dijital asistan yalnızca İngilizce, Almanca, Fransızca ve Japonca konuşabiliyor.

Amazon'un sanal asistanı ilk olarak Amazon Lab126 tarafından geliştirilen Amazon Echo ve Amazon Echo Dot akıllı hoparlörlerinde kullanıldı. Sesli etkileşim, müzik çalma, yapılacaklar listesi oluşturma, alarm ayarlama, podcast akışı yapma, sesli kitap oynatma ve hava durumu, trafik, spor ve haberler gibi diğer haber bilgileri hakkında gerçek zamanlı bilgi sağlama sağlar (4). Alexa, bir ev otomasyon sistemi oluşturmak için birden fazla akıllı cihazı kontrol edebilir. Amazon'dan uygun alışverişler yapmak için de kullanılabilir.

4. Kullanıcılar neden Echo kullanıyor (araştırmalara göre)

Kullanıcılar, diğer ayarlardaki hava durumu ve ses uygulamaları gibi üçüncü taraflarca geliştirilen ve daha çok uygulama olarak adlandırılan ek özellikler olan Alexa "becerilerini" yükleyerek Alexa'nın yeteneklerini geliştirebilirler. Çoğu Alexa cihazı, sanal asistanı, uyandırma parolası adı verilen bir uyandırma parolası kullanarak etkinleştirmenize olanak tanır.

Amazon bugün akıllı hoparlör pazarına açıkça hakimdir (5). Mart 2018'de yeni hizmetini tanıtan IBM, ilk dörde girmeye çalışıyor. Watson'ın asistanıSes kontrollü sanal asistan sistemlerini kendisi oluşturmak isteyen firmalar için tasarlandı. IBM çözümünün avantajı nedir? Şirket temsilcilerine göre, her şeyden önce kişiselleştirme ve gizliliğin korunması konusunda çok daha büyük fırsatlar söz konusu.

Öncelikle Watson Assistant'ın empoze edilmiş bir markası yok. Firmalar bu platformda kendi çözümlerini oluşturup, kendi markalarıyla markalaştırabiliyorlar.

İkincisi, destek sistemlerini kendi veri kümelerini kullanarak eğitebilirler; IBM, bu sisteme özellikler ve komutlar eklemeyi diğer VUI (sesli kullanıcı arayüzü) teknolojilerine göre daha kolay hale getirdiğini söylüyor.

Üçüncüsü, Watson Assistant, IBM'e kullanıcı etkinliği hakkında bilgi sağlamaz; platformdaki çözüm geliştiricileri, değerli verileri yalnızca kendilerine saklayabilir. Bu arada, örneğin Alexa kullanarak cihaz üreten herkes, değerli verilerinin eninde sonunda Amazon'a ulaşacağını göz önünde bulundurmalıdır.

Watson Assistant'ın halihazırda çeşitli uygulamaları var. Sistem, örneğin Maserati konsept otomobili için bir ses asistanı yaratan Harman şirketi tarafından kullanıldı (6). Münih Havalimanı'nda bir IBM asistanı, ziyaretçilerin etrafta dolaşmasına yardımcı olmak için Pepper robotuna güç veriyor. Üçüncü örnek ise akıllı ev ölçüm cihazında ses teknolojisinin kullanıldığı Chameleon Technologies.

6. Maserati konsept otomobilinde Watson Asistanı

Buradaki temel teknolojinin de yeni olmadığını eklemekte fayda var. Watson Assistant, mevcut IBM ürünleri, Watson Conversation ve Watson Virtual Agent için şifreleme yeteneklerinin yanı sıra dil analizi ve sohbete yönelik API'ler içerir.

Amazon yalnızca akıllı ses teknolojisinde lider olmakla kalmıyor, aynı zamanda bunu doğrudan bir işe dönüştürüyor. Ancak bazı şirketler Echo entegrasyonunu çok daha önceden denedi. İş zekası ve analiz araçları sektöründe faaliyet gösteren bir şirket olan Sisense, Temmuz 2016'da Echo entegrasyonunu tanıttı. Buna karşılık, startup Roxy, konaklama endüstrisi için kendi ses kontrollü yazılımını ve donanımını oluşturmaya karar verdi. Bu yılın başlarında Synqq, klavyede yazmaya gerek kalmadan notlar ve takvim girişleri eklemek için ses ve doğal dil işlemeyi kullanan bir not uygulamasını tanıttı.

Tüm bu küçük işletmelerin büyük hedefleri var. Ancak en çok öğrendikleri şey, her kullanıcının verilerini sesli iletişim platformlarının oluşturulmasında en önemli oyuncular olan Amazon, Google, Apple veya Microsoft'a vermek istememesiydi.

Amerikalılar satın almak istiyor

2016 yılında sesli arama, tüm Google mobil aramalarının %20'sini oluşturuyordu. Bu teknolojiyi günlük olarak kullanan kişiler, onun rahatlığı ve çoklu görev yapabilme özelliğinin en büyük faydaları olduğunu belirtiyor. (örneğin, araba kullanırken arama motorunu kullanma yeteneği).

Visiongain analistleri akıllı dijital asistan pazarının mevcut değerinin 1,138 milyar dolar olduğunu tahmin ediyor ve bu tür mekanizmaların sayısı giderek artıyor. Gartner'a göre 2018'in sonuna kadar Etkileşimlerimizin %30'u teknolojiyle birlikte ses sistemleriyle yapılan görüşmeler yoluyla olacak.

İngiliz araştırma firması IHS Markit, yapay zeka (yapay zeka) dijital asistan pazarının bu yılın sonuna kadar 4 milyar cihaza ulaşacağını, bu sayının 2020 yılına kadar 7 milyara çıkabileceğini tahmin ediyor.

eMarketer ve VoiceLabs'ın raporlarına göre 2017 yılında 35,6 milyon Amerikalı ayda en az bir kez ses kontrolünü kullandı. Bu, bir önceki yıla göre neredeyse %130 oranında bir artışı ifade ediyor. Yalnızca dijital asistan pazarının 2018'te 23 oranında büyümesi bekleniyor. Bu, bunları zaten kullanacağınız anlamına gelir 60,5 milyon AmerikalıBu da üreticilerine somut para kazandıracak. RBC Capital Markets, Alexa arayüzünün Amazon'a 2020 yılına kadar 10 milyar dolar gelir getireceğini tahmin ediyor.

Yıkayın, pişirin, temizleyin!

Sesli arayüzler giderek daha fazla ev aletleri ve tüketici elektroniği pazarına giriyor. Bu, geçen yılki IFA 2017 fuarında zaten görülebiliyordu: Örneğin, Amerikan şirketi Neato Robotics, Amazon Echo sistemi de dahil olmak üzere çeşitli akıllı ev platformlarından birine bağlanan bir robot elektrikli süpürgeyi tanıttı. Echo akıllı hoparlörünüzle konuşarak makineye günün veya gecenin belirli saatlerinde tüm evinizi temizlemesi talimatını verebilirsiniz.

Sergilenen diğer ses kontrollü ürünler arasında Vestel'in Toshiba markasıyla sattığı akıllı TV'lerden, Alman Beurer'in ısıtmalı battaniyeleri yer alıyor. Bu elektronik cihazların birçoğu akıllı telefonlar kullanılarak uzaktan da etkinleştirilebilmektedir.

Ancak Bosch temsilcilerine göre ev asistanı seçeneklerinden hangisinin baskın hale geleceğini söylemek için henüz çok erken. Alman teknoloji grubu, IFA 2017'de Echo'ya bağlanan çamaşır makineleri (7), fırınlar ve kahve makinelerini sergiledi. Bosch ayrıca gelecekte cihazlarının Google ve Apple'ın ses platformlarıyla uyumlu olmasını da istiyor.

7. Amazon Echo'ya bağlanan Bosch çamaşır makinesi

Fujitsu, Sony ve Panasonic gibi şirketler kendi yapay zeka destekli sesli asistan çözümlerini geliştiriyor. Sharp bu teknolojiyi piyasaya çıkan fırınlara ve küçük robotlara ekliyor. Nippon Telegraph & Telephone, ses kontrollü bir yapay zeka sistemini uyarlamak için donanım ve oyuncak üreticilerini işe alıyor.

Eski konsept. Sonunda zamanı geldi mi?

Aslında Sesli Kullanıcı Arayüzü (VUI) kavramı onlarca yıldır ortalıkta dolaşıyor. Yıllar önce Star Trek'i veya 2001: Bir Uzay Macerası'nı izleyen herkes muhtemelen 2000 yılı civarında hepimizin bilgisayarları sesimizle kontrol ediyor olacağımızı bekliyordu. Üstelik bu tür bir arayüzün potansiyelini görenler yalnızca bilim kurgu yazarları değildi. 1986'da Nielsen araştırmacıları BT profesyonellerine 2000 yılına kadar kullanıcı arayüzlerinde en büyük değişikliğin ne olacağını düşündüklerini sordu. Çoğunlukla ses arayüzlerinin geliştirilmesine dikkat çektiler.

Böyle bir çözümü umut etmek için nedenler var. Sonuçta sözlü iletişim, insanlar için bilinçli olarak düşünce alışverişinde bulunmanın en doğal yoludur, dolayısıyla bunu insan-makine etkileşimi için kullanmak şimdilik en iyi çözüm gibi görünüyor.

Adı geçen ilk VUI'lardan biri ayakkabı kutusu60'ların başında IBM tarafından yaratıldı. Bugünkü ses tanıma sistemlerinin öncüsüydü. Ancak VUI cihazlarının gelişimi bilgi işlem gücünün sınırlarıyla sınırlıydı. İnsan konuşmasını gerçek zamanlı olarak ayrıştırmak ve yorumlamak çok fazla çaba gerektiriyor ve bunun gerçekten mümkün olduğu noktaya ulaşmak elli yıldan fazla zaman aldı.

Ses arayüzlü cihazlar 90'lı yılların ortalarında seri üretimde görünmeye başladı, ancak popülerlik kazanamadı. Sesle kontrol (çevirici) özelliğine sahip ilk telefon Philips Kıvılcım1996 yılında piyasaya sürüldü. Ancak bu yenilikçi ve kullanımı kolay cihaz teknolojik sınırlamalardan muaf değildi.

Sesli arayüz biçimleriyle donatılmış (RIM, Samsung veya Motorola gibi şirketler tarafından oluşturulan) diğer telefonlar düzenli olarak piyasaya çıktı ve kullanıcıların bir numarayı sesli aramasına veya kısa mesaj göndermesine olanak tanıdı. Ancak bunların hepsi, belirli komutları ezberlemeyi ve bunları o zamanın cihazlarının yeteneklerine uyarlanmış, zorla, yapay bir biçimde telaffuz etmeyi gerektiriyordu. Bu, çok sayıda hataya neden oldu ve bu da kullanıcı memnuniyetsizliğine yol açtı.

Ancak artık makine öğrenimi ve yapay zekadaki ilerlemelerin teknolojiyle etkileşim kurmanın yeni bir yolu olarak konuşma potansiyelini ortaya çıkardığı yeni bir bilgi işlem çağına giriyoruz (8). Sesli etkileşimi destekleyen cihazların sayısı, VUI'nin geliştirilmesinde büyük etkisi olan önemli bir faktör haline geldi. Bugün dünya nüfusunun neredeyse 1/3'ü bu tür davranışlar için kullanılabilecek akıllı telefonlara sahip. Görünüşe göre çoğu kullanıcı sonunda ses arayüzlerini uyarlamaya hazır.

8. Ses arayüzünün gelişiminin modern tarihi

Ancak A Space Odyssey'deki karakterlerin yaptığı gibi bilgisayarla özgürce konuşabilmemiz için önce bir takım sorunların üstesinden gelmemiz gerekiyor. Makineler hâlâ dilsel nüanslarla baş etmede pek iyi değil. Ayrıca Birçok kişi hâlâ bir arama motoruna sesli komut vermekten rahatsızlık duyuyor.

İstatistikler, sesli asistanların öncelikle evde veya yakın arkadaşlar arasında kullanıldığını gösteriyor. Katılımcıların hiçbiri halka açık yerlerde sesli aramayı kullandığını kabul etmedi. Ancak teknolojinin yaygınlaşmasıyla bu ablukanın da ortadan kalkması muhtemel.

Teknik olarak zor soru

(ASR) sistemlerinin karşılaştığı sorun, bir konuşma sinyalinden yararlı verileri çıkarmak ve bunu kişi için özel bir anlam taşıyan belirli bir kelimeyle ilişkilendirmektir. Telaffuz edilen sesler her seferinde farklıdır.

Konuşma Sinyali Değişkenliği onun doğal özelliğidir, bu sayede örneğin aksanı veya tonlamayı tanırız. Konuşma tanıma sisteminin her elemanının belirli bir görevi vardır. İşlenen sinyale ve parametrelerine dayanarak dil modeliyle ilişkilendirilen bir akustik model oluşturulur. Tanıma sistemi, birlikte çalıştığı sözlüğün boyutunu belirleyen az veya çok sayıda kalıp temelinde çalışabilmektedir. Onlar yapabilir küçük sözlükler bireysel kelimeleri veya komutları tanıyan sistemlerin yanı sıra büyük veritabanları Bir dil kümesinin eşdeğerini içeren ve dil modelini (gramer) dikkate alan.

Ses arayüzlerinin karşılaştığı zorluklar öncelikle Konuşmayı doğru anlayınÖrneğin dilbilgisi dizilerinin tamamının sıklıkla atlandığı, dilsel ve fonetik hataların, hataların, atlamaların, konuşma bozukluklarının, eş anlamlıların, gerekçesiz tekrarların vb. mevcut olduğu durumlarda. Tüm bu ACP sistemlerinin hızlı ve güvenilir bir şekilde çalışması gerekir. En azından beklenti bu.

Bir zorluk kaynağı, tanıma sisteminin girişine giren, tanınan konuşma dışındaki akustik sinyallerden de kaynaklanır; her türlü girişim ve gürültü. En basit durumda onlara ihtiyacınız var filtrelemek. Bu görev rutin ve kolay görünüyor; sonuçta çeşitli sinyaller filtreleniyor ve her elektronik mühendisi böyle bir durumda ne yapacağını biliyor. Ancak konuşma tanıma sonucunun beklentilerimizi karşılaması isteniyorsa bunun çok dikkatli ve dikkatli yapılması gerekir.

Şu anda kullanılan filtreleme, konuşma sinyaliyle birlikte, mikrofon tarafından toplanan dış gürültüyü ve konuşma sinyalinin tanınmasını zorlaştıran dahili özelliklerini de ortadan kaldırmayı mümkün kılar. Ancak, analiz edilen konuşma sinyaline müdahale başka bir konuşma sinyali olduğunda, yani etraftaki yüksek sesli tartışmalarda çok daha karmaşık bir teknik sorun ortaya çıkar. Bu soru literatürde sözde olarak bilinir. Bu zaten sözde karmaşık yöntemlerin kullanılmasını gerektiriyor. ters evrişim (çözülüyor) sinyali.

Konuşma tanımayla ilgili sorunlar burada bitmiyor. Konuşmanın birçok farklı türde bilgi taşıdığını fark etmek önemlidir. İnsan sesi, sahibinin cinsiyetini, yaşını, farklı karakterlerini veya sağlık durumunu önerir. Konuşma sinyalinde bulunan karakteristik akustik olaylara dayanarak çeşitli hastalıkların teşhisine adanmış geniş bir biyomedikal mühendisliği dalı bulunmaktadır.

Bir konuşma sinyalinin akustik analizinin asıl amacının, konuşmacıyı tanımlamak veya söylediği kişi olduğunu doğrulamak (anahtar, şifre veya PUK kodu yerine ses) olduğu uygulamalar da vardır. Bu özellikle akıllı bina teknolojileri açısından önemli olabilir.

Konuşma tanıma sisteminin ilk bileşeni mikrofon. Ancak mikrofon tarafından alınan sinyalin genellikle pek bir faydası yoktur. Araştırmalar, ses dalgasının şekli ve seyrinin kişiye, konuşma hızına ve kısmen muhatabın ruh haline bağlı olarak büyük ölçüde değiştiğini, ancak küçük bir dereceye kadar konuşulan komutların içeriğini yansıttığını gösteriyor.

Bu nedenle sinyalin doğru işlenmesi gerekir. Modern akustik, fonetik ve bilgisayar bilimi birlikte konuşma sinyallerini işlemek, analiz etmek, tanımak ve anlamak için kullanılabilecek zengin bir araç seti sağlar. Sinyalin dinamik spektrumu olarak adlandırılan dinamik spektrogramlar. Bunları elde etmek oldukça kolaydır ve dinamik bir spektrogram biçiminde sunulan konuşmayı, görüntü tanımada kullanılanlara benzer teknikler kullanılarak tanımak nispeten kolaydır.

Basit konuşma unsurları (örneğin komutlar), tüm spektrogramların basit benzerliğiyle tanınabilir. Örneğin, sesle etkinleştirilen bir cep telefonu sözlüğü yalnızca birkaç düzine ila birkaç yüz kelime ve ifadeyi içerir ve genellikle kolayca ve etkili bir şekilde tanımlanabilmeleri için önceden düzenlenmiştir. Bu, basit kontrol görevleri için yeterlidir ancak genel uygulamayı ciddi şekilde sınırlandırır. Şemaya göre oluşturulan sistemler, kural olarak, yalnızca seslerin özel olarak eğitildiği belirli konuşmacıları destekler. Yani sistemi kontrol etmek için sesini kullanmak isteyen yeni biri varsa, büyük olasılıkla kabul edilmeyecektir.

Bu işlemin sonucuna denir spektrogram 2-Wyani iki boyutlu bir spektrum. Bu blokta dikkat etmeye değer bir ders daha var - segmentasyon. Genel olarak konuşursak, sürekli bir konuşma sinyalini ayrı ayrı tanınabilecek parçalara bölmekten bahsediyoruz. Yalnızca bu bireysel teşhisler bütünün tanınmasını sağlar. Bu prosedür gereklidir çünkü uzun ve karmaşık konuşmayı tek seferde tespit etmek imkansızdır. Bir konuşma sinyalinde hangi bölümlerin ayırt edilmesi gerektiği hakkında ciltler dolusu zaten yazıldı, bu nedenle ayırt edilecek bölümlerin fonemler mi (ses eşdeğerleri), heceler mi yoksa allofonlar mı olması gerektiğine şimdi karar vermeyeceğiz.

Otomatik tanıma işlemi her zaman nesnelerin bazı özelliklerine atıfta bulunur. Konuşma sinyali için yüzlerce farklı parametre seti test edilmiştir. tanınan çerçevelere bölünmüş ve sahip seçilen işlevlerbu karelerin tanıma sürecinde temsil edilmesi sayesinde (her kare için ayrı ayrı) işlem yapabiliriz. sınıflandırmayani gelecekte onu temsil edecek çerçeveye bir tanımlayıcı atamak.

Bir sonraki aşama çerçeveleri ayrı kelimeler halinde birleştirme – çoğunlukla sözde dayalı örtülü Markov modellerinin modeli (IMM-). Sonra kelimelerin bir montajı geliyor cümleleri tamamla.

Artık bir anlığına Alexa sistemine dönebiliriz. Örneği, bir kişiyi makine tarafından "anlamak" için çok aşamalı bir süreci gösteriyor - daha doğrusu: verdiği komut veya sorulan soru.

Kelimeleri anlamak, anlamı anlamak ve kullanıcının amacını anlamak tamamen farklı şeylerdir.

Bu nedenle bir sonraki adım, görevi olan NLP modülünün () çalışmasıdır. kullanıcı amacı tanımayani komutun/sorunun söylendiği bağlamdaki anlamı. Niyet belirlenirse, şunları yapmalısınız: sözde beceri ve yeteneklerin atanmasıyani akıllı asistanın desteklediği özel bir fonksiyon. Hava durumuyla ilgili bir soru olması durumunda, konuşmaya dönüştürülmesi gereken hava durumu veri kaynakları çağrılır (TTS - mekanizma). Sonuç olarak kullanıcı sorulan sorunun cevabını duyar.

Ses? Grafik Sanatları? Ya da belki ikisi de?

Bilinen modern etkileşim sistemlerinin çoğu, adı verilen bir aracıya dayanmaktadır. grafiksel kullanıcı arayüzü (grafik arayüzü). Ne yazık ki grafik arayüz, dijital bir ürünle etkileşim kurmanın en belirgin yolu değildir. Bu, kullanıcıların öncelikle arayüzü nasıl kullanacaklarını öğrenmelerini ve sonraki her etkileşimde bu bilgileri hatırlamalarını gerektirir. Çoğu durumda ses çok daha kullanışlıdır çünkü VUI ile etkileşim kurmak cihazla konuşmak kadar kolaydır. Kullanıcıları belirli komutları veya etkileşim yöntemlerini ezberlemeye ve ezberlemeye zorlamayan bir arayüz daha az soruna neden olur.

Elbette VUI'nin genişlemesi daha geleneksel arayüzlerin terk edilmesi anlamına gelmiyor; daha ziyade çeşitli etkileşim yöntemlerini birleştiren hibrit arayüzler mevcut olacak.

Sesli arayüz, mobil bağlamdaki tüm görevler için uygun değildir. Bununla birlikte, araba sürerken bir arkadaşımızı arayacağız ve hatta ona SMS göndereceğiz, ancak sisteme () iletilen ve sistem (sistem) tarafından oluşturulan bilgi miktarı nedeniyle en son transferleri kontrol etmek çok zor olabilir. . Rachel Hinman'ın Mobile Frontier kitabında önerdiği gibi, VUI'yi kullanmak, giriş ve çıkış bilgisi miktarının az olduğu görevleri gerçekleştirirken en etkili yöntemdir.

İnternete bağlı bir akıllı telefon kullanışlıdır ancak aynı zamanda zahmetlidir (9). Bir kullanıcı ne zaman bir şey satın almak veya yeni bir hizmet kullanmak isterse, başka bir uygulamayı indirip yeni bir hesap oluşturmak zorundadır. Burada ses arayüzlerinin kullanılması ve geliştirilmesi için bir alan oluşturuldu. Uzmanlar, kullanıcıları birçok farklı uygulama yüklemeye veya her hizmet için ayrı hesaplar oluşturmaya zorlamak yerine, VUI'nin bu zahmetli görevlerin yükünü yapay zeka destekli bir sesli asistana aktaracağını söylüyor. Yorucu faaliyetler gerçekleştirmesi onun için uygun olacaktır. Biz ona sadece emir vereceğiz.

9. Akıllı telefon kullanan sesli arayüz

Günümüzde internete yalnızca telefonunuz ve bilgisayarınızdan daha fazlası bağlı. Akıllı termostatlar, ışıklar, su ısıtıcılar ve diğer birçok IoT entegreli cihaz da ağa bağlıdır (10). Yani etrafımızda hayatımızı dolduran kablosuz bağlantılı cihazlar var, ancak bunların hepsi doğal olarak grafik kullanıcı arayüzüne sığmıyor. VUI'yi kullanmak, bunları ortamımıza kolayca entegre etmenize yardımcı olacaktır.

10. Nesnelerin İnterneti ile Ses Arayüzü

Ses tabanlı bir kullanıcı arayüzü oluşturmak, yakında tasarımcılar için önemli bir beceri haline gelecektir. Bu gerçek bir zorluktur; ses sistemlerini uygulama ihtiyacı, sizi proaktif tasarıma, yani kullanıcının asıl niyetini anlamaya, konuşmanın her aşamasında ihtiyaçlarını ve beklentilerini tahmin etmeye daha fazla odaklanmaya zorlayacaktır.

Ses, veri girmenin etkili bir yoludur; kullanıcıların sisteme kendi şartlarına göre hızlı bir şekilde komut vermelerine olanak tanır. Öte yandan ekran, bilgilerin görüntülenmesi için etkili bir yol sağlar: Sistemlerin büyük miktarda bilgiyi aynı anda görüntülemesine olanak tanıyarak kullanıcıların hafızasındaki yükü azaltır. Bunları tek bir sistemde birleştirmenin cesaret verici gelmesi mantıklıdır.

Amazon Echo ve Google Home gibi akıllı hoparlörler hiçbir şekilde görsel görüntü sunmuyor. Orta mesafelerde ses tanıma doğruluğunu önemli ölçüde artırarak, eller serbest çalışmayı mümkün kılar, bu da esneklik ve verimliliği artırır; bu, halihazırda ses özellikli akıllı telefonlara sahip olan kullanıcılar için bile arzu edilir bir durumdur. Ancak ekranın olmaması büyük bir sınırlamadır.

Kullanıcıları olası komutlar konusunda bilgilendirmek için yalnızca bip sesleri kullanılabilir ve en basit görevler dışında çıktının yüksek sesle okunması sıkıcı hale gelir. Yemek pişirirken sesli komutla bir zamanlayıcı ayarlamak harikadır ancak ne kadar zaman kaldığını sormanıza gerek yoktur. Düzenli bir hava durumu tahmini almak, tüm haftayı ekrandan bir bakışta toplamak yerine bir dizi gerçeği dinleyerek ve sindirerek geçirmek zorunda olan kullanıcı için bir hafıza testi haline gelir.

Tasarımcılar zaten geliştirdi hibrit çözüm, temel Echo akıllı hoparlörüne bir görüntü ekranı ekleyen Echo Show (11). Bu, ekipmanın işlevselliğini önemli ölçüde artırır. Ancak Echo Show, akıllı telefonlarda ve tabletlerde uzun süredir mevcut olan temel işlevleri yerine getirme konusunda hâlâ çok daha az yetenekli. Örneğin (henüz) web'e göz atamaz, yorumları gösteremez veya Amazon alışveriş sepetinizin içeriğini görüntüleyemez.

Görsel gösterim, doğası gereği, insanlara yalnızca sesten çok daha fazla bilgi sağlamanın daha etkili bir yoludur. Önce ses tasarımı, sesli etkileşimi büyük ölçüde geliştirebilir, ancak uzun vadede etkileşim adına görsel menüleri keyfi olarak kullanmamak, bir eliniz arkadan bağlıyken mücadele etmek gibi olacaktır. Uçtan uca akıllı ses ve görüntü arayüzlerinin artan karmaşıklığı nedeniyle geliştiricilerin, arayüzlere yönelik hibrit bir yaklaşımı ciddi şekilde düşünmesi gerekiyor.

Konuşma üretme ve tanıma sistemlerinin verimliliğinin ve hızının arttırılması, bunların örneğin aşağıdaki gibi uygulama ve alanlarda kullanılmasını mümkün kılmıştır:

• askeri (uçak veya helikopterlerdeki sesli komutlar, örneğin F16 VISTA),

• otomatik metin transkripsiyonu (konuşmayı metne dönüştürme),

• interaktif bilgi sistemleri (Prime-Speech, sesli portallar),

• mobil cihazlar (telefonlar, akıllı telefonlar, tabletler),

• robotik (Cleverbot – yapay zeka ile birleştirilmiş ASR sistemleri),

• otomotiv (araba bileşenlerinin eller serbest kontrolü, örneğin Blue & Me),

• ev uygulamaları (akıllı ev sistemleri).

Güvende kal!

Otomobiller, cihazlar, ısıtma/soğutma ve ev güvenlik sistemleri ve birçok ev aleti, genellikle yapay zeka tarafından desteklenen ses arayüzlerini kullanmaya başlıyor. Bu aşamada makinelerle yapılan milyonlarca görüşmeden elde edilen veriler, bilgi işlem bulutları. Pazarlamacıların onlarla ilgilendiği açıktır. Ve sadece onlar değil.

Symantec güvenlik uzmanlarının yakın tarihli bir raporu, sesli komut kullanıcılarının, bırakın ev güvenlik sistemlerini, kapı kilitleri gibi güvenlik özelliklerini bile kontrol etmemelerini öneriyor. Aynı şey şifrelerin veya gizli bilgilerin saklanması için de geçerlidir. Yapay zeka ve akıllı ürünlerin güvenliği henüz yeterince araştırılmamıştır.

Evdeki cihazlar her kelimeyi dinlediğinde, bilgisayar korsanlığı ve sistemin kötüye kullanılması riski son derece önemli bir endişe haline gelir. Bir saldırganın yerel ağa veya ilgili e-posta adreslerine erişim kazanması durumunda, akıllı cihazın ayarları değiştirilebilir veya fabrika ayarlarına sıfırlanabilir; bu da değerli bilgilerin kaybolmasına ve kullanıcı geçmişinin silinmesine neden olabilir.

Başka bir deyişle güvenlik uzmanları, ses kontrollü ve VUI kontrollü yapay zekanın henüz bizi potansiyel tehditlerden koruyacak ve bir yabancı bir şey sorduğunda ağzımızı kapalı tutacak kadar akıllı olmadığından korkuyor.