Bilangan aplikasi dan kepentingan antara muka suara berkembang pesat

Содержание

empat besar
Orang Amerika mahu membeli
Basuh, bakar, bersihkan!
Konsep lama. Adakah masanya akhirnya tiba?
soalan teknikal yang sukar
Suara? Seni grafik? Atau mungkin kedua-duanya?
Berhati-hati untuk keselamatan!

Sebuah keluarga Amerika di Portland, Oregon baru-baru ini mengetahui bahawa pembantu suara Alex merakam sembang peribadi mereka dan menghantarnya kepada rakan. Pemilik rumah itu, yang digelar Danielle oleh media, memberitahu wartawan bahawa dia "tidak akan memasang peranti itu lagi kerana dia tidak boleh dipercayai."

Alexa, yang disediakan oleh pembesar suara Gema (1) dan alat lain di berpuluh juta rumah AS, mula merakam apabila ia mendengar namanya atau "kata panggilan" dituturkan oleh pengguna. Ini bermakna walaupun perkataan "Alexa" disebut dalam iklan TV, peranti itu mungkin mula merakam. Itulah yang berlaku dalam kes ini, kata Amazon, pengedar perkakasan.

"Selebihnya perbualan ditafsirkan oleh pembantu suara sebagai arahan untuk menghantar mesej," kata syarikat itu dalam satu kenyataan. "Pada satu ketika, Alexa dengan lantang bertanya: "Kepada siapa?" Penerusan perbualan keluarga mengenai lantai kayu keras sepatutnya dianggap oleh mesin sebagai item dalam senarai kenalan pelanggan." Sekurang-kurangnya itulah yang Amazon fikirkan. Oleh itu, terjemahan dikurangkan kepada satu siri kemalangan.

Kebimbangan, bagaimanapun, masih ada. Kerana atas sebab tertentu, di rumah di mana kami masih berasa selesa, kami perlu memasuki beberapa jenis "mod suara", menonton apa yang kami katakan, apa yang disiarkan oleh TV dan, sudah tentu, apa yang pembesar suara baru ini di dada laci berkata. kami.

Walau bagaimanapun, Walaupun ketidaksempurnaan teknologi dan kebimbangan privasi, dengan peningkatan populariti peranti seperti Amazon Echo, orang ramai mula membiasakan diri dengan idea untuk berinteraksi dengan komputer menggunakan suara mereka..

Seperti yang Werner Vogels, CTO Amazon, menyatakan semasa sesi AWS re:Invent beliau pada akhir 2017, teknologi setakat ini telah mengehadkan keupayaan kami untuk berinteraksi dengan komputer. Kami menaip kata kunci ke dalam Google menggunakan papan kekunci, kerana ini masih merupakan cara yang paling biasa dan paling mudah untuk memasukkan maklumat ke dalam mesin.

Vogels berkata. -

empat besar

Apabila menggunakan enjin carian Google pada telefon, kami mungkin melihat tanda mikrofon dengan panggilan untuk bercakap sejak lama dahulu. ini Google sekarang (2), yang boleh menentukan pertanyaan carian, memasukkan mesej melalui suara, dsb. Dalam beberapa tahun kebelakangan ini, Google, Apple dan Amazon telah bertambah baik teknologi pengecaman suara. Pembantu suara seperti Alexa, Siri dan Google Assistant bukan sahaja merakam suara anda, tetapi juga memahami perkara yang anda katakan kepada mereka dan menjawab soalan.

Google Now tersedia secara percuma kepada semua pengguna Android. Aplikasi ini boleh, sebagai contoh, menetapkan penggera, menyemak ramalan cuaca dan menyemak laluan pada peta Google. Sambungan perbualan bagi keadaan Google Now Google Assistant () – bantuan maya kepada pengguna peralatan. Ia tersedia terutamanya pada peranti mudah alih dan rumah pintar. Tidak seperti Google Now, ia boleh mengambil bahagian dalam pertukaran dua hala. Pembantu itu memulakan kerjayanya pada Mei 2016 sebagai sebahagian daripada apl pemesejan Google Allo, serta dalam pembesar suara suara Google Home (3).

3. Laman Utama Google

Sistem IOS juga mempunyai pembantu mayanya sendiri, Siri, iaitu program yang disertakan dengan sistem pengendalian Apple iOS, watchOS, homepod tvOS dan macOS. Siri memulakan kerjaya dengan iOS 5 dan iPhone 4s pada Oktober 2011 di persidangan Let's Talk iPhone.

Perisian ini berdasarkan antara muka perbualan: ia mengenali pertuturan semula jadi pengguna (dengan iOS 11 ia juga mungkin untuk memasukkan arahan secara manual), menjawab soalan dan menyelesaikan tugasan. Terima kasih kepada pengenalan pembelajaran mesin, pembantu dari semasa ke semasa menganalisis keutamaan peribadi pengguna untuk memberikan hasil dan cadangan yang lebih berkaitan. Siri memerlukan sambungan Internet yang berterusan - sumber maklumat utama di sini ialah Bing dan Wolfram Alpha. iOS 10 memperkenalkan sokongan untuk sambungan pihak ketiga.

Satu lagi daripada empat besar Cortana. Ia adalah pembantu peribadi pintar yang dicipta oleh Microsoft. Ia disokong pada platform Windows 10, Windows 10 Mobile, Windows Phone 8.1, Xbox One, Skype, Microsoft Band, Microsoft Band 2, Android dan iOS. Cortana pertama kali diperkenalkan pada Persidangan Pembangun Microsoft Build pada April 2014 di San Francisco. Nama program ini berasal dari nama watak dari siri permainan Halo. Cortana tersedia dalam bahasa Inggeris, Itali, Sepanyol, Perancis, Jerman, Cina dan Jepun.

Pengguna program yang telah disebutkan Alexa mereka juga mesti mempertimbangkan sekatan bahasa - pembantu digital hanya berbahasa Inggeris, Jerman, Perancis dan Jepun.

Pembantu Maya Amazon pertama kali digunakan dalam pembesar suara pintar Amazon Echo dan Amazon Echo Dot yang dibangunkan oleh Amazon Lab126. Ia membolehkan interaksi suara, main balik muzik, penciptaan senarai tugasan, tetapan penggera, penstriman podcast, main balik buku audio dan maklumat cuaca masa nyata, trafik, sukan dan berita lain seperti berita (4). Alexa boleh mengawal berbilang peranti pintar untuk mencipta sistem automasi rumah. Ia juga boleh digunakan untuk membuat pembelian yang mudah di kedai Amazon.

4. Untuk Apa Pengguna Menggunakan Echo (Menurut Penyelidikan)

Pengguna boleh meningkatkan pengalaman Alexa dengan memasang "kemahiran" Alexa (), ciri tambahan yang dibangunkan oleh pihak ketiga, lebih biasa dirujuk sebagai aplikasi seperti cuaca dan program audio dalam tetapan lain. Kebanyakan peranti Alexa membenarkan anda mengaktifkan pembantu maya anda dengan kata laluan bangun tidur, dipanggil .

Amazon pasti menguasai pasaran pembesar suara pintar hari ini (5). IBM, yang memperkenalkan perkhidmatan baharu pada Mac 2018, cuba memasuki empat teratas pembantu Watson, direka untuk syarikat yang ingin mencipta sistem pembantu maya mereka sendiri dengan kawalan suara. Apakah kelebihan penyelesaian IBM? Menurut wakil syarikat, pertama sekali, mengenai peluang yang lebih besar untuk pemperibadian dan perlindungan privasi.

Pertama, Watson Assistant tidak berjenama. Syarikat boleh mencipta penyelesaian mereka sendiri pada platform ini dan melabelkannya dengan jenama mereka sendiri.

Kedua, mereka boleh melatih sistem bantuan mereka menggunakan set data mereka sendiri, yang dikatakan oleh IBM menjadikannya lebih mudah untuk menambah ciri dan arahan pada sistem itu daripada teknologi VUI (antara muka pengguna suara) yang lain.

Ketiga, Watson Assistant tidak memberikan IBM maklumat tentang aktiviti pengguna - pembangun penyelesaian pada platform hanya boleh menyimpan data berharga untuk diri mereka sendiri. Sementara itu, sesiapa yang membina peranti, contohnya dengan Alexa, harus sedar bahawa data berharga mereka akan berakhir di Amazon.

Watson Assistant sudah mempunyai beberapa pelaksanaan. Sistem ini digunakan, sebagai contoh, oleh Harman, yang mencipta pembantu suara untuk kereta konsep Maserati (6). Di Lapangan Terbang Munich, pembantu IBM menggerakkan robot Pepper untuk membantu penumpang bergerak. Contoh ketiga ialah Chameleon Technologies, di mana teknologi suara digunakan dalam meter rumah pintar.

6. Pembantu Watson dalam kereta konsep Maserati

Perlu ditambah bahawa teknologi asas di sini juga bukan baharu. Watson Assistant menyertakan keupayaan penyulitan untuk produk IBM sedia ada, Watson Conversation dan Watson Virtual Agent, serta API untuk analisis bahasa dan sembang.

Amazon bukan sahaja peneraju dalam teknologi suara pintar, tetapi mengubahnya menjadi perniagaan langsung. Walau bagaimanapun, beberapa syarikat telah bereksperimen dengan integrasi Echo lebih awal lagi. Sisense, sebuah syarikat dalam industri BI dan analitik, memperkenalkan integrasi Echo pada Julai 2016. Sebaliknya, syarikat permulaan Roxy memutuskan untuk mencipta perisian dan perkakasan sendiri dengan kawalan suara untuk industri hospitaliti. Awal tahun ini, Synqq memperkenalkan aplikasi pengambilan nota yang menggunakan pemprosesan suara dan bahasa semula jadi untuk menambah nota dan entri kalendar tanpa perlu menaipnya pada papan kekunci.

Kesemua perniagaan kecil ini mempunyai cita-cita yang tinggi. Walau bagaimanapun, kebanyakannya, mereka mengetahui bahawa tidak setiap pengguna mahu memindahkan data mereka ke Amazon, Google, Apple atau Microsoft, yang merupakan pemain terpenting dalam membina platform komunikasi suara.

Orang Amerika mahu membeli

Pada tahun 2016, carian suara menyumbang 20% daripada semua carian mudah alih Google. Orang yang menggunakan teknologi ini setiap hari menyebut kemudahan dan berbilang tugas antara faedah terbesarnya. (contohnya, keupayaan untuk menggunakan enjin carian semasa memandu kereta).

Penganalisis Visiongain menganggarkan nilai pasaran semasa pembantu digital pintar pada $1,138 bilion. Terdapat semakin banyak mekanisme sedemikian. Menurut Gartner, menjelang akhir 2018 sudah 30% daripada interaksi kita dengan teknologi akan melalui perbualan dengan sistem suara.

Firma penyelidikan British IHS Markit menganggarkan bahawa pasaran untuk pembantu digital dikuasakan AI akan mencapai 4 bilion peranti menjelang akhir tahun ini, dan jumlah itu boleh meningkat kepada 2020 bilion menjelang 7.

Menurut laporan daripada eMarketer dan VoiceLabs, 2017 juta rakyat Amerika menggunakan kawalan suara sekurang-kurangnya sekali sebulan pada 35,6. Ini bermakna peningkatan hampir 130% berbanding tahun sebelumnya. Pasaran pembantu digital sahaja dijangka berkembang pada 2018% dalam 23. Ini bermakna anda sudah pun menggunakannya. 60,5 juta rakyat Amerika, yang akan menghasilkan wang konkrit untuk pengeluar mereka. RBC Capital Markets menganggarkan bahawa antara muka Alexa akan menjana pendapatan sehingga $2020 bilion untuk Amazon menjelang 10.

Basuh, bakar, bersihkan!

Antara muka suara semakin berani memasuki pasaran peralatan rumah dan elektronik pengguna. Ini sudah dapat dilihat semasa pameran IFA 2017 tahun lepas. Syarikat Amerika Neato Robotics memperkenalkan, sebagai contoh, pembersih vakum robot yang menyambung ke salah satu daripada beberapa platform rumah pintar, termasuk sistem Amazon Echo. Dengan bercakap dengan pembesar suara pintar Echo, anda boleh mengarahkan mesin untuk membersihkan seluruh rumah anda pada waktu tertentu siang atau malam.

Produk lain yang diaktifkan suara telah dipamerkan pada rancangan itu, daripada TV pintar yang dijual di bawah jenama Toshiba oleh syarikat Turki Vestel kepada selimut yang dipanaskan oleh syarikat Jerman Beurer. Kebanyakan peranti elektronik ini juga boleh diaktifkan dari jauh menggunakan telefon pintar.

Bagaimanapun, menurut wakil Bosch, masih terlalu awal untuk menyatakan pilihan pembantu rumah yang mana akan menjadi dominan. Di IFA 2017, kumpulan teknikal Jerman mempamerkan mesin basuh (7), ketuhar dan mesin kopi yang bersambung ke Echo. Bosch juga mahu perantinya serasi dengan platform suara Google dan Apple pada masa hadapan.

7. Mesin basuh Bosch yang bersambung ke Amazon Echo

Syarikat seperti Fujitsu, Sony dan Panasonic sedang membangunkan penyelesaian pembantu suara berasaskan AI mereka sendiri. Sharp menambah teknologi ini pada ketuhar dan robot kecil yang memasuki pasaran. Nippon Telegraph & Telephone sedang mengupah pembuat perkakasan dan mainan untuk menyesuaikan sistem kecerdasan buatan terkawal suara.

Konsep lama. Adakah masanya akhirnya tiba?

Malah, konsep Antara Muka Pengguna Suara (VUI) telah wujud selama beberapa dekad. Sesiapa sahaja yang menonton Star Trek atau 2001: A Space Odyssey bertahun-tahun yang lalu mungkin menjangkakan bahawa sekitar tahun 2000 kita semua akan mengawal komputer dengan suara kita. Selain itu, bukan hanya penulis fiksyen sains yang melihat potensi antara muka jenis ini. Pada tahun 1986, penyelidik Nielsen bertanya kepada profesional IT apa yang mereka fikir akan menjadi perubahan terbesar dalam antara muka pengguna menjelang tahun 2000. Mereka paling kerap menunjuk kepada pembangunan antara muka suara.

Terdapat sebab untuk mengharapkan penyelesaian sedemikian. Komunikasi lisan, bagaimanapun, adalah cara paling semula jadi untuk orang ramai bertukar fikiran secara sedar, jadi menggunakannya untuk interaksi manusia-mesin nampaknya seperti penyelesaian terbaik setakat ini.

Salah satu VUI pertama, dipanggil kotak kasut, telah dicipta pada awal 60-an oleh IBM. Ia adalah pelopor sistem pengecaman suara hari ini. Walau bagaimanapun, pembangunan peranti VUI dihadkan oleh had kuasa pengkomputeran. Menghuraikan dan mentafsir pertuturan manusia dalam masa nyata memerlukan banyak usaha, dan ia mengambil masa lebih daripada lima puluh tahun untuk sampai ke tahap di mana ia sebenarnya menjadi mungkin.

Peranti dengan antara muka suara mula muncul dalam pengeluaran besar-besaran pada pertengahan 90-an, tetapi tidak mendapat populariti. Telefon pertama dengan kawalan suara (dail) ialah Philips Sparkdikeluarkan pada tahun 1996. Walau bagaimanapun, peranti yang inovatif dan mudah digunakan ini tidak bebas daripada batasan teknologi.

Telefon lain yang dilengkapi dengan bentuk antara muka suara (dicipta oleh syarikat seperti RIM, Samsung atau Motorola) kerap memasuki pasaran, membolehkan pengguna mendail melalui suara atau menghantar mesej teks. Kesemua mereka, bagaimanapun, memerlukan menghafal perintah tertentu dan menyebutnya dalam bentuk paksaan, buatan, disesuaikan dengan keupayaan peranti pada masa itu. Ini menjana sejumlah besar ralat, yang seterusnya, membawa kepada ketidakpuasan hati pengguna.

Walau bagaimanapun, kita kini memasuki era baru pengkomputeran, di mana kemajuan dalam pembelajaran mesin dan pembangunan kecerdasan buatan membuka kunci potensi perbualan sebagai cara baharu untuk berinteraksi dengan teknologi (8). Bilangan peranti yang menyokong interaksi suara telah menjadi faktor penting yang telah memberi kesan besar kepada pembangunan VUI. Hari ini, hampir 1/3 penduduk dunia sudah memiliki telefon pintar yang boleh digunakan untuk tingkah laku jenis ini. Nampaknya kebanyakan pengguna akhirnya bersedia untuk menyesuaikan antara muka suara mereka.

8. Sejarah moden pembangunan antara muka suara

Walau bagaimanapun, sebelum kita boleh bercakap secara bebas dengan komputer, seperti yang dilakukan oleh watak A Space Odyssey, kita mesti mengatasi beberapa masalah. Mesin masih tidak begitu mahir dalam mengendalikan nuansa linguistik. Selain itu ramai orang masih berasa tidak selesa memberikan arahan suara kepada enjin carian.

Statistik menunjukkan bahawa pembantu suara digunakan terutamanya di rumah atau di kalangan rakan rapat. Tiada seorang pun daripada mereka yang ditemu bual mengaku menggunakan carian suara di tempat awam. Walau bagaimanapun, sekatan ini mungkin akan hilang dengan penyebaran teknologi ini.

soalan teknikal yang sukar

Masalah yang dihadapi oleh sistem (ASR) ialah mengekstrak data berguna daripada isyarat pertuturan dan mengaitkannya dengan perkataan tertentu yang mempunyai makna tertentu untuk seseorang. Bunyi yang dihasilkan berbeza setiap kali.

Kebolehubahan isyarat pertuturan adalah sifat semula jadinya, yang mana kita, sebagai contoh, mengenali loghat atau intonasi. Setiap elemen sistem pengecaman pertuturan mempunyai tugas tertentu. Berdasarkan isyarat yang diproses dan parameternya, model akustik dicipta, yang dikaitkan dengan model bahasa. Sistem pengecaman boleh berfungsi berdasarkan sebilangan kecil atau banyak corak, yang menentukan saiz perbendaharaan kata yang digunakannya. Mereka mungkin kamus kecil dalam kes sistem yang mengiktiraf perkataan atau perintah individu, serta pangkalan data yang besar mengandungi padanan set bahasa dan mengambil kira model bahasa (tatabahasa).

Masalah yang dihadapi oleh antara muka suara di tempat pertama memahami pertuturan dengan betul, di mana, sebagai contoh, keseluruhan urutan tatabahasa sering diabaikan, kesilapan linguistik dan fonetik, kesilapan, peninggalan, kecacatan pertuturan, homonim, pengulangan yang tidak wajar, dsb. berlaku. Semua sistem ACP ini mesti berfungsi dengan cepat dan boleh dipercayai. Sekurang-kurangnya itulah jangkaan.

Punca kesukaran juga adalah isyarat akustik selain daripada ucapan yang diiktiraf yang memasuki input sistem pengecaman, i.e. semua jenis gangguan dan bunyi bising. Dalam kes yang paling mudah, anda memerlukannya Tapis keluar. Tugas ini nampaknya rutin dan mudah - lagipun, pelbagai isyarat ditapis dan setiap jurutera elektronik tahu apa yang perlu dilakukan dalam situasi sedemikian. Walau bagaimanapun, ini mesti dilakukan dengan berhati-hati dan berhati-hati jika hasil pengecaman pertuturan adalah untuk memenuhi jangkaan kita.

Penapisan yang digunakan pada masa ini membolehkan untuk mengalih keluar, bersama-sama dengan isyarat pertuturan, hingar luaran yang diambil oleh mikrofon dan sifat dalaman isyarat pertuturan itu sendiri, yang menjadikannya sukar untuk mengenalinya. Walau bagaimanapun, masalah teknikal yang lebih kompleks timbul apabila gangguan kepada isyarat pertuturan yang dianalisis adalah ... isyarat pertuturan lain, iaitu, sebagai contoh, perbincangan yang kuat di sekeliling. Soalan ini dikenali dalam literatur sebagai apa yang dipanggil . Ini sudah memerlukan penggunaan kaedah yang kompleks, yang dipanggil. dekonvolusi (merungkai) isyarat.

Masalah dengan pengecaman pertuturan tidak berakhir di situ. Perlu diketahui bahawa ucapan membawa pelbagai jenis maklumat. Suara manusia menunjukkan jantina, umur, watak berbeza pemilik atau keadaan kesihatannya. Terdapat jabatan kejuruteraan bioperubatan yang luas yang berurusan dengan diagnosis pelbagai penyakit berdasarkan fenomena akustik ciri yang terdapat dalam isyarat pertuturan.

Terdapat juga aplikasi yang tujuan utama analisis akustik bagi isyarat pertuturan adalah untuk mengenal pasti penceramah atau mengesahkan bahawa dia adalah orang yang didakwanya (suara bukannya kunci, kata laluan atau kod PUK). Ini boleh menjadi penting, terutamanya untuk teknologi bangunan pintar.

Komponen pertama sistem pengecaman pertuturan ialah mikrofon. Walau bagaimanapun, isyarat yang diambil oleh mikrofon biasanya masih kurang digunakan. Kajian menunjukkan bahawa bentuk dan perjalanan gelombang bunyi sangat berbeza bergantung pada orang, kelajuan pertuturan, dan sebahagiannya mood lawan bicara - sementara sedikit sebanyak ia mencerminkan kandungan arahan yang diucapkan.

Oleh itu, isyarat mesti diproses dengan betul. Akustik moden, fonetik dan sains komputer bersama-sama menyediakan set alat yang kaya yang boleh digunakan untuk memproses, menganalisis, mengecam dan memahami isyarat pertuturan. Spektrum dinamik isyarat, yang dipanggil spektrogram dinamik. Ia agak mudah diperoleh, dan pertuturan yang dipersembahkan dalam bentuk spektrogram dinamik agak mudah untuk dikenali menggunakan teknik yang serupa dengan yang digunakan dalam pengecaman imej.

Unsur-unsur pertuturan yang mudah (contohnya, arahan) boleh dikenali dengan persamaan ringkas bagi keseluruhan spektrogram. Sebagai contoh, kamus telefon mudah alih yang diaktifkan suara hanya mengandungi beberapa puluh hingga beberapa ratus perkataan dan frasa, biasanya pra-tindan supaya ia boleh dikenal pasti dengan mudah dan cekap. Ini mencukupi untuk tugas kawalan mudah, tetapi ia sangat mengehadkan aplikasi keseluruhan. Sistem yang dibina mengikut skema, sebagai peraturan, hanya menyokong pembesar suara tertentu yang suaranya dilatih khas. Jadi jika ada orang baru yang mahu menggunakan suara mereka untuk mengawal sistem, mereka kemungkinan besar tidak akan diterima.

Hasil daripada operasi ini dipanggil Spektrogram 2-W, iaitu spektrum dua dimensi. Terdapat satu lagi aktiviti di blok ini yang patut diberi perhatian - pembahagian. Secara umumnya, kita bercakap tentang memecahkan isyarat pertuturan berterusan kepada bahagian yang boleh dikenali secara berasingan. Hanya dari diagnosis individu inilah pengiktirafan keseluruhan dibuat. Prosedur ini adalah perlu kerana tidak mungkin untuk mengenal pasti ucapan yang panjang dan kompleks dalam satu masa. Keseluruhan jilid telah pun ditulis mengenai segmen mana yang hendak dibezakan dalam isyarat pertuturan, jadi kami tidak akan memutuskan sekarang sama ada segmen yang dibezakan itu hendaklah fonem (setara bunyi), suku kata atau mungkin alofon.

Proses pengecaman automatik sentiasa merujuk kepada beberapa ciri objek. Beratus-ratus set parameter berbeza telah diuji untuk isyarat pertuturan. Isyarat pertuturan telah dibahagikan kepada bingkai yang dikenali dan mempunyai ciri yang dipilihdi mana bingkai ini dibentangkan dalam proses pengecaman, kita boleh melaksanakan (untuk setiap bingkai secara berasingan) klasifikasi, iaitu memberikan pengecam kepada bingkai, yang akan mewakilinya pada masa hadapan.

Peringkat seterusnya himpunan bingkai menjadi perkataan yang berasingan - paling kerap berdasarkan apa yang dipanggil. model model Markov tersirat (HMM-). Kemudian datang montaj perkataan ayat lengkap.

Kita kini boleh kembali ke sistem Alexa untuk seketika. Contoh beliau menunjukkan proses pelbagai peringkat mesin "pemahaman" seseorang - lebih tepat: arahan yang diberikan olehnya atau soalan yang ditanya.

Memahami perkataan, memahami makna dan memahami niat pengguna adalah perkara yang sama sekali berbeza.

Oleh itu, langkah seterusnya ialah kerja modul NLP (), tugasnya ialah pengecaman niat pengguna, iaitu maksud perintah/pertanyaan dalam konteks ia diucapkan. Jika niat itu dikenal pasti, maka penugasan apa yang dipanggil kemahiran dan kebolehan, iaitu ciri khusus yang disokong oleh pembantu pintar. Dalam kes soalan tentang cuaca, sumber data cuaca dipanggil, yang masih perlu diproses menjadi pertuturan (TTS - mekanisme). Akibatnya, pengguna mendengar jawapan kepada soalan yang ditanya.

Suara? Seni grafik? Atau mungkin kedua-duanya?

Sistem interaksi moden yang paling terkenal adalah berdasarkan perantara yang dipanggil antara muka pengguna grafik (antara muka grafik). Malangnya, GUI bukanlah cara yang paling jelas untuk berinteraksi dengan produk digital. Ini memerlukan pengguna terlebih dahulu mempelajari cara menggunakan antara muka dan mengingati maklumat ini dengan setiap interaksi berikutnya. Dalam banyak situasi, suara adalah lebih mudah, kerana anda boleh berinteraksi dengan VUI hanya dengan bercakap dengan peranti. Antara muka yang tidak memaksa pengguna untuk menghafal dan menghafal arahan atau kaedah interaksi tertentu menyebabkan lebih sedikit masalah.

Sudah tentu, pengembangan VUI tidak bermakna meninggalkan antara muka yang lebih tradisional - sebaliknya, antara muka hibrid akan tersedia yang menggabungkan beberapa cara berinteraksi.

Antara muka suara tidak sesuai untuk semua tugasan dalam konteks mudah alih. Dengan itu, kami akan memanggil rakan memandu kereta, dan juga menghantar SMS kepadanya, tetapi menyemak pemindahan terkini boleh menjadi terlalu sukar - disebabkan oleh jumlah maklumat yang dihantar ke sistem () dan dijana oleh sistem (sistem). Seperti yang dicadangkan oleh Rachel Hinman dalam bukunya Mobile Frontier, menggunakan VUI menjadi paling berkesan apabila melaksanakan tugas yang jumlah maklumat input dan output adalah kecil.

Telefon pintar yang disambungkan ke Internet adalah mudah tetapi juga menyusahkan (9). Setiap kali pengguna ingin membeli sesuatu atau menggunakan perkhidmatan baharu, mereka perlu memuat turun aplikasi lain dan membuat akaun baharu. Medan untuk penggunaan dan pembangunan antara muka suara telah dibuat di sini. Daripada memaksa pengguna memasang banyak aplikasi berbeza atau membuat akaun berasingan untuk setiap perkhidmatan, pakar berkata VUI akan mengalihkan beban tugas yang menyusahkan ini kepada pembantu suara berkuasa AI. Ia akan menjadi mudah baginya untuk menjalankan aktiviti berat. Kami hanya akan memberi arahan kepadanya.

9. Antara muka suara melalui telefon pintar

Hari ini, lebih daripada sekadar telefon dan komputer disambungkan ke Internet. Termostat pintar, lampu, cerek dan banyak peranti bersepadu IoT lain juga disambungkan ke rangkaian (10). Oleh itu, terdapat peranti wayarles di sekeliling kita yang mengisi kehidupan kita, tetapi tidak semuanya sesuai secara semula jadi ke dalam antara muka pengguna grafik. Menggunakan VUI akan membantu anda mengintegrasikannya dengan mudah ke dalam persekitaran kami.

10. Antara muka suara dengan Internet of Things

Mencipta antara muka pengguna suara tidak lama lagi akan menjadi kemahiran pereka bentuk utama. Ini adalah masalah sebenar - keperluan untuk melaksanakan sistem suara akan mendorong anda untuk lebih fokus pada reka bentuk proaktif, iaitu, cuba memahami niat awal pengguna, menjangka keperluan dan jangkaan mereka pada setiap peringkat perbualan.

Suara ialah cara yang cekap untuk memasukkan data—ia membolehkan pengguna mengeluarkan arahan dengan cepat kepada sistem mengikut syarat mereka sendiri. Sebaliknya, skrin menyediakan cara yang cekap untuk memaparkan maklumat: ia membolehkan sistem memaparkan sejumlah besar maklumat pada masa yang sama, mengurangkan beban pada ingatan pengguna. Adalah logik bahawa menggabungkan mereka ke dalam satu sistem kedengaran menggalakkan.

Pembesar suara pintar seperti Amazon Echo dan Google Home tidak menawarkan paparan visual sama sekali. Meningkatkan ketepatan pengecaman suara dengan ketara pada jarak sederhana, mereka membenarkan operasi bebas tangan, yang seterusnya meningkatkan fleksibiliti dan kecekapan mereka - ia diingini walaupun untuk pengguna yang sudah mempunyai telefon pintar dengan kawalan suara. Walau bagaimanapun, kekurangan skrin adalah had yang besar.

Hanya bunyi bip boleh digunakan untuk memberitahu pengguna tentang kemungkinan arahan, dan membaca output dengan kuat menjadi membosankan kecuali untuk tugas yang paling asas. Menetapkan pemasa dengan arahan suara semasa memasak adalah bagus, tetapi membuat anda bertanya berapa banyak masa yang tinggal tidak diperlukan. Mendapatkan ramalan cuaca biasa menjadi ujian ingatan bagi pengguna, yang perlu mendengar dan menyerap beberapa siri fakta sepanjang minggu, dan bukannya mengambilnya dari skrin sepintas lalu.

Pereka telah pun penyelesaian hibrid, Echo Show (11), yang menambahkan skrin paparan pada pembesar suara pintar Echo asas. Ini sangat meluaskan fungsi peralatan. Walau bagaimanapun, Echo Show masih kurang berkemampuan untuk melaksanakan fungsi asas yang telah lama tersedia pada telefon pintar dan tablet. Ia tidak boleh (belum) melayari web, menunjukkan ulasan atau memaparkan kandungan troli beli-belah Amazon, contohnya.

Paparan visual sememangnya merupakan cara yang lebih berkesan untuk menyediakan orang ramai dengan banyak maklumat daripada sekadar bunyi. Mereka bentuk dengan keutamaan suara boleh meningkatkan interaksi suara dengan baik, tetapi dalam jangka masa panjang, sewenang-wenangnya tidak menggunakan menu visual demi interaksi akan menjadi seperti berlawan dengan sebelah tangan terikat di belakang anda. Disebabkan kerumitan antara muka suara dan paparan pintar hujung-ke-hujung yang semakin ketara, pembangun harus serius mempertimbangkan pendekatan hibrid kepada antara muka.

Meningkatkan kecekapan dan kelajuan sistem penjanaan dan pengecaman pertuturan telah memungkinkan untuk menggunakannya dalam aplikasi dan kawasan seperti, sebagai contoh:

• tentera (perintah suara dalam pesawat atau helikopter, contohnya, F16 VISTA),

• transkripsi teks automatik (ucapan kepada teks),

• sistem maklumat interaktif (Ucapan Perdana, portal suara),

• peranti mudah alih (telefon, telefon pintar, tablet),

• robotik (Cleverbot - sistem ASR digabungkan dengan kecerdasan buatan),

• automotif (kawalan bebas tangan bagi komponen kereta, seperti Blue & Me),

• aplikasi rumah (sistem rumah pintar).

Berhati-hati untuk keselamatan!

Automotif, perkakas rumah, pemanasan/penyejukan dan sistem keselamatan rumah, dan pelbagai peralatan rumah mula menggunakan antara muka suara, selalunya berasaskan AI. Pada peringkat ini, data yang diperoleh daripada berjuta-juta perbualan dengan mesin dihantar ke pengkomputeran awan. Adalah jelas bahawa pemasar berminat dengan mereka. Dan bukan sahaja mereka.

Laporan terbaru daripada pakar keselamatan Symantec mengesyorkan pengguna arahan suara tidak mengawal ciri keselamatan seperti kunci pintu, apatah lagi sistem keselamatan rumah. Perkara yang sama berlaku untuk menyimpan kata laluan atau maklumat sulit. Keselamatan kecerdasan buatan dan produk pintar masih belum cukup dikaji.

Apabila peranti di seluruh rumah mendengar setiap perkataan, risiko penggodaman dan penyalahgunaan sistem menjadi isu yang sangat penting. Jika penyerang mendapat akses kepada rangkaian tempatan atau alamat e-melnya yang berkaitan, tetapan peranti pintar boleh ditukar atau ditetapkan semula kepada tetapan kilang, yang akan membawa kepada kehilangan maklumat berharga dan pemadaman sejarah pengguna.

Dalam erti kata lain, profesional keselamatan takut bahawa AI dan VUI yang dipacu suara masih belum cukup bijak untuk melindungi kita daripada potensi ancaman dan menutup mulut kita apabila orang yang tidak dikenali meminta sesuatu.