Mae nifer y cymwysiadau a phwysigrwydd rhyngwynebau llais yn tyfu'n gyflym
Technoleg

Mae nifer y cymwysiadau a phwysigrwydd rhyngwynebau llais yn tyfu'n gyflym

Yn ddiweddar, dysgodd teulu Americanaidd yn Portland, Oregon fod cynorthwyydd llais Alex wedi recordio eu sgyrsiau preifat a'u hanfon at ffrind. Dywedodd perchennog y tŷ, a alwyd yn Danielle gan y cyfryngau, wrth gohebwyr na fyddai “byth yn plygio’r ddyfais honno eto oherwydd na ellir ymddiried ynddi.”

Alexa, a ddarperir gan siaradwyr Echo (1) a theclynnau eraill mewn degau o filiynau o gartrefi yr Unol Daleithiau, yn dechrau cofnodi pan fydd yn clywed ei enw neu "gair galwad" a siaredir gan y defnyddiwr. Mae hyn yn golygu, hyd yn oed os yw'r gair "Alexa" yn cael ei grybwyll mewn hysbyseb deledu, efallai y bydd y ddyfais yn dechrau recordio. Dyna'n union beth ddigwyddodd yn yr achos hwn, meddai Amazon, y dosbarthwr caledwedd.

“Dehonglwyd gweddill y sgwrs gan y cynorthwyydd llais fel gorchymyn i anfon neges,” meddai’r cwmni mewn datganiad. “Ar ryw adeg, gofynnodd Alexa yn uchel: “I bwy?” Dylai’r peiriant fod wedi gweld parhad y sgwrs deuluol am loriau pren caled fel eitem ar restr gyswllt y cwsmer.” O leiaf dyna mae Amazon yn ei feddwl. Felly, mae'r cyfieithiad yn cael ei leihau i gyfres o ddamweiniau.

Erys y pryder, fodd bynnag. Oherwydd am ryw reswm, mewn tŷ lle'r oeddem ni'n dal i deimlo'n gartrefol, mae'n rhaid i ni fynd i mewn i ryw fath o “ddull llais”, gwylio'r hyn rydyn ni'n ei ddweud, beth mae'r teledu yn ei ddarlledu ac, wrth gwrs, beth mae'r siaradwr newydd hwn ar ei frest. droriau yn dweud . ni.

Serch hynny, Er gwaethaf amherffeithrwydd technoleg a phryderon preifatrwydd, gyda'r cynnydd ym mhoblogrwydd dyfeisiau fel yr Amazon Echo, mae pobl yn dechrau dod i arfer â'r syniad o ryngweithio â chyfrifiaduron gan ddefnyddio eu llais..

Fel y nododd Werner Vogels, CTO Amazon, yn ystod ei sesiwn ail:Dyfeisio AWS ar ddiwedd 2017, mae technoleg hyd yma wedi cyfyngu ar ein gallu i ryngweithio â chyfrifiaduron. Rydym yn teipio allweddeiriau i Google gan ddefnyddio'r bysellfwrdd, gan mai dyma'r ffordd fwyaf cyffredin a hawsaf o hyd i fewnbynnu gwybodaeth i'r peiriant.

Meddai Vogels. -

pedwar mawr

Wrth ddefnyddio peiriant chwilio Google ar y ffôn, mae'n debyg ein bod wedi sylwi ar arwydd meicroffon gyda galwad i siarad amser maith yn ôl. hwn Google nawr (2), y gellir ei ddefnyddio i bennu ymholiad chwilio, mewnbynnu neges trwy lais, ac ati. Yn y blynyddoedd diwethaf, mae Google, Apple, ac Amazon wedi gwella'n fawr technoleg adnabod llais. Mae cynorthwywyr llais fel Alexa, Siri, a Google Assistant nid yn unig yn recordio'ch llais, ond hefyd yn deall yr hyn rydych chi'n ei ddweud wrthyn nhw ac yn ateb cwestiynau.

Mae Google Now ar gael am ddim i holl ddefnyddwyr Android. Gall y rhaglen, er enghraifft, osod larwm, gwirio rhagolygon y tywydd a gwirio'r llwybr ar fapiau Google. Estyniad sgwrs o wladwriaethau Google Now Cynorthwyydd Google () – cymorth rhithwir i ddefnyddiwr yr offer. Mae ar gael yn bennaf ar ddyfeisiau cartref symudol a smart. Yn wahanol i Google Now, gall gymryd rhan mewn cyfnewid dwy ffordd. Daeth y cynorthwyydd am y tro cyntaf ym mis Mai 2016 fel rhan o ap negeseuon Google Allo, yn ogystal ag yn siaradwr llais Google Home (3).

3. Cartref Google

Mae gan y system IOS hefyd ei chynorthwyydd rhithwir ei hun, Siri, sy'n rhaglen sydd wedi'i chynnwys gyda systemau gweithredu Apple iOS, watchOS, homepod tvOS, a macOS. Ymddangosodd Siri am y tro cyntaf gyda iOS 5 a'r iPhone 4s ym mis Hydref 2011 yng nghynhadledd Let's Talk iPhone.

Mae'r meddalwedd yn seiliedig ar ryngwyneb sgyrsiol: mae'n cydnabod lleferydd naturiol y defnyddiwr (gyda iOS 11 mae hefyd yn bosibl mewnbynnu gorchmynion â llaw), yn ateb cwestiynau ac yn cwblhau tasgau. Diolch i gyflwyno dysgu peirianyddol, cynorthwyydd dros amser yn dadansoddi dewisiadau personol y defnyddiwr i ddarparu canlyniadau ac argymhellion mwy perthnasol. Mae Siri angen cysylltiad Rhyngrwyd cyson - y prif ffynonellau gwybodaeth yma yw Bing a Wolfram Alpha. Cyflwynodd iOS 10 gefnogaeth ar gyfer estyniadau trydydd parti.

Un arall o'r pedwar mawr Cortana. Mae'n gynorthwyydd personol deallus a grëwyd gan Microsoft. Fe'i cefnogir ar lwyfannau Windows 10, Windows 10 Mobile, Windows Phone 8.1, Xbox One, Skype, Band Microsoft, Band 2, Android ac iOS. Cyflwynwyd Cortana gyntaf yng Nghynhadledd Datblygwyr Microsoft Build ym mis Ebrill 2014 yn San Francisco. Daw enw'r rhaglen o enw cymeriad o'r gyfres gêm Halo. Mae Cortana ar gael yn Saesneg, Eidaleg, Sbaeneg, Ffrangeg, Almaeneg, Tsieineaidd a Japaneaidd.

Defnyddwyr y rhaglen a grybwyllwyd eisoes Alexa rhaid iddynt hefyd ystyried cyfyngiadau iaith - dim ond Saesneg, Almaeneg, Ffrangeg a Japaneeg y mae'r cynorthwyydd digidol yn siarad.

Defnyddiwyd Cynorthwy-ydd Rhithwir Amazon gyntaf yn y siaradwyr craff Amazon Echo ac Amazon Echo Dot a ddatblygwyd gan Amazon Lab126. Mae'n galluogi rhyngweithio llais, chwarae cerddoriaeth, creu rhestr o bethau i'w gwneud, gosod larwm, ffrydio podlediadau, chwarae llyfrau sain, a thywydd amser real, traffig, chwaraeon, a gwybodaeth newyddion arall fel newyddion (4). Gall Alexa reoli dyfeisiau clyfar lluosog i greu system awtomeiddio cartref. Gellir ei ddefnyddio hefyd i wneud siopa cyfleus yn y siop Amazon.

4. Ar Gyfer Yr Hyn y mae Defnyddwyr yn Defnyddio Echo (Yn ôl Ymchwil)

Gall defnyddwyr wella profiad Alexa trwy osod "sgiliau" Alexa (), nodweddion ychwanegol a ddatblygwyd gan drydydd partïon, y cyfeirir atynt yn fwy cyffredin fel apiau fel rhaglenni tywydd a sain mewn gosodiadau eraill. Mae'r rhan fwyaf o ddyfeisiau Alexa yn caniatáu ichi actifadu'ch cynorthwyydd rhithwir gyda chyfrinair deffro, a elwir yn .

Mae Amazon yn bendant yn dominyddu'r farchnad siaradwyr craff heddiw (5). Mae IBM, a gyflwynodd wasanaeth newydd ym mis Mawrth 2018, yn ceisio mynd i mewn i'r pedwar uchaf cynorthwy-ydd Watson, wedi'i gynllunio ar gyfer cwmnïau sydd am greu eu systemau eu hunain o gynorthwywyr rhithwir gyda rheolaeth llais. Beth yw mantais yr ateb IBM? Yn ôl cynrychiolwyr y cwmni, yn gyntaf oll, ar gyfleoedd llawer mwy ar gyfer personoli a diogelu preifatrwydd.

Yn gyntaf, nid yw Watson Assistant wedi'i frandio. Gall cwmnïau greu eu hatebion eu hunain ar y platfform hwn a'u labelu â'u brand eu hunain.

Yn ail, gallant hyfforddi eu systemau cynorthwyol gan ddefnyddio eu setiau data eu hunain, y mae IBM yn dweud sy'n ei gwneud hi'n haws ychwanegu nodweddion a gorchmynion i'r system honno na thechnolegau VUI (rhyngwyneb defnyddiwr llais) eraill.

Yn drydydd, nid yw Cynorthwy-ydd Watson yn darparu gwybodaeth i IBM am weithgaredd defnyddwyr - dim ond data gwerthfawr iddyn nhw eu hunain y gall datblygwyr datrysiadau ar y platfform eu cadw. Yn y cyfamser, dylai unrhyw un sy'n adeiladu dyfeisiau, er enghraifft gyda Alexa, fod yn ymwybodol y bydd eu data gwerthfawr yn y pen draw ar Amazon.

Mae gan Watson Assistant sawl gweithrediad eisoes. Defnyddiwyd y system, er enghraifft, gan Harman, a greodd gynorthwyydd llais ar gyfer car cysyniad Maserati (6). Ym Maes Awyr Munich, mae cynorthwyydd IBM yn pweru robot Pepper i helpu teithwyr i symud o gwmpas. Y drydedd enghraifft yw Chameleon Technologies, lle defnyddir technoleg llais mewn mesurydd cartref craff.

6. Cynorthwyydd Watson mewn car cysyniad Maserati

Mae'n werth ychwanegu nad yw'r dechnoleg sylfaenol yma hefyd yn newydd. Mae Watson Assistant yn cynnwys galluoedd amgryptio ar gyfer cynhyrchion IBM presennol, Watson Conversation, ac Asiant Rhithwir Watson, yn ogystal ag APIs ar gyfer dadansoddi iaith a sgwrsio.

Mae Amazon nid yn unig yn arweinydd mewn technoleg llais craff, ond mae'n ei droi'n fusnes uniongyrchol. Fodd bynnag, mae rhai cwmnïau wedi arbrofi gydag integreiddio Echo yn llawer cynharach. Cyflwynodd Sisense, cwmni yn y diwydiant BI a dadansoddeg, yr integreiddiad Echo ym mis Gorffennaf 2016. Yn ei dro, penderfynodd y cwmni cychwynnol Roxy greu ei feddalwedd a'i chaledwedd ei hun gyda rheolaeth llais ar gyfer y diwydiant lletygarwch. Yn gynharach eleni, cyflwynodd Synqq ap cymryd nodiadau sy'n defnyddio prosesu llais ac iaith naturiol i ychwanegu nodiadau a chofnodion calendr heb orfod eu teipio ar fysellfwrdd.

Mae gan bob un o'r busnesau bach hyn uchelgeisiau uchel. Yn bennaf oll, fodd bynnag, fe ddysgon nhw nad yw pob defnyddiwr eisiau trosglwyddo eu data i Amazon, Google, Apple neu Microsoft, sef y chwaraewyr pwysicaf wrth adeiladu llwyfannau cyfathrebu llais.

Mae Americanwyr eisiau prynu

Yn 2016, roedd chwiliad llais yn cyfrif am 20% o holl chwiliadau symudol Google. Mae pobl sy'n defnyddio'r dechnoleg hon yn ddyddiol yn nodi ei hwylustod a'i amldasgio ymhlith ei fanteision mwyaf. (er enghraifft, y gallu i ddefnyddio peiriant chwilio wrth yrru car).

Mae dadansoddwyr Visiongain yn amcangyfrif bod gwerth marchnad cynorthwywyr digidol clyfar ar hyn o bryd yn $1,138 biliwn, ac mae mwy a mwy o fecanweithiau o'r fath. Yn ôl Gartner, erbyn diwedd 2018 eisoes 30% o'n rhyngweithiadau gyda thechnoleg trwy sgyrsiau gyda systemau llais.

Mae cwmni ymchwil Prydeinig IHS Markit yn amcangyfrif y bydd y farchnad ar gyfer cynorthwywyr digidol wedi'u pweru gan AI yn cyrraedd 4 biliwn o ddyfeisiau erbyn diwedd y flwyddyn hon, a gallai'r nifer hwnnw godi i 2020 biliwn erbyn 7.

Yn ôl adroddiadau gan eMarketer a VoiceLabs, defnyddiodd 2017 miliwn o Americanwyr reolaeth llais o leiaf unwaith y mis yn 35,6. Mae hyn yn golygu cynnydd o bron i 130% dros y flwyddyn flaenorol. Disgwylir i'r farchnad cynorthwywyr digidol yn unig dyfu 2018% mewn 23. Mae hyn yn golygu y byddwch eisoes yn eu defnyddio. 60,5 miliwn o Americanwyr, a fydd yn arwain at arian concrit i'w cynhyrchwyr. Mae RBC Capital Markets yn amcangyfrif y bydd rhyngwyneb Alexa yn cynhyrchu hyd at $2020 biliwn mewn refeniw i Amazon erbyn 10.

Golchwch, pobi, glanhewch!

Mae rhyngwynebau llais yn mynd i mewn i farchnadoedd offer cartref ac electroneg defnyddwyr yn fwyfwy eofn. Gellid gweld hyn eisoes yn ystod arddangosfa IFA 2017 y llynedd. Cyflwynodd y cwmni Americanaidd Neato Robotics, er enghraifft, sugnwr llwch robot sy'n cysylltu ag un o nifer o lwyfannau cartref smart, gan gynnwys system Amazon Echo. Trwy siarad â siaradwr craff Echo, gallwch chi gyfarwyddo'r peiriant i lanhau'ch tŷ cyfan ar adegau penodol o'r dydd neu'r nos.

Cafodd cynhyrchion eraill sy'n cael eu hysgogi gan lais eu harddangos yn y sioe, yn amrywio o setiau teledu clyfar a werthwyd o dan frand Toshiba gan y cwmni Twrcaidd Vestel i flancedi wedi'u gwresogi gan y cwmni Almaeneg Beurer. Gellir hefyd actifadu llawer o'r dyfeisiau electronig hyn o bell gan ddefnyddio ffonau smart.

Fodd bynnag, yn ôl cynrychiolwyr Bosch, mae'n rhy gynnar i ddweud pa un o'r opsiynau cynorthwywyr cartref fydd yn dod yn drech. Yn IFA 2017, bu grŵp technegol o’r Almaen yn arddangos peiriannau golchi (7), ffyrnau a pheiriannau coffi sy’n cysylltu ag Echo. Mae Bosch hefyd eisiau i'w ddyfeisiau fod yn gydnaws â llwyfannau llais Google ac Apple yn y dyfodol.

7. peiriant golchi Bosch sy'n cysylltu ag Amazon Echo

Mae cwmnïau fel Fujitsu, Sony a Panasonic yn datblygu eu datrysiadau cynorthwyydd llais eu hunain yn seiliedig ar AI. Mae Sharp yn ychwanegu'r dechnoleg hon at ffyrnau a robotiaid bach sy'n dod i mewn i'r farchnad. Mae Nippon Telegraph & Telephone yn cyflogi gwneuthurwyr caledwedd a theganau i addasu system deallusrwydd artiffisial a reolir gan lais.

Hen gysyniad. Ydy ei hamser hi wedi dod o'r diwedd?

Mewn gwirionedd, mae'r cysyniad o Ryngwyneb Defnyddiwr Llais (VUI) wedi bod o gwmpas ers degawdau. Mae'n debyg bod unrhyw un a wyliodd Star Trek neu 2001: A Space Odyssey flynyddoedd yn ôl yn disgwyl y byddem ni i gyd yn rheoli cyfrifiaduron â'n lleisiau tua'r flwyddyn 2000. Hefyd, nid awduron ffuglen wyddonol yn unig a welodd botensial y math hwn o ryngwyneb. Ym 1986, gofynnodd ymchwilwyr Nielsen i weithwyr TG proffesiynol beth oedd y newid mwyaf mewn rhyngwynebau defnyddwyr erbyn y flwyddyn 2000 yn eu barn nhw. Roeddent yn cyfeirio amlaf at ddatblygiad rhyngwynebau llais.

Mae yna resymau i obeithio am ateb o'r fath. Wedi'r cyfan, cyfathrebu llafar yw'r ffordd fwyaf naturiol i bobl gyfnewid meddyliau yn ymwybodol, felly mae'n ymddangos mai ei ddefnyddio ar gyfer rhyngweithio peiriant dynol yw'r ateb gorau hyd yn hyn.

Un o'r VUIs cyntaf, o'r enw bocs esgidiau, a grëwyd yn y 60au cynnar gan IBM. Hwn oedd rhagflaenydd systemau adnabod llais heddiw. Fodd bynnag, roedd datblygiad dyfeisiau VUI wedi'i gyfyngu gan gyfyngiadau pŵer cyfrifiadurol. Mae dosrannu a dehongli lleferydd dynol mewn amser real yn gofyn am lawer o ymdrech, a chymerodd fwy na hanner can mlynedd i gyrraedd y pwynt lle daeth yn bosibl mewn gwirionedd.

Dechreuodd dyfeisiau gyda rhyngwyneb llais ymddangos mewn cynhyrchiad màs yng nghanol y 90au, ond nid oeddent yn ennill poblogrwydd. Roedd y ffôn cyntaf gyda rheolaeth llais (deialu). Philips Sparka ryddhawyd yn 1996. Fodd bynnag, nid oedd y ddyfais arloesol a hawdd ei defnyddio hon yn rhydd o gyfyngiadau technolegol.

Mae ffonau eraill sydd â mathau o ryngwyneb llais (a grëwyd gan gwmnïau fel RIM, Samsung neu Motorola) yn taro'r farchnad yn rheolaidd, gan ganiatáu i ddefnyddwyr ddeialu trwy lais neu anfon negeseuon testun. Roedd pob un ohonynt, fodd bynnag, yn gofyn am gofio gorchmynion penodol a'u ynganu ar ffurf orfodol, artiffisial, wedi'i addasu i alluoedd dyfeisiau'r amser hwnnw. Cynhyrchodd hyn nifer fawr o wallau, a arweiniodd, yn eu tro, at anfodlonrwydd defnyddwyr.

Fodd bynnag, rydym bellach yn dechrau ar gyfnod newydd o gyfrifiadura, lle mae datblygiadau mewn dysgu peirianyddol a datblygiad deallusrwydd artiffisial yn datgloi potensial sgwrsio fel ffordd newydd o ryngweithio â thechnoleg (8). Mae nifer y dyfeisiau sy'n cefnogi rhyngweithio llais wedi dod yn ffactor pwysig sydd wedi cael effaith fawr ar ddatblygiad VUI. Heddiw, mae bron i 1/3 o boblogaeth y byd eisoes yn berchen ar ffonau smart y gellir eu defnyddio ar gyfer y math hwn o ymddygiad. Mae'n edrych fel bod y mwyafrif o ddefnyddwyr yn barod o'r diwedd i addasu eu rhyngwynebau llais.

8. Hanes modern o ddatblygiad y rhyngwyneb llais

Fodd bynnag, cyn y gallwn siarad yn rhydd â chyfrifiadur, fel y gwnaeth cymeriadau A Space Odyssey, rhaid inni oresgyn nifer o broblemau. Nid yw peiriannau'n dda iawn o hyd am ymdrin â naws ieithyddol. Eithr mae llawer o bobl yn dal i deimlo'n anghyfforddus yn rhoi gorchmynion llais i beiriant chwilio.

Mae ystadegau'n dangos bod cynorthwywyr llais yn cael eu defnyddio'n bennaf gartref neu ymhlith ffrindiau agos. Ni chyfaddefodd yr un o'r rhai a gyfwelwyd eu bod yn defnyddio chwiliad llais mewn mannau cyhoeddus. Fodd bynnag, mae'r rhwystr hwn yn debygol o ddiflannu gyda lledaeniad y dechnoleg hon.

cwestiwn technegol anodd

Y broblem y mae systemau (ASR) yn ei hwynebu yw tynnu data defnyddiol o signal lleferydd a'i gysylltu â gair penodol sydd ag ystyr penodol i berson. Mae'r synau a gynhyrchir yn wahanol bob tro.

Amrywioldeb signal lleferydd yw ei eiddo naturiol, diolch i'r hwn yr ydym, er enghraifft, yn cydnabod acen neu oslef. Mae gan bob elfen o'r system adnabod lleferydd dasg benodol. Yn seiliedig ar y signal wedi'i brosesu a'i baramedrau, crëir model acwstig, sy'n gysylltiedig â'r model iaith. Gall y system adnabod weithio ar sail nifer fach neu fawr o batrymau, sy'n pennu maint yr eirfa y mae'n gweithio â hi. Efallai eu bod geiriaduron bach yn achos systemau sy'n adnabod geiriau neu orchmynion unigol, yn ogystal â cronfeydd data mawr cynnwys yr hyn sy'n cyfateb i'r set iaith a chan ystyried y model iaith (gramadeg).

Problemau a wynebir gan ryngwynebau llais yn y lle cyntaf deall lleferydd yn gywir, lle, er enghraifft, mae dilyniannau gramadegol cyfan yn aml yn cael eu hepgor, mae gwallau ieithyddol a ffonetig, gwallau, hepgoriadau, diffygion lleferydd, homonymau, ailadroddiadau anghyfiawn, ac ati yn digwydd Rhaid i'r holl systemau ACP hyn weithio'n gyflym ac yn ddibynadwy. O leiaf dyna'r disgwyliadau.

Ffynhonnell yr anawsterau hefyd yw signalau acwstig heblaw'r lleferydd cydnabyddedig sy'n mynd i mewn i fewnbwn y system adnabod, h.y. bob math ymyrraeth a sŵn. Yn yr achos symlaf, mae eu hangen arnoch chi hidlo allan. Mae'r dasg hon yn ymddangos yn arferol ac yn hawdd - wedi'r cyfan, mae signalau amrywiol yn cael eu hidlo ac mae pob peiriannydd electroneg yn gwybod beth i'w wneud mewn sefyllfa o'r fath. Fodd bynnag, rhaid gwneud hyn yn ofalus iawn ac yn ofalus os yw canlyniad adnabod lleferydd i gwrdd â'n disgwyliadau.

Mae'r hidlo a ddefnyddir ar hyn o bryd yn ei gwneud hi'n bosibl tynnu, ynghyd â'r signal lleferydd, y sŵn allanol a godir gan y meicroffon a phriodweddau mewnol y signal lleferydd ei hun, sy'n ei gwneud hi'n anodd ei adnabod. Fodd bynnag, mae problem dechnegol llawer mwy cymhleth yn codi pan fydd yr ymyrraeth â'r signal lleferydd a ddadansoddwyd yn ... signal lleferydd arall, hynny yw, er enghraifft, trafodaethau uchel o gwmpas. Gelwir y cwestiwn hwn yn y llenyddiaeth fel yr hyn a elwir yn . Mae hyn eisoes yn gofyn am ddefnyddio dulliau cymhleth, yr hyn a elwir. dadsefydliad (datod) y signal.

Nid yw'r problemau gydag adnabod lleferydd yn dod i ben yno. Mae'n werth sylweddoli bod lleferydd yn cynnwys llawer o wahanol fathau o wybodaeth. Mae'r llais dynol yn awgrymu rhyw, oedran, gwahanol gymeriadau'r perchennog neu gyflwr ei iechyd. Mae yna adran helaeth o beirianneg fiofeddygol sy'n delio â diagnosis o glefydau amrywiol yn seiliedig ar y ffenomenau acwstig nodweddiadol a geir yn y signal lleferydd.

Mae yna hefyd gymwysiadau lle mai prif bwrpas dadansoddiad acwstig o signal lleferydd yw adnabod y siaradwr neu wirio mai ef yw pwy mae'n honni ei fod (llais yn lle allwedd, cyfrinair neu god PUK). Gall hyn fod yn bwysig, yn enwedig ar gyfer technolegau adeiladu clyfar.

Elfen gyntaf system adnabod lleferydd yw y meicroffon. Fodd bynnag, nid yw'r signal sy'n cael ei godi gan y meicroffon fel arfer yn parhau i fod o fawr o ddefnydd. Mae astudiaethau'n dangos bod siâp a chwrs y don sain yn amrywio'n fawr yn dibynnu ar y person, cyflymder y lleferydd, ac yn rhannol naws y interlocutor - tra i raddau bach maent yn adlewyrchu cynnwys iawn y gorchmynion llafar.

Felly, rhaid prosesu'r signal yn gywir. Gyda'i gilydd mae acwsteg, seineg a chyfrifiadureg fodern yn darparu set gyfoethog o offer y gellir eu defnyddio i brosesu, dadansoddi, adnabod a deall signal lleferydd. Sbectrwm deinamig y signal, yr hyn a elwir sbectrogramau deinamig. Maent yn weddol hawdd i'w cael, ac mae lleferydd a gyflwynir ar ffurf sbectrogram deinamig yn gymharol hawdd i'w adnabod gan ddefnyddio technegau tebyg i'r rhai a ddefnyddir wrth adnabod delweddau.

Gall elfennau syml lleferydd (er enghraifft, gorchmynion) gael eu cydnabod gan debygrwydd syml sbectrogramau cyfan. Er enghraifft, dim ond rhwng degau ac ychydig gannoedd o eiriau ac ymadroddion y mae geiriadur ffôn symudol wedi'i actifadu â llais yn ei gynnwys, fel arfer wedi'i bentyrru ymlaen llaw fel y gellir eu hadnabod yn hawdd ac yn effeithlon. Mae hyn yn ddigonol ar gyfer tasgau rheoli syml, ond mae'n cyfyngu'n ddifrifol ar y cais cyffredinol. Mae systemau a adeiladwyd yn unol â'r cynllun, fel rheol, yn cefnogi siaradwyr penodol yn unig y mae lleisiau wedi'u hyfforddi'n arbennig ar eu cyfer. Felly os oes rhywun newydd sydd eisiau defnyddio ei lais i reoli'r system, mae'n debyg na fyddant yn cael eu derbyn.

Gelwir canlyniad y llawdriniaeth hon Sbectrwm 2-W, hynny yw, sbectrwm dau ddimensiwn. Mae gweithgaredd arall yn y bloc hwn sy'n werth talu sylw iddo - segmentu. Yn gyffredinol, rydym yn sôn am rannu signal lleferydd parhaus yn rhannau y gellir eu hadnabod ar wahân. Dim ond o'r diagnosisau unigol hyn y gwneir cydnabyddiaeth o'r cyfan. Mae'r weithdrefn hon yn angenrheidiol oherwydd nid yw'n bosibl nodi araith hir a chymhleth ar yr un pryd. Mae cyfrolau cyfan eisoes wedi'u hysgrifennu am ba segmentau i'w gwahaniaethu mewn signal lleferydd, felly ni fyddwn yn penderfynu nawr a ddylai'r segmentau nodedig fod yn ffonemau (cyfwerthoedd sain), sillafau, neu efallai aloffonau.

Mae'r broses o adnabod awtomatig bob amser yn cyfeirio at rai nodweddion gwrthrychau. Mae cannoedd o setiau o baramedrau gwahanol wedi'u profi ar gyfer y signal lleferydd.Mae'r signal lleferydd wedi wedi'i rannu'n fframiau cydnabyddedig a chael nodweddion dethollle mae'r fframiau hyn yn cael eu cyflwyno yn y broses adnabod, gallwn berfformio (ar gyfer pob ffrâm ar wahân) dosbarthiad, h.y. neilltuo dynodwr i'r ffrâm, a fydd yn ei gynrychioli yn y dyfodol.

Y cam nesaf cydosod fframiau i eiriau ar wahân - yn fwyaf aml yn seiliedig ar yr hyn a elwir. model o fodelau Markov ymhlyg (HMM-). Yna daw'r montage o eiriau brawddegau cyflawn.

Gallwn nawr ddychwelyd i'r system Alexa am eiliad. Mae ei enghraifft yn dangos proses aml-gam o "ddealltwriaeth" peiriant o berson - yn fwy manwl gywir: gorchymyn a roddwyd ganddo neu gwestiwn a ofynnir.

Mae deall geiriau, deall ystyr, a deall bwriad defnyddwyr yn bethau cwbl wahanol.

Felly, y cam nesaf yw gwaith y modiwl NLP ( ), y mae ei dasg yn adnabod bwriad defnyddiwr, h.y. ystyr y gorchymyn/cwestiwn yn y cyd-destun y cafodd ei draethu ynddo. Os nodir y bwriad, yna aseiniad o'r hyn a elwir yn sgiliau a galluoedd, h.y. y nodwedd benodol a gefnogir gan y cynorthwyydd craff. Yn achos cwestiwn am y tywydd, gelwir ffynonellau data tywydd, sydd ar ôl i'w prosesu ar lafar (TTS - mecanwaith). O ganlyniad, mae'r defnyddiwr yn clywed yr ateb i'r cwestiwn a ofynnir.

Llais? Celfyddydau graffeg? Neu efallai y ddau?

Mae'r rhan fwyaf o systemau rhyngweithio modern hysbys yn seiliedig ar gyfryngwr o'r enw rhyngwyneb defnyddiwr graffigol (rhyngwyneb graffigol). Yn anffodus, nid y GUI yw'r ffordd fwyaf amlwg o ryngweithio â chynnyrch digidol. Mae hyn yn ei gwneud yn ofynnol i ddefnyddwyr ddysgu sut i ddefnyddio'r rhyngwyneb yn gyntaf a chofio'r wybodaeth hon gyda phob rhyngweithiad dilynol. Mewn llawer o sefyllfaoedd, mae llais yn llawer mwy cyfleus, oherwydd gallwch chi ryngweithio â'r VUI yn syml trwy siarad â'r ddyfais. Mae rhyngwyneb nad yw'n gorfodi defnyddwyr i gofio a chofio rhai gorchmynion neu ddulliau rhyngweithio yn achosi llai o broblemau.

Wrth gwrs, nid yw ehangu VUI yn golygu rhoi'r gorau i ryngwynebau mwy traddodiadol - yn hytrach, bydd rhyngwynebau hybrid ar gael sy'n cyfuno sawl ffordd o ryngweithio.

Nid yw'r rhyngwyneb llais yn addas ar gyfer pob tasg mewn cyd-destun symudol. Ag ef, byddwn yn galw ffrind yn gyrru car, a hyd yn oed yn anfon SMS ato, ond gall fod yn rhy anodd gwirio'r trosglwyddiadau diweddaraf - oherwydd faint o wybodaeth a drosglwyddir i'r system () ac a gynhyrchir gan y system (system). Fel y mae Rachel Hinman yn ei awgrymu yn ei llyfr Mobile Frontier, mae defnyddio VUI yn dod yn fwyaf effeithiol wrth berfformio tasgau lle mae swm y wybodaeth mewnbwn ac allbwn yn fach.

Mae ffôn clyfar sydd wedi'i gysylltu â'r Rhyngrwyd yn gyfleus ond hefyd yn anghyfleus (9). Bob tro mae defnyddiwr eisiau prynu rhywbeth neu ddefnyddio gwasanaeth newydd, mae'n rhaid iddo lawrlwytho ap arall a chreu cyfrif newydd. Mae maes ar gyfer defnyddio a datblygu rhyngwynebau llais wedi'i greu yma. Yn lle gorfodi defnyddwyr i osod llawer o wahanol apiau neu greu cyfrifon ar wahân ar gyfer pob gwasanaeth, dywed arbenigwyr y bydd VUI yn symud baich y tasgau beichus hyn i gynorthwyydd llais wedi'i bweru gan AI. Bydd yn gyfleus iddo gyflawni gweithgareddau egniol. Ni fyddwn ond yn rhoi gorchmynion iddo.

9. rhyngwyneb llais drwy ffôn smart

Heddiw, mae mwy na ffôn a chyfrifiadur yn unig wedi'u cysylltu â'r Rhyngrwyd. Mae thermostatau clyfar, goleuadau, tegelli a llawer o ddyfeisiau integredig IoT eraill hefyd wedi'u cysylltu â'r rhwydwaith (10). Felly, mae dyfeisiau diwifr o'n cwmpas sy'n llenwi ein bywydau, ond nid yw pob un ohonynt yn ffitio'n naturiol i'r rhyngwyneb defnyddiwr graffigol. Bydd defnyddio VUI yn eich helpu i integreiddio'n hawdd â'n hamgylchedd.

10. Rhyngwyneb llais gyda Rhyngrwyd Pethau

Bydd creu rhyngwyneb defnyddiwr llais yn dod yn sgil dylunydd allweddol cyn bo hir. Mae hon yn broblem wirioneddol - bydd yr angen i weithredu systemau llais yn eich annog i ganolbwyntio mwy ar ddylunio rhagweithiol, hynny yw, ceisio deall bwriadau cychwynnol y defnyddiwr, gan ragweld eu hanghenion a'u disgwyliadau ar bob cam o'r sgwrs.

Mae llais yn ffordd effeithlon o fewnbynnu data - mae'n caniatáu i ddefnyddwyr gyhoeddi gorchmynion yn gyflym i'r system ar eu telerau eu hunain. Ar y llaw arall, mae'r sgrin yn darparu ffordd effeithlon o arddangos gwybodaeth: mae'n caniatáu i systemau arddangos llawer iawn o wybodaeth ar yr un pryd, gan leihau'r baich ar gof defnyddwyr. Mae'n rhesymegol bod eu cyfuno yn un system yn swnio'n galonogol.

Nid yw siaradwyr craff fel yr Amazon Echo a Google Home yn cynnig arddangosfa weledol o gwbl. Gan wella cywirdeb adnabod llais ar bellteroedd cymedrol yn sylweddol, maent yn caniatáu gweithrediad di-law, sydd yn ei dro yn cynyddu eu hyblygrwydd a'u heffeithlonrwydd - maent yn ddymunol hyd yn oed i ddefnyddwyr sydd eisoes â ffonau smart gyda rheolaeth llais. Fodd bynnag, mae diffyg sgrin yn gyfyngiad enfawr.

Dim ond bîp y gellir ei ddefnyddio i hysbysu defnyddwyr o orchmynion posibl, ac mae darllen yr allbwn yn uchel yn mynd yn ddiflas heblaw am y tasgau mwyaf sylfaenol. Mae gosod amserydd gyda gorchymyn llais wrth goginio yn wych, ond nid oes angen gofyn faint o amser sydd ar ôl. Mae cael rhagolygon tywydd rheolaidd yn dod yn brawf cof i'r defnyddiwr, sy'n gorfod gwrando ac amsugno cyfres o ffeithiau trwy gydol yr wythnos, yn hytrach na'u codi o'r sgrin yn sydyn.

Mae'r dylunwyr eisoes wedi datrysiad hybrid, Echo Show (11), a ychwanegodd sgrin arddangos i'r siaradwr smart sylfaenol Echo. Mae hyn yn ehangu ymarferoldeb yr offer yn fawr. Fodd bynnag, mae'r Echo Show yn dal i fod yn llawer llai galluog i gyflawni'r swyddogaethau sylfaenol sydd wedi bod ar gael ers amser maith ar ffonau smart a thabledi. Ni all (eto) syrffio'r we, dangos adolygiadau, nac arddangos cynnwys trol siopa Amazon, er enghraifft.

Yn ei hanfod, mae arddangosfa weledol yn ffordd fwy effeithiol o ddarparu cyfoeth o wybodaeth na sain yn unig. Gall dylunio gyda blaenoriaeth llais wella rhyngweithio llais yn fawr, ond yn y tymor hir, yn fympwyol bydd peidio â defnyddio'r ddewislen weledol er mwyn rhyngweithio fel ymladd ag un llaw wedi'i chlymu y tu ôl i'ch cefn. Oherwydd cymhlethdod sydd ar ddod rhwng rhyngwynebau llais ac arddangos deallus o'r dechrau i'r diwedd, dylai datblygwyr ystyried o ddifrif ymagwedd hybrid at ryngwynebau.

Mae cynyddu effeithlonrwydd a chyflymder systemau cynhyrchu lleferydd ac adnabod wedi ei gwneud hi'n bosibl eu defnyddio mewn cymwysiadau a meysydd fel, er enghraifft:

• milwrol (gorchymyn llais mewn awyrennau neu hofrenyddion, er enghraifft, F16 VISTA),

• trawsgrifio testun awtomatig (lleferydd i destun),

• systemau gwybodaeth rhyngweithiol (Prime Speech, pyrth llais),

• dyfeisiau symudol (ffonau, ffonau clyfar, llechi),

• roboteg (Cleverbot - systemau ASR wedi'u cyfuno â deallusrwydd artiffisial),

• modurol (rheoli cydrannau ceir yn rhydd o ddwylo, fel Blue & Me),

• cymwysiadau cartref (systemau cartref clyfar).

Gwyliwch allan am ddiogelwch!

Mae offer modurol, cartref, systemau gwresogi/oeri a diogelwch yn y cartref, a llu o offer cartref yn dechrau defnyddio rhyngwynebau llais, yn aml yn seiliedig ar AI. Ar y cam hwn, anfonir y data a gafwyd o filiynau o sgyrsiau â pheiriannau at cymylau cyfrifiadura. Mae'n amlwg bod gan farchnatwyr ddiddordeb ynddynt. Ac nid yn unig nhw.

Mae adroddiad diweddar gan arbenigwyr diogelwch Symantec yn argymell na ddylai defnyddwyr gorchymyn llais reoli nodweddion diogelwch fel cloeon drws, heb sôn am systemau diogelwch cartref. Mae'r un peth yn wir am storio cyfrineiriau neu wybodaeth gyfrinachol. Nid yw diogelwch deallusrwydd artiffisial a chynhyrchion smart wedi'i astudio'n ddigonol eto.

Pan fydd dyfeisiau ledled y cartref yn gwrando ar bob gair, mae'r risg o hacio a chamddefnyddio systemau yn dod yn bryder enfawr. Os yw ymosodwr yn cael mynediad i'r rhwydwaith lleol neu ei gyfeiriadau e-bost cysylltiedig, gellir newid neu ailosod gosodiadau dyfais smart i osodiadau ffatri, a fydd yn arwain at golli gwybodaeth werthfawr a dileu hanes defnyddwyr.

Mewn geiriau eraill, mae gweithwyr diogelwch proffesiynol yn ofni nad yw AI a VUI sy'n cael eu gyrru gan lais yn ddigon craff eto i'n hamddiffyn rhag bygythiadau posibl a chadw ein cegau ar gau pan fydd dieithryn yn gofyn am rywbeth.

Ychwanegu sylw