د غوښتنلیکونو شمیر او د غږ انٹرفیس اهمیت په چټکۍ سره وده کوي
د تکنالوژۍ

د غوښتنلیکونو شمیر او د غږ انٹرفیس اهمیت په چټکۍ سره وده کوي

په پورټلینډ ، اوریګون کې یوې امریکایی کورنۍ پدې وروستیو کې پوهیدلي چې د الیکس غږ معاون د دوی شخصي چیټونه ثبت کړي او یو ملګري ته یې لیږلي. د کور مالک ، چې د ډینیل په نوم د رسنیو لخوا نومول شوی ، خبریالانو ته وویل چې هغه به "هیڅکله دا وسیله بیا ونه نښلوي ځکه چې هغه باور نشي کولی."

Alexaد امریکا په ملیونونو کورونو کې د اکو (1) سپیکرانو او نورو ګیجټونو لخوا چمتو شوی ، کله چې د کارونکي لخوا ویل شوي خپل نوم یا "کال کلمه" اوري نو ثبت پیل کوي. دا پدې مانا ده چې حتی که د تلویزیون په اعلان کې د "الیکسا" کلمه ذکر شوې وي، وسیله ممکن ریکارډ پیل کړي. دا په حقیقت کې هغه څه دي چې پدې قضیه کې پیښ شوي ، ایمیزون وایی ، د هارډویر توزیع کونکی.

شرکت په یوه بیان کې وویل: "د خبرو پاتې برخه د غږ معاون لخوا د پیغام لیږلو قوماندې په توګه تشریح شوې." "په یو وخت کې ، الیکسا په لوړ غږ وپوښتل:" چا ته؟ د سخت لرګیو فرش کولو په اړه د کورنۍ خبرو اترو دوام باید د ماشین لخوا د پیرودونکي د اړیکو لیست کې د توکي په توګه وپیژندل شي. لږترلږه دا هغه څه دي چې ایمیزون فکر کوي. په دې توګه، ژباړه د حادثو لړۍ ته راټیټه شوې.

په هرصورت، اندیښنه پاتې ده. ځکه چې د ځینو دلیلونو لپاره، په هغه کور کې چې موږ لاهم د آرامۍ احساس کوو، موږ باید یو ډول "غږ موډ" ته ننوځو، وګورو چې څه ووایو، تلویزیون څه خپروي او البته، دا نوی سپیکر څه شی دی. . موږ.

سره له دې، د ټیکنالوژۍ نیمګړتیاو او د محرمیت اندیښنو سره سره ، د ایمیزون ایکو په څیر د وسیلو د شهرت په ډیریدو سره ، خلک د خپل غږ په کارولو سره د کمپیوټرونو سره د متقابل عمل مفکورې سره عادت کیږي..

لکه څنګه چې د ایمیزون CTO Werner Vogels، د 2017 په وروستیو کې د AWS بیا ایجاد غونډې په ترڅ کې یادونه وکړه، ټیکنالوژي تر اوسه پورې د کمپیوټر سره د تعامل کولو وړتیا محدوده کړې ده. موږ د کیبورډ په کارولو سره په ګوګل کې کلیدي ټکي ټایپ کوو، ځکه چې دا لاهم ماشین ته د معلوماتو داخلولو ترټولو عام او اسانه لار ده.

ووګیلس وویل. -

لوی څلور

کله چې په تلیفون کې د ګوګل لټون انجن وکاروئ، موږ شاید د مایکروفون نښه ولیدله چې ډیر وخت دمخه د خبرو کولو لپاره زنګ وو. دا ګوګل اوس (2)، کوم چې کولی شي د لټون پوښتنې حکم کړي، د غږ له لارې پیغام داخل کړي، او داسې نور. په وروستیو کلونو کې، ګوګل، ایپل، او ایمیزون خورا ښه شوی. د غږ پیژندنې ټیکنالوژي. د غږ معاونین لکه الیکسا، سری، او ګوګل اسسټنټ نه یوازې ستاسو غږ ثبتوي، بلکې پدې پوهیږي چې تاسو دوی ته څه وایئ او پوښتنو ته ځواب ووایاست.

ګوګل اوس د ټولو Android کاروونکو لپاره وړیا شتون لري. غوښتنلیک کولی شي ، د مثال په توګه ، الارم تنظیم کړي ، د هوا وړاندوینه وګوري او په ګوګل نقشه کې لاره وګوري. د ګوګل اوس د خبرو اترو توسیع بیانوي د ګوګل معاون () - د تجهیزاتو کارونکي ته مجازی مرسته. دا په عمده توګه په ګرځنده او سمارټ کور وسیلو کې شتون لري. د ګوګل اوس برعکس، دا کولی شي په دوه اړخیزه تبادله کې برخه واخلي. معاون په می 2016 کې د ګوګل پیغام رسولو ایپ Allo برخې په توګه او همدارنګه د ګوګل کور غږ سپیکر (3) کې پیل شو.

3. د ګوګل کور

د IOS سیسټم خپل مجازی معاون هم لري، Siri، کوم چې یو برنامه ده چې د ایپل عملیاتي سیسټمونو iOS ، watchOS ، TVOS homepod ، او macOS سره شامل دی. سری د 5 په اکتوبر کې د لیټس ټیک آی فون کنفرانس کې د iOS 4 او iPhone 2011s سره پیل وکړ.

سافټویر د خبرو اترو انٹرفیس پراساس دی: دا د کارونکي طبیعي وینا پیژني (د iOS 11 سره دا هم امکان لري چې په لاسي ډول کمانډونه دننه کړئ) ، پوښتنو ته ځوابونه ورکوي او دندې بشپړوي. د ماشین زده کړې معرفي کولو څخه مننه، د وخت په تیریدو سره یو معاون شخصي غوره توبونه تحلیلوي کارونکي د لا زیاتو اړوندو پایلو او وړاندیزونو چمتو کولو لپاره. سری دوامداره انټرنیټ پیوستون ته اړتیا لري - دلته د معلوماتو اصلي سرچینې Bing او Wolfram Alpha دي. iOS 10 د دریمې ډلې غزولو لپاره ملاتړ معرفي کړ.

د لویو څلورو څخه یو بل کورټانا. دا یو هوښیار شخصي معاون دی چې د مایکروسافټ لخوا رامینځته شوی. دا په وینډوز 10، وینډوز 10 موبایل، وینډوز تلیفون 8.1، ایکس بکس ون، سکایپ، مایکروسافټ بانډ، مایکروسافټ بانډ 2، Android او iOS پلیټ فارمونو کې ملاتړ کیږي. Cortana په لومړي ځل په سان فرانسسکو کې د اپریل په 2014 کې د مایکروسافټ جوړونکي پراختیا کونکي کنفرانس کې معرفي شو. د برنامه نوم د هیلو لوبې لړۍ څخه د کرکټر نوم څخه راځي. Cortana په انګلیسي، ایټالوي، هسپانوي، فرانسوي، الماني، چینایي او جاپاني ژبو شتون لري.

د مخکې ذکر شوي برنامه کاروونکي Alexa دوی باید د ژبې محدودیتونه هم په پام کې ونیسي - ډیجیټل معاون یوازې انګلیسي، جرمني، فرانسوي او جاپاني خبرې کوي.

د ایمیزون مجازی معاون لومړی د ایمیزون ایکو او ایمیزون ایکو ډاټ سمارټ سپیکرو کې کارول شوی و چې د ایمیزون لیب 126 لخوا رامینځته شوی. دا د غږ متقابل عمل ، د میوزیک پلے بیک ، د ترسره کولو لیست رامینځته کول ، د الارم ترتیب کول ، پوډکاسټ سټینګ کول ، د آډیو بوک پلے بیک ، او ریښتیني وخت هوا ، ترافیک ، سپورتونه او نور خبرونه لکه خبرونه (4). الیکسا کولی شي د کور اتومات سیسټم رامینځته کولو لپاره ډیری سمارټ وسیلې کنټرول کړي. دا د ایمیزون پلورنځي کې د مناسب پیرود کولو لپاره هم کارول کیدی شي.

4. د کومو لپاره چې کاروونکي اکو کاروي (د څیړنې له مخې)

کاروونکي کولی شي د الیکسا "مهارتونو" () په نصبولو سره د الیکسا تجربې ته وده ورکړي ، د دریمې ډلې لخوا رامینځته شوي اضافي ب featuresې چې په عام ډول په نورو ترتیباتو کې د هوا او آډیو برنامو په څیر ایپسونو ته راجع کیږي. د الیکسا ډیری وسیلې تاسو ته اجازه درکوي خپل مجازی معاون د وییک اپ پاسورډ سره فعال کړئ ، په نوم یادیږي.

نن ورځ، ایمیزون یقینا د سمارټ سپیکر بازار باندې تسلط لري (5). IBM، کوم چې د 2018 په مارچ کې یو نوی خدمت معرفي کړ، هڅه کوي چې غوره څلورو ته ننوځي د واټسن مرستیال، د شرکتونو لپاره ډیزاین شوی چې غواړي د غږ کنټرول سره د مجازی معاونینو خپل سیسټمونه رامینځته کړي. د IBM حل ګټه څه ده؟ د شرکت استازو په وینا، لومړی، د شخصي کولو او محرمیت ساتنې لپاره خورا لوی فرصتونو باندې.

لومړی، د واټسن معاون نښه نه ده. شرکتونه کولی شي پدې پلیټ فارم کې خپل حلونه رامینځته کړي او د خپل برانډ سره یې لیبل کړي.

دوهم، دوی کولی شي خپل مرستندویه سیسټمونه د خپلو ډیټا سیټونو په کارولو سره وروزي، کوم چې IBM وايي د نورو VUI (غږ کاروونکي انٹرفیس) ټیکنالوژیو په پرتله دې سیسټم ته د ځانګړتیاوو او کمانډونو اضافه کول اسانه کوي.

دریم، د واټسن معاون IBM د کارونکي فعالیت په اړه معلومات نه ورکوي - په پلیټ فارم کې د حلونو پراختیا کونکي کولی شي یوازې ځان ته ارزښتناک معلومات وساتي. په ورته وخت کې، هرڅوک چې وسایل جوړوي، د بیلګې په توګه د الیکسا سره، باید خبر وي چې د دوی ارزښتناکه معلومات به په ایمیزون کې پای ته ورسیږي.

د واټسن معاون لا دمخه ډیری تطبیقونه لري. سیسټم د مثال په توګه د هارمان لخوا کارول شوی و، کوم چې د مسیراتي تصور موټر لپاره د غږ معاون جوړ کړ (6). د میونخ په هوایی ډګر کې ، د IBM معاون د مرچ روبوټ ځواک ورکوي ترڅو مسافرینو سره شاوخوا حرکت وکړي. دریمه بیلګه د چمیلون ټیکنالوژي ده ، چیرې چې غږ ټیکنالوژي په سمارټ کور میټر کې کارول کیږي.

6. د واټسن اسسټنټ په مسیراتي مفهوم موټر کې

دا د یادولو وړ ده چې دلته زیرمه ټیکنالوژي هم نوې نه ده. د واټسن معاون کې د موجوده IBM محصولاتو لپاره د کوډ کولو وړتیاوې شاملې دي، د واټسن خبرې اترې، او د واټسن مجازی اجنټ، او همدارنګه د ژبې تحلیل او چیٹ لپاره APIs.

ایمیزون نه یوازې د سمارټ غږ ټیکنالوژۍ مشر دی، مګر دا په مستقیم سوداګرۍ بدلوي. په هرصورت، ځینې شرکتونو د اکو ادغام سره ډیر دمخه تجربه کړې. سیسنس، د BI او تحلیلي صنعت کې یو شرکت، د جولای په 2016 کې د اکو ادغام معرفي کړ. په بدل کې، سټارټ اپ Roxy پریکړه وکړه چې د میلمه پالنې صنعت لپاره خپل غږ کنټرول سافټویر او هارډویر رامینځته کړي. د دې کال په پیل کې، Synqq د نوټ اخیستلو اپلیکیشن معرفي کړ چې د غږ او طبیعي ژبې پروسس کولو لپاره د نوټونو او کیلنڈر ننوتلو اضافه کولو لپاره پرته له دې چې دوی په کیبورډ کې ټایپ کړي.

دا ټول کوچني کاروبارونه لوړ ارمانونه لري. په هرصورت، دوی پوهیدلي چې هر کاروونکي نه غواړي خپل معلومات ایمیزون، ګوګل، ایپل یا مایکروسافټ ته انتقال کړي، کوم چې د غږ اړیکو پلیټ فارمونو جوړولو کې خورا مهم لوبغاړي دي.

امریکایان غواړي واخلي

په 2016 کې، د غږ لټون د ګوګل د ټولو ګرځنده لټونونو 20٪ حساب کړی. هغه خلک چې هره ورځ دا ټیکنالوژي کاروي د دې ترټولو لوی ګټو کې د هغې اسانتیا او څو دندې په ګوته کوي. (د مثال په توګه، د موټر چلولو پرمهال د لټون انجن کارولو وړتیا).

د ویژنګین شنونکي د سمارټ ډیجیټل معاونینو اوسني بازار ارزښت $ 1,138 ملیارد اټکل کوي. داسې نور ډیر میکانیزمونه شتون لري. د ګارټینر په وینا، د 2018 په پای کې لا دمخه زموږ د تعاملاتو 30٪ د ټیکنالوژۍ سره به د غږ سیسټمونو سره د خبرو اترو له لارې وي.

د بریتانوي څیړنیز شرکت IHS مارکیت اټکل کوي چې د AI په واسطه د ډیجیټل معاونینو بازار به د دې کال تر پایه 4 ملیارد وسیلو ته ورسیږي، او دا شمیر به تر 2020 پورې 7 ملیارد ته لوړ شي.

د eMarketer او VoiceLabs د راپورونو له مخې، په 2017 کې 35,6 ملیون امریکایانو لږترلږه په میاشت کې یو ځل د غږ کنټرول کارولی. دا پدې مانا ده چې د تیر کال په پرتله نږدې 130٪ زیاتوالی راغلی. یوازې د ډیجیټل معاون بازار تمه کیږي چې په 2018 کې د 23٪ لخوا وده وکړي. دا پدې مانا ده چې تاسو به دمخه دوی وکاروئ. ۷.۵۵ میلیونه امریکایان، کوم چې به د دوی تولید کونکو لپاره د کانکریټ پیسو پایله ولري. د RBC Capital Markets اټکل کوي چې د الیکسا انٹرفیس به تر 2020 پورې د ایمیزون لپاره تر 10 ملیارد ډالرو عاید تولید کړي.

وینځئ، پخوئ، پاک کړئ!

غږیز انٹرفیسونه په زړورتیا سره د کور وسایلو او مصرف کونکي بریښنایی بازارونو ته ننوځي. دا د تیر کال د IFA 2017 نندارتون په جریان کې لیدل کیدی شي. د امریکا شرکت Neato Robotics د بیلګې په توګه، یو روبوټ ویکیوم کلینر معرفي کړ چې د ډیری سمارټ کور پلیټ فارمونو څخه یو سره نښلوي، په شمول د Amazon Echo سیسټم. د اکو سمارټ سپیکر سره په خبرو کولو سره، تاسو کولی شئ ماشین ته لارښوونه وکړئ چې ستاسو ټول کور د ورځې یا شپې په ځانګړو وختونو کې پاک کړي.

په دې نندارتون کې نور غږیز تولیدات نندارې ته وړاندې شول، چې د توشیبا برانډ لاندې د ترکي شرکت ویستیل لخوا پلورل شوي سمارټ تلویزیونونو څخه نیولې د الماني شرکت بیورر لخوا تودوخې کمپلې پورې اړه لري. ډیری دا بریښنایی وسایل هم د سمارټ فونونو په کارولو سره له لیرې فعال کیدی شي.

په هرصورت، د بوش استازو په وینا، دا ډیر وختي دی چې ووایو د کور معاون انتخابونه به غالب شي. په IFA 2017 کې، د آلمان یوې تخنیکي ډلې د مینځلو ماشینونه (7)، تنور او کافي ماشینونه نندارې ته وړاندې کړل چې له اکو سره وصل دي. بوش هم غواړي چې خپل وسایل په راتلونکي کې د ګوګل او ایپل غږ پلیټ فارمونو سره مطابقت ولري.

7. د بوش مینځلو ماشین چې د ایمیزون اکو سره وصل دی

شرکتونه لکه Fujitsu، Sony او Panasonic خپل د AI پر بنسټ د غږ معاون حلونه رامینځته کوي. شارپ دا ټیکنالوژي په اوونونو او کوچني روبوټونو کې اضافه کوي چې بازار ته ننوځي. نیپون ټیلیګراف او ټیلیفون د هارډویر او لوبو جوړونکي استخدام کوي ترڅو د غږ کنټرول مصنوعي استخباراتو سیسټم تطبیق کړي.

زوړ مفهوم. ایا د هغې وخت په پای کې راغلی دی؟

په حقیقت کې، د غږ کاروونکي انٹرفیس (VUI) مفهوم د لسیزو راهیسې شتون لري. هر هغه څوک چې د سټار ټریک یا 2001: A Space Odyssey کلونه دمخه لیدلي شاید تمه یې درلوده چې د 2000 کال شاوخوا به موږ ټول کمپیوټرونه د خپلو غږونو سره کنټرول کړو. همچنان ، دا یوازې د ساینسي افسانې لیکوالان ندي چې د دې ډول انٹرفیس احتمال یې لیدلی. په 1986 کې، د نیلسن څیړونکو د معلوماتي ټکنالوجۍ متخصصینو څخه وپوښتل چې دوی څه فکر کوي د 2000 کال پورې به د کاروونکي انٹرفیس کې ترټولو لوی بدلون وي. دوی ډیری وختونه د غږ انٹرفیس پراختیا ته اشاره کوي.

د دې ډول حل لپاره د امید لپاره دلیلونه شتون لري. لفظي اړیکه، په هرصورت، د خلکو لپاره په شعوري توګه د افکارو تبادله کولو لپاره ترټولو طبیعي لاره ده، نو د انسان - ماشین تعامل لپاره کارول تر دې دمه ترټولو غوره حل ښکاري.

د لومړي VUIs څخه یو، په نوم یادیږي د بوټانو بکس، د 60s په لومړیو کې د IBM لخوا رامینځته شوی. دا د نن ورځې غږ پیژندنې سیسټمونو مخکښ و. په هرصورت، د VUI وسیلو پراختیا د کمپیوټري ځواک محدودیتونو لخوا محدوده وه. په ریښتیني وخت کې د انسان د وینا تحلیل او تشریح کول ډیرې هڅې ته اړتیا لري ، او هغه ځای ته رسیدو لپاره چې دا واقعیا ممکنه وه له پنځوسو کلونو څخه ډیر وخت نیسي.

د غږ انٹرفیس سره وسیلې د 90s په مینځ کې په ډله ایز تولید کې څرګندیدل پیل کړل ، مګر شهرت یې ترلاسه نه کړ. لومړی تلیفون چې د غږ کنټرول (ډایل کولو) سره و فیلیپس سپارکپه 1996 کې خپور شو. په هرصورت، دا نوښت او د کارولو اسانه وسیله د تخنیکي محدودیتونو څخه خالي نه وه.

نور تلیفونونه چې د غږ انٹرفیس ډولونو سره مجهز دي (د شرکتونو لخوا رامینځته شوي لکه RIM ، سامسنګ یا موټرولا) په منظم ډول بازار ته راځي ، کاروونکو ته اجازه ورکوي چې د غږ له لارې ډایل کړي یا متن پیغامونه واستوي. په هرصورت، دا ټول د ځانګړو حکمونو یادولو او په جبري، مصنوعي بڼه تلفظ ته اړتیا لري، د هغه وخت د وسایلو وړتیاوو سره سمون لري. دا یو لوی شمیر غلطۍ رامینځته کړې، کوم چې په پایله کې د کاروونکي ناخوښۍ المل شوي.

په هرصورت، موږ اوس د کمپیوټر نوي دور ته ننوتلو، په کوم کې چې د ماشین زده کړې او مصنوعي استخباراتو پرمختګ د ټکنالوجۍ سره د تعامل لپاره د یوې نوې لارې په توګه د خبرو اترو احتمال خلاصوي (8). د وسیلو شمیر چې د غږ تعامل ملاتړ کوي یو مهم فاکتور ګرځیدلی چې د VUI پراختیا باندې لوی اغیزه لري. نن ورځ، د نړۍ نږدې 1/3 نفوس لا دمخه سمارټ فونونه لري چې د دې ډول چلند لپاره کارول کیدی شي. داسې ښکاري چې ډیری کاروونکي په نهایت کې د دوی د غږ انٹرفیسونو سره سمون ته چمتو دي.

8. د غږیز انٹرفیس د پراختیا عصري تاریخ

په هرصورت، مخکې له دې چې موږ کولی شو په وړیا توګه د کمپیوټر سره خبرې وکړو، لکه څنګه چې د فضا اوډیسي کرکټرونو ترسره کړي، موږ باید یو شمیر ستونزې له منځه یوسو. ماشینونه لاهم د ژبني نښو په اداره کولو کې خورا ښه ندي. سربیره پردې ډیری خلک لاهم د لټون انجن ته د غږیز حکمونو په ورکولو کې د نارامۍ احساس کوي.

احصایې ښیې چې د غږ معاونین په عمده توګه په کور کې یا د نږدې ملګرو په مینځ کې کارول کیږي. د مرکه شویو کسانو څخه هیڅ یو په عامه ځایونو کې د غږ لټون کارولو اعتراف نه دی کړی. په هرصورت، دا بندیز ممکن د دې ټیکنالوژۍ په خپریدو سره ورک شي.

تخنیکي پلوه ستونزمنه پوښتنه

هغه ستونزه چې سیسټمونه (ASR) ورسره مخ دي د وینا سیګنال څخه ګټور معلومات راوباسي او د یوې ټاکلې کلمې سره یې شریکوي چې د یو شخص لپاره ځانګړې معنی لري. تولید شوي غږونه هر وخت توپیر لري.

د وینا سیګنال بدلون د دې طبیعي ملکیت دی، له دې امله مننه چې موږ، د بیلګې په توګه، یو تلفظ یا غږ پیژنو. د وینا پیژندنې سیسټم هر عنصر ځانګړی دنده لري. د پروسس شوي سیګنال او د هغې پیرامیټونو پراساس ، یو اکوسټیک ماډل رامینځته شوی ، کوم چې د ژبې ماډل سره تړاو لري. د پیژندنې سیسټم کولی شي د کوچني یا لوی شمیر نمونو پراساس کار وکړي ، کوم چې د حرفونو اندازه ټاکي چې ورسره کار کوي. دوی کولی شي کوچني لغتونه د سیسټمونو په صورت کې چې انفرادي کلمې یا حکمونه پیژني، او همدارنګه لوی ډیټابیسونه د ژبې سیټ سره مساوي لري او د ژبې ماډل (ګرامر) په پام کې نیسي.

ستونزې په لومړي ځای کې د غږ انٹرفیس سره مخ دي خبرې په سمه توګه درک کول، په کوم کې چې د بیلګې په توګه، ټول ګراماتیک ترتیبونه ډیری وختونه پریښودل کیږي، ژبني او فونیټیک غلطۍ، غلطۍ، نیمګړتیاوې، د وینا نیمګړتیاوې، هومونیمونه، غیر عادلانه تکرار، او داسې نور. دا ټول ACP سیسټمونه باید په چټکه او باوري توګه کار وکړي. لږترلږه دا تمه لري.

د ستونزو سرچینه هم د پیژندل شوي وینا پرته بل صوتي سیګنالونه دي چې د پیژندنې سیسټم ان پټ ته ننوځي، د بیلګې په توګه. ټول ډولونه مداخله او شور. په ساده حالت کې، تاسو ورته اړتیا لرئ فلټرکول. دا کار معمول او اسانه ښکاري - په هرصورت، مختلف سیګنالونه فلټر شوي او هر برقی انجنیر پوهیږي چې په داسې حالت کې څه وکړي. په هرصورت، دا باید په ډیر احتیاط او دقت سره ترسره شي که چیرې د وینا پیژندنې پایله زموږ د هیلو پوره کول وي.

اوس مهال کارول شوي فلټر کول د وینا سیګنال سره یوځای د مایکروفون لخوا پورته شوي بهرني شور او پخپله د وینا سیګنال داخلي ملکیتونه لرې کول ممکن کوي ​​، کوم چې د دې پیژندل ستونزمن کوي. په هرصورت، خورا پیچلې تخنیکي ستونزه رامینځته کیږي کله چې د تحلیل شوي وینا سیګنال مداخله وي ... د وینا بل سیګنال ، دا د مثال په توګه ، شاوخوا لوړ بحثونه دي. دا پوښتنه په ادبیاتو کې د تش په نوم پیژندل کیږي. دا لا دمخه د پیچلو میتودونو کارولو ته اړتیا لري، چې ورته ویل کیږي. deconvolution سیګنال خلاصول.

د وینا پیژندنې ستونزې دلته پای ته نه رسیږي. دا د پوهیدو وړ ده چې وینا ډیری مختلف ډوله معلومات لري. د انسان غږ جنس، عمر، د مالک مختلف کرکټر یا د هغه روغتیا حالت وړاندیز کوي. د بایو میډیکل انجینرۍ پراخه څانګه شتون لري چې د مختلف ناروغیو تشخیص سره معامله کوي د وینا په سیګنال کې موندل شوي ځانګړتیاو اکوسټیک پیښې پراساس.

داسې غوښتنلیکونه هم شتون لري چیرې چې د وینا سیګنال صوتي تحلیل اصلي هدف د سپیکر پیژندل یا تصدیق کول دي چې هغه څوک دی چې هغه یې ادعا کوي (د کیلي ، پاسورډ یا PUK کوډ پرځای غږ). دا کیدی شي مهم وي، په ځانګړې توګه د سمارټ جوړونې ټیکنالوژیو لپاره.

د وینا پیژندنې سیسټم لومړۍ برخه ده مایکروفون. په هرصورت، د مایکروفون لخوا اخیستل شوي سیګنال معمولا لږ کار کوي. مطالعې ښیې چې د غږ څپې بڼه او کورس د شخص، د وینا سرعت، او یو څه د خبرو اترو مزاج پورې اړه لري - پداسې حال کې چې په لږه اندازه دوی د ویل شوي حکمونو مینځپانګه منعکس کوي.

نو ځکه، سیګنال باید په سمه توګه پروسس شي. عصري صوتيات، فونیټکس او کمپیوټر ساینس په ګډه د وسیلو بډایه سیټ چمتو کوي چې د وینا سیګنال پروسس ، تحلیل ، پیژندلو او پوهیدو لپاره کارول کیدی شي. د سیګنال متحرک طیف، په نوم یادیږي متحرک سپیکٹروګرامونه. دا د ترلاسه کولو لپاره خورا اسانه دي، او د متحرک سپیکٹروګرام په بڼه وړاندې شوي وینا نسبتا اسانه ده چې د انځور پیژندنې کې کارول شوي ورته تخنیکونو په کارولو سره پیژندل شي.

د وینا ساده عناصر (د بیلګې په توګه، امرونه) د ټول سپیکٹروګرامونو ساده ورته والی لخوا پیژندل کیدی شي. د مثال په توګه، د غږ فعال ګرځنده تلیفون لغت یوازې له څو لسیزو څخه تر څو سوو کلمو او جملو پورې اړه لري، معمولا مخکې له مخکې سټک شوي ترڅو دوی په اسانۍ او اغیزمنه توګه وپیژندل شي. دا د ساده کنټرول دندو لپاره کافي دی، مګر دا په جدي توګه ټول غوښتنلیک محدودوي. د سکیم سره سم جوړ شوي سیسټمونه، د یوې قاعدې په توګه، یوازې د ځانګړو سپیکرو ملاتړ کوي چې غږونه یې په ځانګړي ډول روزل شوي. نو که چیرې یو نوی څوک وي چې غواړي د سیسټم کنټرول لپاره خپل غږ وکاروي، دوی به ډیری احتمال ونه منل شي.

د دې عملیاتو پایله بلل کیږي سپیکٹروګرام 2-Wیعني دوه اړخیز طیف. په دې بلاک کې یو بل فعالیت شتون لري چې د پاملرنې وړ دی - طبقه بندي. په عموم کې ، موږ د دوامداره وینا سیګنال په برخو کې د ماتولو په اړه خبرې کوو چې په جلا توګه پیژندل کیدی شي. دا یوازې د دې انفرادي تشخیصونو څخه دی چې بشپړ پیژندل کیږي. دا کړنلاره اړینه ده ځکه چې دا ممکنه نه ده چې اوږده او پیچلې وینا په یوځل کې وپیژني. ټول حجمونه لا دمخه د دې په اړه لیکل شوي چې کومې برخې باید د وینا په سیګنال کې توپیر وکړي، نو موږ به اوس پریکړه ونه کړو چې آیا توپیر لرونکي برخې باید فونیم (د غږ معادل)، سلیبونه، یا شاید ایلوفونونه وي.

د اتوماتیک پیژندنې پروسه تل د شیانو ځینې ځانګړتیاو ته اشاره کوي. د وینا سیګنال لپاره د مختلف پیرامیټونو سلګونه سیټونه ازمول شوي. د وینا سیګنال لري په پیژندل شوي چوکاټونو ویشل شوي او درلودل غوره شوي ځانګړتیاوېچیرته چې دا چوکاټونه د پیژندنې په پروسه کې وړاندې کیږي، موږ کولی شو ترسره کړو (د هر چوکاټ لپاره په جلا توګه) ډلبندي, i.e. چوکاټ ته د پیژندونکي ګمارل، کوم چې به یې په راتلونکي کې استازیتوب وکړي.

بل پړاو د چوکاټونو راټولول په جلا کلمو کې - ډیری وختونه د تش په نامه پر بنسټ. د ضمیمه مارکوف ماډل ماډل (HMM-). بیا د کلمو مونټیج راځي بشپړې جملې.

موږ اوس کولی شو د یوې شیبې لپاره د الیکسا سیسټم ته راستون شو. د هغه مثال د یو شخص د ماشین "تفهیم" څو مرحلې پروسې ښیې - ډیر دقیق: د هغه لخوا ورکړل شوی امر یا پوښتنه شوې.

د کلمو پوهیدل، د معنی پوهیدل، او د کارونکي ارادې پوهیدل په بشپړه توګه مختلف شیان دي.

له همدې امله ، بل ګام د NLP ماډل کار دی () ، چې دنده یې دا ده د کارونکي ارادې پیژندنه, i.e. د قوماندې / پوښتنې معنی په هغه شرایطو کې چې دا ویل شوي. که اراده په ګوته شي، نو د تش په نامه مهارتونو او وړتیاوو ګمارل، د بیلګې په توګه د سمارټ معاون لخوا ملاتړ شوی ځانګړی خصوصیت. د هوا په اړه د پوښتنې په صورت کې، د هوا ډیټا سرچینې ویل کیږي، کوم چې په وینا کې پروسس کیږي (TTS - میکانیزم). د پایلې په توګه، کاروونکي د پوښتنې ځواب اوري.

غږ؟ د ګرافیک هنر؟ یا شاید دواړه؟

ډیری پیژندل شوي عصري تعامل سیسټمونه د منځګړیتوب په نوم یادیږي ګرافیکي کارن انٹرفیس (ګرافیکي انٹرفیس). له بده مرغه، GUI د ډیجیټل محصول سره د تعامل لپاره ترټولو ښکاره لاره نه ده. دا اړتیا لري چې کاروونکي لومړی د انٹرفیس کارولو څرنګوالی زده کړي او دا معلومات د هر راتلونکي تعامل سره په یاد وساتي. په ډیری حاالتو کې، غږ خورا اسانه دی، ځکه چې تاسو کولی شئ د VUI سره په ساده ډول د وسیلې سره خبرې وکړئ. یو انٹرفیس چې کاروونکي دې ته اړ نه کوي چې ځینې قوماندې یا د تعامل میتودونه حفظ او حفظ کړي د لږو ستونزو لامل کیږي.

البته، د VUI پراخول پدې معنی ندي چې نور دودیز انٹرفیسونه پریږدي - بلکه، هایبرډ انٹرفیسونه به شتون ولري چې د متقابل عمل ډیری لارې سره یوځای کړي.

د غږ انٹرفیس په ګرځنده شرایطو کې د ټولو دندو لپاره مناسب ندی. د دې سره، موږ به د موټر چلونکي ملګري ته زنګ ووهو، او حتی هغه ته به یو SMS واستوو، مګر د وروستي لیږدونو معاینه کول خورا ستونزمن کیدی شي - د سیسټم () لخوا لیږدول شوي او د سیسټم (سیسټم) لخوا تولید شوي معلوماتو مقدار له امله. لکه څنګه چې راچیل هینمن په خپل کتاب ګرځنده فرنټیر کې وړاندیز کوي ، د VUI کارول خورا اغیزمن کیږي کله چې د دندې ترسره کول چیرې چې د معلوماتو او محصول معلوماتو مقدار لږ وي.

د انټرنیټ سره وصل یو سمارټ فون اسانه دی مګر ناامنه هم دی (9). هرکله چې یو کاروونکي غواړي یو څه واخلي یا نوی خدمت وکاروي، دوی باید بل اپلیکیشن ډاونلوډ کړي او یو نوی حساب جوړ کړي. دلته د غږ انٹرفیس کارولو او پراختیا لپاره یو ډګر رامینځته شوی. د دې پرځای چې کاروونکي مجبور کړي چې ډیری مختلف ایپسونه نصب کړي یا د هر خدمت لپاره جلا حسابونه رامینځته کړي ، ماهرین وايي VUI به د دې پیچلي کارونو بار د AI ځواک لرونکي غږ معاون ته واړوي. دا به د هغه لپاره اسانه وي چې سخت فعالیتونه ترسره کړي. موږ به یوازې هغه ته امر وکړو.

9. د سمارټ فون له لارې غږیز انٹرفیس

نن ورځ، یوازې یو تلیفون او کمپیوټر له انټرنیټ سره وصل دی. سمارټ ترموسټیټونه، څراغونه، کیټلونه او ډیری نور IoT مربوط وسایل هم د شبکې سره وصل دي (10). په دې توګه، زموږ په شاوخوا کې بې سیم وسیلې شتون لري چې زموږ ژوند ډکوي، مګر دا ټول په طبیعي توګه د ګرافیکي کاروونکي انٹرفیس کې مناسب ندي. د VUI کارول به تاسو سره په اسانۍ سره زموږ په چاپیریال کې مدغم کولو کې مرسته وکړي.

10. د شیانو انټرنیټ سره غږیز انٹرفیس

د غږ کارونکي انٹرفیس رامینځته کول به ډیر ژر د کلیدي ډیزاینر مهارت شي. دا یوه اصلي ستونزه ده - د غږ سیسټمونو پلي کولو اړتیا به تاسو وهڅوي چې په فعاله ډیزاین باندې ډیر تمرکز وکړي، دا د کارونکي د ابتدايي ارادې د پوهیدو هڅه کوي، د خبرو اترو په هر پړاو کې د دوی اړتیاوې او توقعات اټکل کوي.

غږ د معلوماتو د ننوتلو لپاره یوه اغیزمنه لاره ده - دا کاروونکو ته اجازه ورکوي چې په چټکۍ سره سیسټم ته په خپلو شرایطو کې حکمونه صادر کړي. له بلې خوا، سکرین د معلوماتو ښودلو لپاره یوه اغیزمنه لاره وړاندې کوي: دا سیسټمونو ته اجازه ورکوي چې په ورته وخت کې د معلوماتو لوی مقدار ښکاره کړي، د کاروونکو په حافظه کې بار کموي. دا منطقي ده چې په یو سیسټم کې د دوی یوځای کول هڅونکي ښکاري.

سمارټ سپیکرې لکه د ایمیزون ایکو او ګوګل کور په هیڅ ډول د لید لید وړاندیز نه کوي. په منځنۍ فاصله کې د غږ پیژندنې دقت د پام وړ ښه کول، دوی د لاسونو څخه پاک عملیاتو ته اجازه ورکوي، چې په پایله کې د دوی انعطاف او موثریت زیاتوي - دا حتی د هغو کاروونکو لپاره چې دمخه د غږ کنټرول سره سمارټ فونونه لري د پام وړ دي. په هرصورت، د سکرین نشتوالی یو لوی محدودیت دی.

یوازې بیپونه کارول کیدی شي کاروونکو ته د ممکنه کمانډونو خبر ورکړي، او په لوړ غږ لوستل د خورا لومړني کارونو پرته ستړي کیږي. د پخلي پرمهال د غږیز کمانډ سره د ټایمر تنظیم کول خورا ښه دي ، مګر تاسو ته دا پوښتنه کول اړین ندي چې څومره وخت پاتې دی. د منظم موسم وړاندوینې ترلاسه کول د کارونکي لپاره د حافظې ازموینه کیږي ، څوک چې باید په یوه نظر کې د سکرین څخه د پورته کولو پرځای په ټوله اونۍ کې د حقایقو لړۍ واوري او جذب کړي.

ډیزاینر لا دمخه لري هایبرډ حل، ایکو شو (11) ، کوم چې لومړني اکو سمارټ سپیکر ته د ډسپلین سکرین اضافه کړی. دا د تجهیزاتو فعالیت خورا پراخوي. په هرصورت ، د اکو شو لاهم د لومړني دندو ترسره کولو کې خورا لږ وړ دی چې په سمارټ فونونو او ټابلیټونو کې له اوږدې مودې شتون لري. دا نشي کولی (تر اوسه) ویب سرف کړي، بیاکتنې ښکاره کړي، یا د ایمیزون پیرود کارټ مینځپانګې ښکاره کړي، د بیلګې په توګه.

یو بصری نندارتون په طبیعي ډول د غږ په پرتله خلکو ته د معلوماتو بډایه کولو لپاره خورا مؤثره لاره ده. د غږ لومړیتوب سره ډیزاین کولی شي د غږ متقابل عمل خورا ښه کړي، مګر په اوږد مهال کې، د متقابل عمل لپاره په اراده توګه د بصری مینو نه کارول به ستاسو د شا شا تړل شوي لاس سره د جګړې په څیر وي. د پای څخه تر پایه د هوښیار غږ او ښودنې انٹرفیسونو د ډیریدونکي پیچلتیا له امله ، پراختیا کونکي باید د انٹرفیسونو لپاره هایبرډ چلند په جدي ډول په پام کې ونیسي.

د وینا د تولید او پیژندنې سیسټمونو د موثریت او سرعت زیاتوالي دا ممکنه کړې چې دا په داسې غوښتنلیکونو او ساحو کې وکارول شي، د بیلګې په توګه:

• نظامي (په الوتکو یا چورلکو کې غږیز حکمونه، د بیلګې په توګه، F16 VISTA)

• د متن اتوماتیک لیږد (متن ته وینا)

• د متقابل معلوماتو سیسټمونه (لومړی وینا، غږ پورټل)،

• ګرځنده وسایل (تلیفونونه، سمارټ فونونه، ټابلیټونه)،

• روبوټکس (Cleverbot - ASR سیسټمونه د مصنوعي استخباراتو سره یوځای شوي)

• آټوموټیو (د موټر اجزاو لاسونو څخه پاک کنټرول لکه نیلي او ما)

• د کور غوښتنلیکونه (سمارټ کور سیسټمونه).

خوندیتوب ته پام وکړئ!

اتوماتیک، د کور وسایل، د تودوخې / یخولو او د کور امنیت سیسټمونه، او د کور ډیری وسایل د غږ انٹرفیس کارولو پیل کوي، ډیری وختونه د AI پر بنسټ. پدې مرحله کې ، د ماشینونو سره د ملیونونو خبرو اترو څخه ترلاسه شوي معلومات لیږل کیږي کمپیوټري بادل. دا روښانه ده چې بازار موندونکي د دوی سره علاقه لري. او نه یوازې دوی.

د سیمانټیک امنیتي کارپوهانو وروستی راپور وړاندیز کوي چې د غږ کمانډ کاروونکي د امنیت ځانګړتیاوې لکه د دروازې قفلونه کنټرول نه کړي، یوازې د کور امنیتي سیسټمونه پریږدي. ورته د پاسورډونو یا محرم معلوماتو ذخیره کولو لپاره ځي. د مصنوعي استخباراتو او سمارټ محصولاتو امنیت لاهم په کافي اندازه نه دی مطالعه شوی.

کله چې په ټول کور کې وسایل هرې خبرې ته غوږ نیسي، د سیسټم هیک کولو او ناوړه ګټه اخیستنې خطر یوه لویه اندیښنه ده. که یو بریدګر محلي شبکې یا د هغې اړوند بریښنالیک پتې ته لاسرسی ومومي، د سمارټ وسیلې تنظیمات بدلیدلی شي یا د فابریکې ترتیباتو ته بیا تنظیم کیدی شي، چې دا به د ارزښتناکو معلوماتو له لاسه ورکولو او د کارونکي تاریخ له مینځه وړلو لامل شي.

په بل عبارت، امنیتي متخصصین ویره لري چې د غږ لخوا پرمخ وړل شوي AI او VUI لاهم دومره هوښیار ندي چې موږ د احتمالي ګواښونو څخه خوندي کړو او زموږ خوله بنده وساتو کله چې یو اجنبی د څه غوښتنه کوي.

Add a comment