Trys nauji NAUDOTI daugiakalbiai moduliai ateina į „TensorFlow“

Tech / Trys nauji NAUDOTI daugiakalbiai moduliai ateina į „TensorFlow“ 2 minutės perskaityta

„Google“ paieška balsu



„Google“ yra viena iš dirbtinio intelekto tyrimų pradininkų, ir daugelis jų projektų suko galvą. „AlfaZero“ iš „Google“ „DeepMind“ komanda buvo perversmas dirbtinio intelekto tyrimuose, nes programa sugebėjo pati išmokti sudėtingų žaidimų (be žmogaus mokymo ir intervencijos). „Google“ taip pat puikiai dirbo Natūralios kalbos apdorojimo programos (NLP), o tai yra viena iš „Google“ padėjėjo efektyvumo suprantant ir apdorojant žmogaus kalbą priežasčių.

„Google“ neseniai paskelbė išleidusi tris naujus NAUDOKITE daugiakalbius modulius ir pateikti daugiau daugiakalbių modelių semantiškai panašiam tekstui gauti.



Pirmieji du moduliai pateikia daugiakalbius modelius, skirtus semantiškai panašiam tekstui gauti, vienas iš jų yra optimizuotas paieškos rezultatams, kitas - greičiui ir mažiau atminties naudojimui. Trečiasis modelis yra specializuotas klausimo-atsakymo paieška šešiolika kalbų (USE-QA) ir reiškia visiškai naują USE taikymą. Visi trys daugiakalbiai moduliai mokomi naudojant a kelių užduočių dvigubo kodavimo sistema , panašus į originalų USE modelį anglų kalba, tuo pat metu naudojant metodus, kuriuos sukūrėme tobulindami dvigubas kodavimo įrenginys su papildomosios paraštės programinės įrangos principu . Jie skirti ne tik palaikyti gerus perkėlimo mokymosi rezultatus, bet ir gerai atlikti semantines paieškos užduotis.



Kalbos apdorojimas sistemose nuėjo ilgą kelią - nuo pagrindinių sintaksės medžių analizavimo iki didelių vektorių asociacijos modelių. Konteksto supratimas tekste yra viena didžiausių problemų NLP lauke, o „Universal Sentence Encoder“ tai išsprendžia konvertuodamas tekstą aukštų matmenų vektoriuose, o tai palengvina teksto reitingavimą ir žymėjimą.



UTE žymėjimo struktūros šaltinis - „Google“ tinklaraštis

Pasak „Google“, „ Visi trys nauji moduliai yra paremti semantinės paieškos architektūra, kuri paprastai padalija klausimų ir atsakymų kodavimą į atskirus neuroninius tinklus, o tai leidžia ieškoti milijardų galimų atsakymų per milisekundes. 'Kitaip tariant, tai padeda geriau indeksuoti duomenis.

' Visi trys daugiakalbiai moduliai mokomi naudojant a kelių užduočių dvigubo kodavimo sistema , panašus į originalų USE modelį anglų kalba, tuo pat metu naudojant metodus, kuriuos sukūrėme tobulindami dvigubas kodavimo įrenginys su papildomosios paraštės programinės įrangos principu . Jie skirti ne tik palaikyti gerus perkėlimo mokymosi rezultatus, bet ir gerai atlikti semantines paieškos užduotis . “ Funkcija „Softmax“ dažnai naudojama skaičiavimo jėgai taupyti, eksponuojant vektorius ir paskui padalijant kiekvieną elementą iš eksponento sumos.



Semantinė paieškos architektūra

„Visi trys nauji moduliai yra pagrįsti semantinės paieškos architektūromis, kurios paprastai klausimų ir atsakymų kodavimą suskirsto į atskirus neuroninius tinklus, o tai leidžia ieškoti milijardų galimų atsakymų per milisekundes. Raktas norint naudoti dvigubus koduotojus efektyviam semantiniam paieškai yra iš anksto užkoduoti visus kandidatų atsakymus į laukiamas įvesties užklausas ir išsaugoti juos vektorinėje duomenų bazėje, kuri yra optimizuota sprendžiant artimiausio kaimyno problema , kuri leidžia greitai ieškoti gero kandidatų skaičiaus tikslumas ir atšaukimas . '

Šiuos modulius galite atsisiųsti iš „TensorFlow Hub“. Daugiau informacijos skaitykite „GoogleAI“ tinklaraščio straipsnis .

Žymos google