Meta prezanton modelin e përkthimit të të folurit shumëgjuhësh

Meta publikoi një model të ri të fjalës në tekst që mund të përkthejë gati 100 gjuhë të quajtur SeamlessM4T, ndërsa kompania vazhdon të përpiqet të bëjë një përkthyes universal.

SeamlessM4T, i cili qëndron për përkthimin masivisht shumëgjuhësh dhe multimodal të makinës, që kompania tha se mund të përkthejë fjalë në tekst dhe tekst në tekst për gati 100 gjuhë. Për veprimet e fjalës në të folur dhe të tekstit në të folur, ai njeh 100 gjuhë hyrëse dhe i konverton ato në 35 gjuhë dalëse.

Ai lëshohet nën një licencë Creative Commons CC BY-NC 4.0, duke i lejuar studiuesit të përsërisin atë.

Së bashku me SeamlessM4T, Meta lëshoi ​​gjithashtu meta të dhënat për të dhënat e saj të hapura të përkthimit SeamlessAlign.

"Ndërtimi i një përkthyesi universal të gjuhës, si Fiktivi Babel Fish në "The Hitchhiker's Guide to the Galaxy", është sfidues sepse sistemet ekzistuese të fjalës në të folur dhe të fjalës në tekst mbulojnë vetëm një pjesë të vogël të gjuhëve të botës," tha Meta.

Udhëzuesi i autostopit Babel Fish, i konceptuar nga autori Douglas Adams, është një peshk që mund ta vendosni në veshin tuaj për të kuptuar menjëherë çdo gjuhë. Nëse jeni një fans i Doctor Who, mund ta krahasoni mjetin e Metës me një matricë përkthimi në TARDIS që kthen edhe fjalët e huaja në anglisht.

Meta tha se SeamlessM4T përfaqëson "një përparim të rëndësishëm" sepse ky model i ri kryen të gjithë detyrën e përkthimit me një hap, ndryshe nga modelet e tjera të mëdha të përkthimit që ndajnë përkthimin nëpër sisteme të ndryshme.

Një nga veçoritë interesante të SeamlessM4T, nëse mund të funksionojë siç duhet, është aftësia e tij e supozuar për të njohur kur një folës është duke ndërruar kodin ose kur dikush lëviz midis dy ose më shumë gjuhëve në një fjali. Për shembull, Meta tregoi në një video se modelja bën menjëherë dallimin midis Hindi, Telugu dhe anglisht. Unë nuk e kam testuar modelin, por shpesh kaloj kodin midis dy gjuhëve të mia amtare (filipinisht dhe anglisht) - siç bëjnë shumica e njerëzve që flasin gjuhë të ndryshme - dhe nga përvoja personale, kjo nuk është diçka që shumica e softuerëve të njohjes së të folurit me AI. shpejt.

SeamlessM4T bazohet në modelet e mëparshme të përkthimit nga Meta. Vitin e kaluar, Meta publikoi modelin e saj të përkthimit me makinë tekst-në-tekst No Language Left Behind, i cili mbështeti 200 gjuhë. Ai zhvilloi SpeechMatrix, një grup të dhënash për përkthim shumëgjuhësh nga fjalimi në të folur dhe Massively Multilingual Speech për njohjen e të folurit. Meta prezantoi përkthyesin e tij Universal të të folurit vitin e kaluar, duke konvertuar Hokkien-in e folur, një gjuhë e përdorur gjerësisht në Kinë që nuk ka një sistem zyrtar shkrimi, në anglisht.

Përkthimi i gjuhës është i rëndësishëm për kompani si Meta, të cilat punësojnë mijëra njerëz për të moderuar një vërshim të postimeve në Facebook dhe Instagram në gjuhë të ndryshme. Shumë shpesh, gjuhët jo kryesore kanë ekipe më të vogla dhe përfundojnë duke u mbështetur në moderimin e automatizuar që funksionon keq me ato gjuhë. AI, nëse i jepet akses në një grup të dhënash të këtyre gjuhëve më të vogla, mund të jetë një mjet për kompanitë si Meta për të përmirësuar moderimin.

Për të ndërtuar SeamlessM4T, Meta tha se ridizajnoi paketën e veglave të modelimit të sekuencës Fairseq për të krijuar modele më të lehta dhe për të trajtuar më shumë informacion.

Gjatë zhvillimit të SeamlessM4T, Meta tha se ndërtoi një sistem që identifikon fjalët toksike ose të ndjeshme. Meta i përcakton fjalët toksike si raste kur "përkthimi mund të nxisë urrejtje, dhunë, fyerje ose abuzim". Qëllimi është të jemi në gjendje të zbulojmë kur përkthimi i daljes paraqet toksicitet që nuk ishte i pranishëm në materialin origjinal.

“Ne filtruam toksicitetin e pabalancuar në të dhënat e stërvitjes. Nëse inputi ose outputi përmbante sasi të ndryshme toksiciteti, ne e hoqëm atë sekuencë stërvitore”, tha Meta.

Studiuesit gjithashtu u përpoqën të pastrojnë grupet e të dhënave që përkthen gabimisht disa fjalë blasfemie, në mënyrë që të zbulojë më saktë se kur përdoret.

Meta pretendon se njeh gjithashtu paragjykimet gjinore në gjuhë dhe tha se modeli mund të përcaktojë paragjykimet gjinore në përkthime. SeamlessM4T mund të kontrollojë nëse fjalia përdor një formë gjinore të një fjale, le të themi doktora në spanjisht, dhe të caktojë një përemër femëror në një gjuhë të synuar pa gramatikë gjinore ekuivalente nëse është e nevojshme. Duke iu afruar në mënyrë të ngjashme me toksicitetin, Meta tha se SeamlessM4T numëron sa herë një përkthim shton fjalë me gjini në terma që nuk ishin specifikuar me gjini në gjuhën origjinale, d.m.th., duke supozuar automatikisht se mjeku është mashkull kur nuk ka dallim gjinor në gjuhën angleze.

Meta ka lëshuar shumë nga modelet e saj të AI për zhvilluesit dhe studiuesit në një mënyrë pak a shumë me burim të hapur. Kohët e fundit ka nxjerrë AudioCraft, kod që lejon gjenerimin e tekstit në tingull. Meta ofroi gjithashtu akses në modelin e saj të madh në gjuhën Llama 2.