A kiváló minőségű adatkészlet nyilvános közzétételével a Facebook azt reméli, hogy a kutatók felgyorsítják a többnyelvű fordítási modellek kidolgozását, mint például az M2M-100, és több nyelven is kifejlesztenek fordítási modelleket, különösen azokban az esetekben, amelyek nem feltétlenül tartalmazzák az angol nyelvet.

- Ország:
- Egyesült Államok
A Facebook nyílt forráskódú FLORES-101 , sok-soknyelvű fordítás összehasonlító adatkészletet 101 nyelvre, hogy letörjék a nyelvi korlátokat, és felhatalmazzák a kutatókat a változatosabb fordítási eszközök létrehozására - mondta a közösségi hálózat óriása pénteken.
A gépi fordítás segít áthidalni a nyelvi korlátokat emberek és információk között. A fordítási rendszerek teljesítményének értékelése azonban nagy kihívást jelentett az AI kutatók számára. FLORES-101 biztosítja a nagyon szükséges nyílt és könnyen hozzáférhető módot a sok-sok fordítási modell teljesítményének kiváló minőségű, megbízható mérésére.
A FLORES-101 lehetővé teszi a kutatók számára, hogy gyorsan teszteljék és javítsák a többnyelvű fordítást olyan modellek, mint az M2M-100. Olyan nyelvekre összpontosít, mint az urdu, amelyek jelenleg nem rendelkeznek kiterjedt adatsorokkal a természetes nyelvfeldolgozási kutatásokhoz.
Ezzel az eszközzel a kutatók először képesek megbízhatóan mérni a fordítások minőségét 10 100 különböző fordítási irányon keresztül, például közvetlenül hindi nyelvről thai vagy szuahéli nyelvre. Az adatkészlet ugyanazt a mondatkészletet tartalmazza minden nyelven, lehetővé téve a kutatók számára, hogy értékeljék a fordítási irányok teljesítményét.
„Emberek milliárdjai, különösen nem angolul beszélők számára a nyelv továbbra is alapvető akadálya az információkhoz való hozzáférésnek és a szabad kommunikációnak más emberekkel. Bár az elmúlt években jelentős előrelépések történtek a gépi fordítás terén, mindkettő atFacebook Az AI Research (FAIR) és máshol egy maroknyi nyelv részesült leginkább ezekből az erőfeszítésekből. Ha a cél az, hogy lebontjuk ezeket a nyelvi korlátokat és közelebb hozzuk egymáshoz az embereket, akkor szélesítenünk kell a látókörünket. ' - írta egy blogbejegyzésben.
A kiváló minőségű adatkészlet nyilvános közzétételével a Facebook reméli, hogy a kutatók felgyorsítják a többnyelvű fordítás munkáját modelleket, mint például az M2M-100, és több nyelven fejlesztenek fordítási modelleket, különösen azokban az esetekben, amelyek nem feltétlenül tartalmazzák az angolt.
Úgy gondolom, hogy a [FLORES] egy igazán izgalmas forrás, amely segít javítani számos nyelv képviseletét a gépi fordítói közösségben
Graham Neubig, a számítástechnikai iskola Carnegie Mellon Egyetem Nyelvtechnikai Intézetének professzora.