A Facebook nyilvánosan hozzáférhetővé teszi a FLORES-101 adatkészletet a nyelvi korlátok áttörése érdekében

A kiváló minőségű adatkészlet nyilvános közzétételével a Facebook azt reméli, hogy a kutatók felgyorsítják a többnyelvű fordítási modellek kidolgozását, mint például az M2M-100, és több nyelven is kifejlesztenek fordítási modelleket, különösen azokban az esetekben, amelyek nem feltétlenül tartalmazzák az angol nyelvet.


A FLORES-101 lehetővé teszi a kutatók számára, hogy gyorsan teszteljék és javítsák az olyan többnyelvű fordítási modelleket, mint az M2M-100. Olyan nyelvekre összpontosít, mint az urdu, amelyek jelenleg nem rendelkeznek kiterjedt adatsorokkal a természetes nyelvfeldolgozási kutatásokhoz. Kép jóváírása: ANI
  • Ország:
  • Egyesült Államok

A Facebook nyílt forráskódú FLORES-101 , sok-soknyelvű fordítás összehasonlító adatkészletet 101 nyelvre, hogy letörjék a nyelvi korlátokat, és felhatalmazzák a kutatókat a változatosabb fordítási eszközök létrehozására - mondta a közösségi hálózat óriása pénteken.



A gépi fordítás segít áthidalni a nyelvi korlátokat emberek és információk között. A fordítási rendszerek teljesítményének értékelése azonban nagy kihívást jelentett az AI kutatók számára. FLORES-101 biztosítja a nagyon szükséges nyílt és könnyen hozzáférhető módot a sok-sok fordítási modell teljesítményének kiváló minőségű, megbízható mérésére.

A FLORES-101 lehetővé teszi a kutatók számára, hogy gyorsan teszteljék és javítsák a többnyelvű fordítást olyan modellek, mint az M2M-100. Olyan nyelvekre összpontosít, mint az urdu, amelyek jelenleg nem rendelkeznek kiterjedt adatsorokkal a természetes nyelvfeldolgozási kutatásokhoz.





Ezzel az eszközzel a kutatók először képesek megbízhatóan mérni a fordítások minőségét 10 100 különböző fordítási irányon keresztül, például közvetlenül hindi nyelvről thai vagy szuahéli nyelvre. Az adatkészlet ugyanazt a mondatkészletet tartalmazza minden nyelven, lehetővé téve a kutatók számára, hogy értékeljék a fordítási irányok teljesítményét.

„Emberek milliárdjai, különösen nem angolul beszélők számára a nyelv továbbra is alapvető akadálya az információkhoz való hozzáférésnek és a szabad kommunikációnak más emberekkel. Bár az elmúlt években jelentős előrelépések történtek a gépi fordítás terén, mindkettő atFacebook Az AI Research (FAIR) és máshol egy maroknyi nyelv részesült leginkább ezekből az erőfeszítésekből. Ha a cél az, hogy lebontjuk ezeket a nyelvi korlátokat és közelebb hozzuk egymáshoz az embereket, akkor szélesítenünk kell a látókörünket. ' - írta egy blogbejegyzésben.



A kiváló minőségű adatkészlet nyilvános közzétételével a Facebook reméli, hogy a kutatók felgyorsítják a többnyelvű fordítás munkáját modelleket, mint például az M2M-100, és több nyelven fejlesztenek fordítási modelleket, különösen azokban az esetekben, amelyek nem feltétlenül tartalmazzák az angolt.

Úgy gondolom, hogy a [FLORES] egy igazán izgalmas forrás, amely segít javítani számos nyelv képviseletét a gépi fordítói közösségben

Graham Neubig, a számítástechnikai iskola Carnegie Mellon Egyetem Nyelvtechnikai Intézetének professzora.