Xiaomi áttörése az AI audioértelmezés terén
A Xiaomi legújabb eredményei a mesterséges intelligencia (AI) világában figyelemre méltóak. A cég Big Model csapata új szintre emelte az audioértelmezési technológiát. A legfrissebb modelljük a világ legnagyobb cégeit, például az OpenAI-t és a Google-t is megelőzte egy fontos audioértési teszt során.
Rekordot döntött a Xiaomi
A Xiaomi hivatalos technológiai fiókján bejelentette, hogy a világ legelismertebb MMAU (Massive Multi-Task Audio Understanding and Reasoning) értékelési listáján az első helyet szerezték meg. A modell 64,5%-os pontosságot ért el, míg az OpenAI GPT-4o 57,3%-ot, a Google Gemini 2.0 Flash pedig 55,6%-ot teljesített.
Forradalmi megerősítéses tanulási megközelítés
A Xiaomi kutatói a DeepSeek-R1 nyomdokain haladva kiterjesztették a megerősítéses tanulás algoritmusait multimodális audioértési feladatokra. Ezt mindössze egy hét alatt valósították meg. Az új megközelítés lehetővé teszi, hogy az AI modellek önállóan tanuljanak egy "próba és hiba-jutalom" mechanizmus segítségével. Ez a mechanizmus hasonló a humán gondolkodáshoz és a több lépésből álló ellenőrzéshez.
Dr. Zhang Wei, a projekt vezető kutatója hozzátette: „A megerősítéses tanulás különösen jól kezeli a generálás és az eredmények ellenőrzése közötti nagy szakadékot. Az audioértelmezés pontosan ilyen feladat, ahol az aktív gondolkodás hatékonyabb eredményeket hoz, mint a minták memorizálása.”
Több mint puszta hangfelismerés
A Xiaomi áttörésének köszönhetően az AI most már képes arra, hogy:
- Megállapítsa a járművek esetleges hibáit a pilótafülke felvételeinek elemzésével.
- Kitalálja egy zeneszerző hangulatát zeneművek hallgatása alapján.
- Előre jelezze a ütközési kockázatokat zsúfolt helyeken, például metróállomásokon.
Az MMAU teszt 10 000 audio klipet használ, amelyek beszédtől a környezeti hangokig és zenéig terjednek, emberi annotációval ellátott kérdés-válasz párokkal a 27 készség tesztelésére.
Megkérdőjelezve a hagyományos AI megközelítéseket
A Xiaomi kísérletei meglepő eredményeket hoztak, amelyek megkérdőjelezik a hagyományos AI fejlesztési bölcsességet:
- A megerősítéses tanulás jelentősen felülmúlta a felügyelt tanulást egy mindössze 38 000 elemű adatbázison.
- A 7B paraméteres modelljük bizonyította, hogy jobb érvelési képességgel rendelkezik, mint a 100B+ paraméteres versenytársai.
- A modell explicit érvelési folyamatok generálására kényszerítése valójában 3,4%-kal csökkentette a teljesítményt.
Bár a 64,5%-os pontosság magas, még mindig elmarad a humán szakértők 82,23%-os benchmarkjától, ami azt jelzi, hogy van még hova fejlődni.
Nyílt forráskódú elkötelezettség
A Xiaomi filozófiájához híven, amely az innováció mindenki számára való elérhetőségére épít, a cég nyílt forráskódúvá tette a tréningkódot és a modell paramétereit. Ezzel a cselekedettel lehetőséget ad a fejlesztőknek és kutatóknak világszerte, hogy bővítsék az innovációt.
„Azáltal, hogy megnyitottuk erőfeszítéseinket a globális AI közösség előtt, célunk, hogy felgyorsítsuk az utat az igazi intelligens audioértelmezés felé,” mondta a Xiaomi alapítója és vezérigazgatója, Lei Jun. „Ez egy újabb lépés küldetésünkben, hogy az innovatív technológiát mindenki számára elérhetővé tegyük.”
Ez az áttörés egybeesik azzal, hogy a Xiaomi AI funkciókat vezet be termékportfóliójában, a okostelefonoktól kezdve az IoT intelligens otthoni termékekig, így komoly versenytárssá válik a globális AI kutatási színtéren.
Forrás: IT Home