- Microsoft introduceert drie eigen AI-basismodellen voor transcriptie, spraakgeneratie en beeldcreatie om de afhankelijkheid van OpenAI te verminderen.
- MAI-Transcribe-1 ondersteunt 25 talen en werkt ongeveer 2.5 keer sneller dan Microsofts huidige Azure Fast-transcriptieaanbod.
- MAI-Voice-1 kan in ongeveer één seconde 60 seconden aanpasbare audio genereren, terwijl MAI-Image-2 zich richt op geavanceerde beeld- en videogeneratie.
- De modellen kunnen worden geïntegreerd in Microsoft Foundry, MAI Playground, Teams en Azure, met een scherpe prijsstelling en een routekaart naar grootschalige, baanbrekende modellen tegen 2027.

Microsoft zet een duidelijke stap richting grotere autonomie in kunstmatige intelligentie Door drie eigen basismodellen te introduceren, gericht op transcriptie, spraakgeneratie en beeldcreatie, geeft het bedrijf aan dat het een diepere, multimodale AI-stack wil die het volledig in eigen hand heeft, terwijl het tegelijkertijd een nauwe commerciële samenwerking met OpenAI behoudt.
Deze nieuwe systemen, ontwikkeld onder de Microsoft AI/MAI-superintelligentie teams zijn ontworpen om direct aan te sluiten op producten zoals Teams en Azure en ook in interne experimenteerplatformen. In de praktijk legt Microsoft de basis voor een langetermijnstrategie waarbij De eigen modellen dekken een steeds groter deel van de dagelijkse werkzaamheden.waarbij externe modellen, zoals die van OpenAI, worden gereserveerd voor gevallen waarin ze duidelijk en aantoonbaar toegevoegde waarde bieden.
Drie door Microsoft ontwikkelde basismodellen voor transcriptie, spraak en afbeeldingen.
De lancering draait om drie kernmodellen: MAI-Transcribe-1 voor spraak-naar-tekst, MAI-Stem-1 voor tekst-naar-spraak en MAI-Afbeelding-2 voor visuele generatie. Samen vormen ze een eerste, zeer zichtbare laag van een intern systeem. multimodale AI-stack die tekst, audio en afbeeldingen binnen het Microsoft-ecosysteem kan verwerken.
In plaats van uitsluitend te vertrouwen op grote, algemene modellen, zet Microsoft in op taakgerichte systemen die goedkoper en sneller zijn voor veelvoorkomende zakelijke toepassingen. Deze aanpak is met name relevant omdat het aantal Copilot-gebruikers en AI-gestuurde functies in Office, Teams en Azure blijft toenemen, terwijl de kosten anders vrijwel lineair zouden stijgen met het API-gebruik.
Funderingsmodellen Dergelijke modellen worden getraind op grote en diverse datasets, zodat ze later kunnen worden aangepast aan een breed scala aan scenario's. In dit geval betekent dat dat ze alles aandrijven, van transcripties voor callcenters en samenvattingen van vergaderingen tot synthetische stemmen, toegankelijkheidstools en geautomatiseerde processen voor contentcreatie.
MAI-Transcribe-1: snellere, meertalige spraak-naar-tekst voor 25 talen
MAI-Transcribe-1 is Microsofts nieuwe spraak-naar-tekst-engine en een van de centrale onderdelen van deze uitrol. Het model ondersteunt transcriptie in 25 verschillende talen en is intern als referentiepunt gebruikt en komt ongeveer overeen met de werkelijke waarde. 2.5 keer sneller dan het bestaande Azure Fast-transcriptieaanbod van het bedrijf., wat een referentiepunt is geweest in de huidige portefeuille.
Deze prestatieverbetering is belangrijk omdat De werklast van transcriptieprocessen is zeer gevoelig voor latentie.Vooral in realtime scenario's zoals live ondertiteling, klantenservice of hybride vergaderingen. De bredere taalondersteuning sluit ook aan bij de wereldwijde aanwezigheid van Microsoft, waardoor het voor multinationale klanten gemakkelijker wordt om te standaardiseren op één leverancier in plaats van regionale tools te combineren.
Vanuit productoogpunt is Microsoft van plan om MAI-Transcribe-1 rechtstreeks aan te sluiten op Microsoft Teams om transcripties van vergaderingen en live ondertiteling te verwerken. Naar verwachting zal dezelfde engine in de loop der tijd ook in andere productiviteitstools te vinden zijn, zodat Gebruikers ervaren hogere snelheden en lagere kosten zonder dat ze per se een merkverandering opmerken..
De prijsstelling is zeer aantrekkelijk: MAI-Transcribe-1 begint bij ongeveer $0.36 per uur aan bewerkte audioEen prijs die bedoeld is om vergelijkbare aanbiedingen van zowel Google als OpenAI te overtreffen, terwijl het nog steeds draait op de eigen cloudinfrastructuur van Microsoft.
MAI-Voice-1: ultrasnelle tekst-naar-spraak met aangepaste stemmen
Wat betreft de audio-opwekking, MAI-Stem-1 is Microsofts nieuwe model voor tekst omzetten in spraakVolgens het bedrijf kan het ongeveer produceren. 60 seconden audio in ongeveer één seconde verwerkingstijd.Dat is een opmerkelijke sprong voorwaarts voor toepassingen waarbij reactiesnelheid cruciaal is.
Naast pure snelheid is een belangrijke belofte de ondersteuning voor aangepaste, merkgerichte stemmenOrganisaties kunnen stemmen definiëren die aansluiten bij hun identiteit of specifieke toepassingen, van helpdesks en conversationele agenten tot trainingsmateriaal, podcasts en toegankelijkheidsfuncties. Deze mate van controle wordt steeds belangrijker naarmate synthetische spraak gangbaarder wordt en luisteraars hogere eisen stellen aan toon en verstaanbaarheid.
Microsoft richt MAI-Voice-1 specifiek op ontwikkelaars en bedrijven die spraakintensieve producten ontwikkelen: callcenters, in-app assistenten, taalleertools, mediaplatforms of elke andere dienst die schaalbare voice-over nodig heeft. Prijzen vanaf ongeveer $22 per miljoen tekensHet model is ontworpen om financieel haalbaar te zijn, zowel bij kleine als bij zeer grote volumes.
Vanuit infrastructureel oogpunt wordt MAI-Voice-1 aangeboden via Azure API's, Microsoft Foundry en MAI PlaygroundHierdoor kunnen teams snel stemmen testen en vervolgens overstappen naar productie zonder van omgeving te hoeven wisselen. Het idee is om het volledige traject van experimenteren tot implementatie binnen het Microsoft-platform te stroomlijnen.
MAI-Image-2: beeld- en videogeneratie geïntegreerd in de Microsoft-stack.
Het derde model, MAI-Afbeelding-2, focussen op Afbeeldingen (en in sommige beschrijvingen ook video's) genereren op basis van tekstuele aanwijzingen.Hoewel het bedrijf nog niet alle technische details heeft vrijgegeven, positioneert het het model als een visuele tegenhanger van zijn tekst- en audiosystemen, bedoeld om het creëren van marketingmateriaal, productafbeeldingen, storyboards en andere media te automatiseren.
Interessant genoeg verscheen MAI-Image-2 aanvankelijk vrij onopvallend in MAI SpeeltuinMicrosofts experimentele omgeving voor grote modellen werd medio maart al aangekondigd. De huidige aankondiging formaliseert de rol ervan als onderdeel van het bredere Foundry en Azure ecosysteem, waar bedrijven er toegang toe hebben als een standaardcomponent in plaats van als een puur onderzoeksdemonstratie.
De prijsstelling is wederom gericht op concurrentie: het bedrijf noemt een instapprijs van ongeveer $5 per miljoen invoertokens voor tekst en rond $33 per miljoen outputtokens voor gegenereerde afbeeldingenDeze cijfers worden gepresenteerd als gelijkwaardig aan, of zelfs lager dan, vergelijkbare niveaus van concurrerende aanbieders, terwijl ze tegelijkertijd profiteren van Microsofts beveiligings- en compliance-oplossingen voor bedrijven.
De toepassingsmogelijkheden variëren van geautomatiseerde creatieve workflows Van gepersonaliseerde marketingvisuals tot snelle prototyping voor productontwerp. Voor veel klanten die al op Azure zijn overgestapt, is het belangrijkste verkoopargument dat ze kunnen experimenteren met beeldgeneratie zonder een extra externe leverancier in te schakelen.
Integratie tussen Azure, Foundry, MAI Playground en Microsoft 365
Een bepalend aspect van deze lancering is hoe nauw de nieuwe modellen zijn verweven met het bestaande aanbod. De bestaande cloud- en productiviteitsplatformen van MicrosoftAlle drie de systemen – MAI-Transcribe-1, MAI-Voice-1 en MAI-Image-2 – worden uitgerold via Microsoft-gieterij, de omgeving van het bedrijf voor toegang tot en schaalvergroting van funderingsmodellen.
Ontwikkelaars kunnen beginnen met MAI Speeltuinwaarbij dezelfde modellen worden aangeboden in een meer experimentele interface. Deze opzet is bedoeld om de drempel te verlagen voor teams die mogelijkheden zoals transcriptie, synthetische stemmen of visuele generatie willen uitproberen zonder zich direct te hoeven vastleggen op volledige integratie.
Wat de producten betreft, wijst Microsoft nu al naar... Microsoft Teams als een van de eerste begunstigden. MAI-Transcribe-1 zal de transcripties en ondertiteling van vergaderingen verzorgen, terwijl MAI-Voice-1 en MAI-Image-2 naar verwachting in de loop der tijd in verschillende toepassingen zullen verschijnen. Copilot- en Microsoft 365-ervaringenzelfs als eindgebruikers de merknaam van het model niet expliciet zien.
Voor bedrijven is de belofte een één enkele, samenhangende stapel waarbij transcriptie, spraak en afbeeldingen naast taalmodellen, datadiensten en analyses in Azure bestaan. Dat kan de naleving van regelgeving, beveiligingsaudits en leveranciersbeheer vereenvoudigen in vergelijking met het samenvoegen van meerdere externe AI-aanbieders.
Prijsstrategie en concurrentie met OpenAI en Google
Naast technische specificaties legt Microsoft veel nadruk op prijsconcurrentievermogenHet bedrijf presenteert deze modellen openlijk als alternatieven die kunnen concurreren met of zelfs goedkoper zijn dan vergelijkbare aanbiedingen van andere bedrijven. Open AI en Googlemet name voor langdurig gebruik met een hoog volume.
De gepubliceerde prijspunten – $ 0.36 per audio-uur voor MAI-Transcribe-1, $22 per miljoen tekens voor MAI-Voice-1 en de $5 / $33 per miljoen tokens De structuur voor MAI-Image-2 – dit zijn niet zomaar technische details. Ze maken deel uit van een bredere boodschap die Microsoft wil uitdragen: kostenefficiënte, totaaloplossing voor generatieve AI in plaats van slechts een wederverkoper van partnermodellen.
In een markt waar steeds meer organisaties AI integreren in hun dagelijkse werkzaamheden, De kosten per aanvraag kunnen al snel een strategische variabele worden.Door eigen modellen te ontwikkelen, kan Microsoft de afweging tussen rekenkosten, modelcomplexiteit en gebruikersprijs nauwkeurig afstemmen, in plaats van hoge toeslagen te betalen aan externe leveranciers.
Er is ook een signaaleffect: door de eigen benchmarks en prijstabellen te benadrukken, laat Microsoft klanten in feite weten dat ze voor kerntaken zoals transcriptie, spraak en beeldverwerking niet langer hoeven terug te vallen op modellen van derden als ze al gebruikmaken van Azure.
Mustafa Suleyman en de “mensgerichte” AI-visie
De drie nieuwe modellen zijn afkomstig van teams die zijn gegroepeerd onder Microsoft AI/MAI-superintelligentie, geleid door Mustafa SulemanSuleyman, die nu aan het hoofd staat van Microsoft AI, heeft publiekelijk zijn visie uiteengezet, die hij omschrijft als: “humanistische AI” ofwel mensgerichte kunstmatige intelligentie.
In de communicatie van Microsoft rond de lancering benadrukt Suleyman dat deze modellen zijn ontworpen om weerspiegelt hoe mensen daadwerkelijk communiceren., prioriteit geven aan praktische bruikbaarheid en veiligheidHet doel is, zoals hij het zelf zegt, systemen te creëren die minder abstracte onderzoeksprojecten zijn en meer tools die passen in de dagelijkse werkprocessen, zowel op het werk als thuis.
Hij heeft ook gesuggereerd dat het huidige trio van modellen slechts het begin van een breder portfolioMicrosoft is van plan om via Foundry en rechtstreeks in producten extra basismodellen uit te rollen, waarmee de interne mogelijkheden geleidelijk worden uitgebreid van spraak en beeld naar meer modaliteiten en meer gespecialiseerde taken.
Die routekaart onderstreept Microsofts intentie om niet alleen gezien te worden als een platform voor AI van anderen, maar ook als een ontwikkelaar van eigen geavanceerde modellen die naast de aanbiedingen van langdurige partners zoals OpenAI kunnen bestaan.
Een herziene relatie met OpenAI en een doelstelling voor een grensverleggend model in 2027.
Een van de meest delicate aspecten van deze strategie is de relatie ervan met Microsofts spraakmakende samenwerking met OpenAIDe bedrijven blijven nauw met elkaar verbonden: Microsoft heeft meer dan geïnvesteerd $ 13 miljard OpenAI host zijn modellen op Azure en integreert systemen zoals GPT in producten zoals Copilot.
Recente berichten wijzen echter op een heronderhandeling van de relatie Dat geeft Microsoft meer ruimte om parallel aan eigen AI-onderzoek en productlijnen te werken. Suleyman omschrijft deze verschuiving als een natuurlijke evolutie, geen breuk – meer vergelijkbaar met het feit dat het bedrijf een deel van zijn eigen chips ontwerpt, terwijl het nog steeds chips van externe leveranciers inkoopt.
Volgens Bloomberg en andere media streeft Microsoft ernaar om... eigen grootschalige, grensverleggende modellen die naar verwachting rond 2027 operationeel zullen zijn.De onlangs aangekondigde systemen bevinden zich iets vóór die ambitie: ze zijn nog niet gepositioneerd als algemene, geavanceerde taalmodellen, maar eerder als Gespecialiseerde componenten die de afhankelijkheid van partner-API's voor dagelijkse werkzaamheden verminderen..
In de praktijk betekent dit dat Microsoft OpenAI-modellen zoals GPT-5.4 kan blijven gebruiken waar dat zinvol is, terwijl het geleidelijk aan het inwisselen van eigen modellen Overal waar de kosten-prestatieverhouding of strategische overwegingen de voorkeur geven aan interne technologie. Gebruikers merken mogelijk simpelweg dat functies sneller of goedkoper worden naarmate deze overgangen op de achtergrond plaatsvinden.
Voor de bredere AI-markt onderstreept deze dubbele aanpak een duidelijke trend: grote technologiebedrijven zijn op zoek naar een evenwicht tussen samenwerking en zelfredzaamheidZe maken gebruik van allianties om snel te kunnen handelen, maar bouwen tegelijkertijd aan hun eigen capaciteiten om te voorkomen dat ze op de lange termijn afhankelijk worden van één enkele leverancier.
Met deze drie modellen plant Microsoft in feite een vlag: het wil op meerdere niveaus van de AI-stack concurreren – van infrastructuur en tools tot de fundamentele modellen zelf – en tegelijkertijd ruimte laten voor partners zoals OpenAI, waar zij unieke sterke punten inbrengen. Voor klanten zou dat kunnen betekenen meer opties, scherpere prijzen en een geleidelijke verschuiving naar AI-oplossingen met het Microsoft-merk die ten grondslag liggen aan vertrouwde producten en diensten.
