Metodeutvikling for naturtro norsk talesyntese
Sammendrag
Motivasjonen for prosjektet er at dagens tekst-til-talesyntese for
norsk er for dårlig for mange anvendelser. "State-of-the-art"
talesyntese for f. eks engelsk benytter såkalt datadrevet
bølgeformsyntese (engelsk: "unit selection synthesis"). En
viktig egenskap ved denne teknikken er at talestilen i databasen vil
påvirke talestilen og den opplevde "personligheten" i den
syntetiserte talen. Dette gjør det mulig å tilpasse stemme og
"personlighet" til spesielle anvendelser, dialekter etc. Metoden
krever imidlertid innsamling og bearbeiding av store mengder
taledata.
Hovedmålet for prosjektet er å bidra med forskningsresultater og
kunnskap som underlag for å utvikle norsk tekst-til-talesyntese basert
på datadrevet bølgeformsyntese. Prosjektet skal utvikle et sett av
generiske verktøy som kan automatisere prosessen med å lage nye
taledatabaser (stemmer/personligheter) for denne
lydgenereringsmetoden. Verktøyene vil kunne inngå i en ressurssamling
av språkteknologiske verktøy og "halvfabrikata" og for eksempel
distribueres gjennom den planlagte "Norsk språkbank"[2].
Mål
Prosjektet skal bygge opp et rammeverk for syntese av norsk tale med
naturlig talekvalitet basert på sammenskjøting av enheter av variabel
lengde. Prosjektet har følgende hovedmål:
- Lingvistisk modell for prosodi i norsk til bruk i talesyntese
- Prosedyrer for etablering av taledatabaser med talestil tilpasset ulike anvendelser
- En generell syntesemodul for produksjon av naturlig tale basert på enhetsutvelgelse
- En demonstrator med stemmer tilpasset noen ulike anvendelser
- Videreutvikle og bygge opp ny kompetanse innen norsk fonetikk, lingvistikk og taleteknologi for norsk språk (dialekter)
- Utdanne en doktorgradsstudent
- Produsere minst 2 internasjonale publikasjoner årlig.
Motivasjon
Tekst til talesyntese eller talesyntese, er betegnelsen på prosessen
som konverterer vilkårlig tekst til datamaskingenerert
tale. Talesyntese er spesielt nyttig i dataanvendelser som trenger å
kommunisere med brukeren i situasjoner der brukeren ikke har tilgang
til skjerm, f eks i telefontjenester, eller der brukeren har øynene
opptatt med andre oppgaver (f eks kjøre bil).
Noen mulige anvendelser av talesyntese er:
- Dialogsystemer i telefonanvendelser
- e-handel, bestillingstelefoner, bokklubber etc
- Taleportaler
- Opplesning av e-post
- Teksttelefon
- PC-anvendelser – Spesielt nyttig for folk med ulike
funksjonsbegrensninger
- Skjermleser for synshemmede
- Taleprotese
- Korrekturleser på PC
- Støttefunksjon i programvare for lese- og skriveopplæring (jfr. LingDys og MULTIFUNK som har vært støttet av IT Funk)
I en del situasjoner er den syntetiske talen den eneste respons brukene kan få fra systemet. Kvaliteten på talesyntesen er da meget viktig for den opplevde tjenestekvaliteten. Selv tjenester med dårlig talegjenkjenning vil kunne gi en positiv totalopplevelse dersom kunden møter en behagelig stemme. Tilsvarende vil en dårlig stemme kunne trekke ned det subjektive inntrykket av en ellers god tjeneste.
Talebaserte tjenester er ofte bygget opp rundt en assistentmetafor, dvs at brukerne kan forestille seg systemet som en person som hjelper til med å utføre den aktuelle tjenesten. Dette innebærer at brukene har en tendens til å bruke sin erfaring fra menneske-menneske-kommunikasjon som referanse i sin vurdering av slike brukergrensesnitt (antropomorfisme). De fleste systemer for talesyntese er basert på en prosodimodell (modell for setningsmelodi og rytme) som er innrettet på opplesning av informasjonstekster. Når talesyntese benyttes i andre kommunikasjonssituasjoner (f eks dialoger) eller for opplesing av andre typer tekster blir resultatet ofte unaturlig.
Inntil nylig var "state-of-the-art" for tekst-til-talesyntese fortsatt for dårlig til å erstatte naturlig tale i dialogsystemer. De mest vellykkede talebaserte telefontjenestene bruker derfor fortsatt innleste setninger for å oppnå en naturlig interaksjon med brukerne. Forhåndsinnleste setninger gir per definisjon svært naturlig tale, men er en lite fleksibel løsning.
I 2000/2001 kom en ny generasjon talesynteseprodukter1 2som synes å gi nær naturlig talekvalitet og som tilbyr muligheten til å velge "personlighet" og talestil. Grunnlaget for denne forbedringen er såkalt datadrevet bølgeformsyntese.
1 AT&T Natural voices http://www.naturalvoices.att.com/demos/
2 Rhetorical systems http: http://www.rhetoricalsystems.com/cgi-bin/demo1.cgi
Problemstilling
Bakgrunn
Et system for tekst-til-talesyntese (TTS) kan grovt deles inn i to hoveddeler. Den første er en forprosessor som analyserer teksten som skal leses opp, finner hvordan hvert ord skal uttales, hvilke ord som skal trykklegges og hvor det skal være pauser osv. Resultatet er i prinsippet en fonemisk transkripsjon (typisk difoner eller fonemer) med tilhørende annotering som spesifiserer hvordan lydenhetene skal realiseres prosodisk (varighet, grunntone, energi). Den andre hoveddelen er lydgenereringen som omformer symbolstrengen til syntetisk tale. Lydgenereringen er essensiell for at den produserte talen skal ha tilstrekkelig naturlighet og forståelighet.
Talegenerering i talesyntese fikk et kvalitetsmessig løft gjennom introduksjonen av bølgeformsyntese. I bølgeformsyntese er talegenereringen basert på bruk av et "bibliotek" av korte lydenheter, difoner, typisk ett eksemplar av hvert difon. Hvert difon blir lagret som en bølgeformsrepresentasjon av en virkelig, uttalt realisering av difonet. Ved syntesen blir så difonene skjøtet sammen, etter at de er blitt modifisert til å ha en grunntone og varighet som samsvarer med de spesifikasjoner TTS-systemets forprosessor angir etter analyse av teksten. Denne synteseteknikken er mye benyttet i dagens TTS-systemer, for eksempel Telenors Talsmann ® [14].
Difonsyntese ga en kraftig forbedring av naturligheten i forhold til den tidligere formantsyntesen, som genererte tale basert på regler og modeller av taleproduksjon. Den gir likevel ikke en talekvalitet som er i nærheten av å kunne forveksles med menneskelig tale. Det fundamentale skiftet fra regelbaserte systemer til lydgenerering basert på virkelige bølgeformer ga imidlertid opphav til ideer om å utvide det grunnleggende bølgeformsbiblioteket. Et utvidet bibliotek skulle inneholde representasjoner av de grunnleggende lydenhetene for syntese som dekker ulike fonetiske og prosodiske kontekster. På denne måten vil i prinsippet behovet for manipulasjon av de naturlige bølgeformene falle helt bort, eller reduseres kraftig. Siden det er denne manipulasjonen som er opphavet til den viktigste kvalitetsforringelsen i forhold til naturlig tale, vil dette prinsippet ha et potensiale for å gi vesentlig bedre lydkvalitet enn difonsyntese.
Datadrevet bølgeformsyntese (Unit selection synthesis) ble først foreslått i 1988. Idéen er blitt videreutviklet, og har blitt gjenstand for mye utvikling, spesielt de siste fem årene. Datadrevet bølgeformssyntese er betraktet som state-of-the-art innen TTS, og gir til dels svært naturlig syntetisk tale. Men selv om kvaliteten kan være svært god på sitt beste, kan den også være svært dårlig dersom databasen ikke dekker det som skal leses opp. Kvaliteten på databasen og detaljer i implementeringen av systemet er derfor svært viktig for å kunne oppnå jevnt høy syntesekvalitet.
Datadrevet bølgeformsyntese
Utgangspunktet for datadrevet bølgeformsyntese er en stor taledatabase
med et variabelt antall enheter fra en bestemt klasse. Enhetene kan
være foner, difoner, subfonemiske enheter såvel som hele ord og
setninger. Det er mulig å benytte enheter av varierende lengde, men
det blitt mest vanlig å benytte uniforme enheter i den betydning at
enhetene har samme fonetiske størrelse (f.eks. difoner). Målet med
syntesen er å finne en sekvens av enheter fra databasen som er i best
mulig samsvar med en sekvens av målenheter, som er spesifisert av
TTS-systemets forprosessor, og å skjøte dem for å produsere
kontinuerlig tale. For å oppnå naturlig lydende tale må enhetene
velges slik at de kan gi glatte overganger mellom enhetene, uten
diskontinuiteter som vil være perseptuelt sjenerende.
Oppgaven er ikke triviell, og det er rekke forskningsutfordringer som må avklares for å lage en talesyntese basert på denne teknikken. De viktigste er:
- Hvordan skal databasen designes med hensyn på fonetisk og prosodisk innhold for å gi best mulig kvalitet med minst mulig forhåndsinnlest tale?
- Hvilke enheter skal benyttes?
- Hvordan skal databasen merkes?
- Hvilke kostnadsfunksjoner skal defineres for å finne den "beste" enhetssekvensen?
- Skal en tillate en viss grad av signalbehandling for å modifisere enhetene i databasen ved syntese?
- Hvor mye av beregningene kan gjøres på forhånd for å redusere kravene til beregningsmengde?
- Kan databasen komprimeres for å begrense krav til minne/lager ved aktiv syntese?
- Ved syntese produserer TTS-systemets forprosessor prosodiske målverdier som søkes etter i databasen. Skal disse målverdiene være basert på akustisk/fonetiske verdier (for eksempel grunntone, fonemvarighet) eller skal de baseres på mer overordnete fonologiske verdier.
En viktig egenskap ved denne teknikken er at talestilen i databasen vil påvirke talestilen og den opplevde "personligheten" i den syntetiserte talen. Består databasen av oppleste nyhetsmeldinger, vil også den syntetiske talen, uansett tekstlig innhold, låte som en nyhetsmelding. Dette åpner for mange interessante muligheter, for eksempel:
- egne "stemmeprofiler" for bedrifter ("corporate voice"), for eksempel i en sentralbordtjeneste.
- taleprotese for talehemmede, der det vil ha stor betydning å ha en personlig stemme, med riktig kjønn, alder og dialekt
- dialekter, sosiolekter (f eks ungdomsspråk), applikasjonsavhengige talestiler osv.
Metoder for rask utvikling av nye taledatabaser som grunnlag for nye stemmer og nye "personligheter" er derfor et viktig forskningstema innen datadrevet bølgeformsyntese. De første systemene som var basert på datadrevet bølgeformsyntese benyttet i stor grad svært arbeidskrevende (manuelle), og dermed kostbare løsninger for utvikling av nye stemmer. I løpet av de siste fem år er det imidlertid internasjonalt blitt foreslått en rekke metoder som muliggjør en utstrakt grad av automatisering av denne prosessen.
Prosjektforslag
Prosjektet skal utvikle et sett av generiske verktøy for datadrevet bølgeformsyntese for norsk talesyntese. Det vil bli lagt hovedvekt på verktøy som i størst mulig grad kan automatisere prosessen med å lage nye taledatabaser (stemmer/personligheter) for denne lydgenereringsmetoden. Verktøyene vil kunne inngå i en ressurssamling av språkteknologiske verktøy og "halvfabrikata" og for eksempel distribueres gjennom den planlagte Norsk språkbank.
Prosjektet vil bestå av en basisaktivitet og en aktivitet knyttet til de to doktorstipendiatene. En viktig oppgave for basisaktiviteten vil være å sikre kontinuitet, etablere en teknisk infrastruktur som et felles rammeverk for forskningsaktivitetene og frambringe en grunnleggende demonstrator der de ulike forskningsbidragene kan prøves ut og vises fram. I basisaktivitetene vil en begrense seg til å arbeide med østnorske dialekter.
Mål
Prosjektet skal bygge opp et rammeverk for syntese av tale med naturlig talekvalitet basert på sammenskjøting av enheter av variabel lengde. Rammeverket skal inkludere
- Lingvistisk modell for prosodi i norsk for talesyntese
- Prosedyrer for etablering av taledatabaser med talestil tilpasset ulike anvendelser, bl. a. metoder for
- definisjon av manus for innlesing som sikrer fonemisk og prosodisk dekning.
- innlesing/digitalisering/organisering
- automatisk segmentering og prosodisk merking,
- oppbygging av en effektiv taledatabase
- En generell syntesemodul for produksjon av naturlig tale basert på enhetsutvelgelse og en eksisterende forprosessor.
- En demonstrator med 2 stemmer tilpasset en aktuell anvendelse, f eks
- Nyhetsopplesning
- Et menneske-maskin dialogsystem, fortrinnsvis for KUNSTI-prosjektet BRAGE.
Prosjektet skal
- Videreutvikle og bygge opp ny kompetanse innen norsk fonetikk, lingvistikk og taleteknologi for norsk språk ..
- Utdanne en doktorgradsstudent.
- Produsere minst 2 internasjonale publikasjoner årlig.
Prosjektet vil inkludere en betydelig andel grunnleggende forskning, både innen lingvistikk, prosodisk karakterisering av norsk, og talebehandling der teknikker beslektet med talegjenkjenning vil være sentrale, både i enhetsutvelgelsen og i automatisk merking av taledatabaser.
Det vil være naturlig å dele prosjektet i følgende sett av arbeidsoppgaver:
- Lingvistiske modell for østnorsk.
- Enkel forprosessor for norsk talesyntese
- Databasedesign for enhetsutvelgelse
- Referansedatabase
- Utvikling av automatiske merkeverktøy
- Metoder for enhetsutvelgelse.
- Demonstrator bestående av enkel forprosessor og grunnleggende talegenerator.
De enkelte aktivitetene er beskrevet nedenfor. En mer detaljert
arbeidsplan som også forklarer avhengigheten mellom aktivitetene og
angir en tentativ tidsplan er vedlagt prosjektbeskrivelsen.Lingvistisk modell for østnorsk
For å kunne beskrive og annotere taledatabaser for datadrevet bølgeformsyntese må det etableres en lingvistisk modell for beskrivelse av norsk prosodi. I basisprosjektet vil en konsentrere seg om østnorsk der det allerede har et godt utgangspunkt.
Et naturlig startpunkt for dette arbeidet er den såkalte Trondheimsmodellen for intonasjon [16]. Dette er en analysemodell som er etablert ved Lingvistisk Institutt, NTNU. Telenor har benyttet Trondheimsmodellen som grunnlag for en enkel prosodimodell for talesyntese for østnorsk [12].
Internasjonalt er ToBI-systemet3 i utstrakt bruk for prosodisk beskrivelse og annotering. Noe arbeid har vært gjort for å tilpasse ToBI-notasjonen til svensk4. Valg av annoteringskonvensjon må vurderes ut fra hvor egnet den er til den valgte metoden for prosodisk modellering.
Resultatmål for denne aktiviteten vil være:
- Etablere et system for prosodisk merking av østnorsk.
- Etablere verktøy for å prediktere forventet fonemisk realisering av en tekst.
Etablere verktøy for å prediktere forventet prosodisk realisering av en tekst.
3 http://ling.ohio-state.edu/~tobi/
4 http://www.ling.lu.se/persons/Merle/texts/SDS-internal_report.rev_99.html
Databasedesign for enhetsutvelgelse
Design av en optimal taledatabase for enhetsutvelgelse er et av de viktigste forskningstemaene innen datadrevet talesyntese. Det lingvistiske innholdet i databasen må i utgangspunktet være utformet slik at alle de nødvendige fonetiske og prosodiske sammenhenger som man ønsker å gjenskape i syntesen, er representert.
Med utgangspunkt i en beskrivende modell for norsk fonologi og prosodi, må man etablere verktøy for å generere tekster (manus) som definerer et talemateriale med den ønskede fonemiske og prosodiske dekningen.
Utvelgelse av tekst for databasen kan gjøres ved å analysere et tekstkorpus, og å velge setninger som gir god dekning, fonemisk og prosodisk. Dette krever metoder for å beregne sannsynlig fonemisk og prosodisk innhold ved opplesning av teksten.
Resultatmål:
- Etablere verktøy for å definere og etablere tekstkorpora med optimal dekning av fonemisk og prosodisk informasjon i østnorsk.
- Definere et tekstkorpus med definert fonemisk og prosodisk dekning
Referansedatabase
For å kunne validere ytelsen til automatiske merkeverktøy og prosedyrer for databasekonstruksjon, trenger man en kontrollert database som er merket i henhold den modellbeskrivelsen som er etablert.
Etter innlesing må materialet merkes og kontrolleres i henhold til modellen. Materialet kan benyttes både til å validere automatiske metoder for merking av databaser og til å finne ut hvilken detaljeringsgrad (hvilke og hvor mange parametre) som faktisk behøves.
En slik referansedatabase må spesifiseres nøye og kan tenkes å omfatte et utvalg ulike stemmer, dialekter og talestiler.
Deloppgaver:
- Definisjon av fonemisk og prosodisk innhold
- Generering av tekstkorpus (manus)
- Innlesing/digitalisering/organisering av taledata. Her kan det være aktuelt å benytte profesjonelle som f eks skuespillere og nyhetsopplesere.
- Merking/annotering i henhold til en definert lingvistisk modell for norsk
- Ekspertkontroll/verifisering
Resultatmål: Etablere en referansedatabase for evaluering av automatiske merkeverktøy og – prosedyrer.
Utvikling av automatiske merkeverktøy
Arbeid med merkeverktøy kan starte opp med utgangspunkt i Telenors taledatabase PROSDATA [17] og senere evalueres og justeres i forhold til referansedatabasen.
Resultatmål:
- Verktøy for automatisk segmentering på fonemisk nivå
- Verktøy for automatisk merking på prosodisk nivå
Metoder for enhetsutvelgelse/talegenerator
Selv om det internasjonalt er foreslått en rekke varianter av grunnprinsippet med enhetsutvelgelse, og en del av disse metodene inkluderer en stor grad av automatisering, gjenstår det fortsatt en rekke forskningsutfordringer på dette området, som f. eks:
- Valg av kostnadsfunksjoner og avveining mellom kostnadselementer.
- Hvordan håndtere "hull" i databasen
- Databasedesign/organisering av taledatabasen for effektiv søking
- Komprimering av taledatabase
I tillegg må et norsk system for enhetsutvelgelse ta hensyn til de viktigste prosodiske fenomenene i norsk. Tonelag er eksempelvis et spesielt trekk som skiller mange norske dialekter fra andre språk og som det må tas hensyn til, både i enhetsutvelgelsen og i oppbygningen av databaser. Andre fenomener som er viktig å ta med er fokus, betoning og grensetoner (f eks spørring vs utsagn).
Resultatmål: Metoder og verktøy for databasedesign og –bearbeiding, avstemming av kostnadsfunksjoner. Implementering i forskningsprototyp.
Demonstrator/forskningsprototyp
For å kunne evaluere prosjektresultatene i en realistisk sammenheng, vil prosjektet etablerere en forskningsprototyp basert på en eksisterende TTS forprosessor og talegeneratoren som utvikles i prosjektet. Telenors Talsmann vil eksempelvis være disponibel for dette formålet.
Demonstratoren bør inkludere minst to forskjellige stemmer, tilpasset to ulike anvendelser/talestiler, for eksempel en formell stil ( "Nyhetsoppleser") og en ungdomsstil.
Aktiviteten vil omfatte:
- Kjøring av prosedyre for databasegenerering for to valgte talestiler
- Etablere rammeverk for testing av syntesemoduler i sammenheng fra tekst til tale bestående av:
- Enkel forprosessor
- Grunnleggende talegenerator
- Demonstrere talesyntese med ulike talestiler/stemmer basert på de genererte databasene
Resultatmål: Fungerende demonstrator med minst to forskjellige talestiler/stemmer.
Doktorgradsoppgaver
Prosjektet vil ha en doktorgradsstipendiat. Prosjektet vil finansiere 3 år av stipendet. I tillegg er det mulighet for at NTNU kan finansiere et fjerde år, der stipendiaten vil bli pålagt arbeidsoppgaver ved instituttet han/hun er tilknyttet. Tema for avhandlingen vil bli valgt ut fra sentrale emner innen prosjektet og søkernes kvalifikasjoner og interesser.
Aktuelle emner er:
- Modellering og implementering av enhetsutvelgelsessyntese for en alternativ dialekt f eks en vestnorsk høytone dialekt
- Enhetsutvelgelse basert på kombinerte fonemiske og prosodiske kriterier
- Søk og klynging i enhetsutvelgelse
Formidling
Prosjektet har som mål å produsere minst 2 internasjonale publikasjoner pr år. Vi vil i tillegg publisere resultater fra prosjektet på nordiske og nasjonale fagmøter.
Det vil bli lagt vekt på å formidle resultater fra prosjektet og generell informasjon om talesyntese til potensielle brukergrupper nasjonalt. Dette gjelder både bedrifter som kan tenkes å bruke resultater fra prosjektet i egne produkter, og sluttbrukere. Spesielt vil vi vektlegge informasjon til funksjonshemmedes organisasjoner.
Det antas at resultater fra dette prosjektet vil kunne utnyttes av kommersielle aktører på TTS-markedet til å levere state-of-the art talesynteseteknologi på norsk (NST/IBM, LingIT, AT&T, Babel/Infovox, Telenor). Resultater kan formidles via den planlagte Norsk språkbank. Forskningsrådet/Språkbanken bør etablere en policy for hvordan kommersielle aktører kan få tilgang til resultater og ressurser fra prosjektet.
Organisering
Prosjektet vil være delt i to hoveddeler. I basisaktiviteten
hovedmålet å frambringe grunnleggende verktøy og kunnskap, samt å
utvikle en basis demonstrator. I tillegg vil det være en mer
langsiktig forskningsaktivitet som er sentrert rundt
doktorgradsprosjektet. En forventer at doktorgradsstipendiaten vil
komme på plass medio 2003. For å sikre at basisprosjektet får en
gjennomgående, kontinuerlig aktivitet ved NTNU, og for å støtte opp
under den langsiktige forskningsaktiviteten vil vi ha en
postdoc/forsker-stilling i tre år fra medio 2003. Dette vil, sammen
med frikjøp av 25% av prosjektleders stilling og Telenors forskere
representere en kontinuitet i prosjektet som også er viktig for å
ferdigstille verktøyene som prosjektet skal produsere, og for
utvikling av demonstratoren.
Deltakere, relevant bakgrunn og tilstøtende prosjekter
Deltakere
Prosjektforslaget er basert på et samarbeid mellom NTNU og Telenor FoU.
Sentrale personer i prosjektet vil være:
Professor Torbjørn Svendsen, Institutt for teleteknikk, NTNU
Professor Torbjørn Nordgård, Lingvistisk institutt, NTNU
Seniorforsker Jon Emil Natvig, Telenor FoU
Relevant bakgrunn
NTNU
Ved NTNU har en utdannet over 10 dr.grads studenter og over 100
sivilingeniører/cand scient’er innen taleteknologi. Per juni 2002 er 5
dr.grads studenter i ferd med utdanningen.
NTNU har utført/utfører forskningsprosjekter innen taleteknologi både i regi av NFR (eksempelvis SPODIS NORKompLeks [1]) i egen regi (TABOR [3] KIKS [4] MOBEL [5]) og på oppdrag for industri (ofte i samarbeid med SINTEF). NTNU har videre vært ansvarlig for en rapport på oppdrag fra NFR som kommer med anbefalinger og beskrivelser av innholdet i ’Norsk språkbank’ [2], og leder nå et nytt utredningsarbeid om dette på oppdrag fra Kirke- og kulturdepartementet.
Videre har NTNU deltatt/deltar i flere taleteknologi-baserte EU-prosjekter (SAM [6] COST249 [7] COST278 [8] SpeechDat [9])
Telenor FoU
Telenor FoU [10] er det største FoU-miljøet innen taleteknologi i Norge, og har hele tiden samarbeidet tett med forskningsmiljøet på NTNU. Telenor FoU fokuserer særlig på automatisering av eksisterende og utvikling av nye teletjenester basert på taleteknologi (syntese og gjenkjenning).
Telenor FoU har over en lang periode forsket på norsk talesyntese. Dette har resultert i produktet Talsmann ®, som konverterer vanlig norsk tekst til forståelig og relativt naturlig tale. Talsmann er utviklet for bruk i Telenors egne telefontjenester og har ikke vært tilgjengelig eksternt. En videreutvikling av Talsmann for bruk i lese- og skriveopplæring pågår i det NFR finansierte prosjektet "Forbedring av talesyntese basert på Telenor Talsmann" [15].
Telenor FoU har i de senere årene gjennomført større forskningsprosjekter innen dialogsystemer (TABU2000 [11]) og talesyntese (PROSIT [12]). I EU-sammenheng har en både vært ansvarlig for den norske delen av SpeechDat [9] samt deltakelse i COST-prosjekter (sammen med NTNU). Videre satser Telenor FoU både internt og internasjonalt (MUST [13]) på multimodale grensesnitt (inkludert tale) for mobile håndholdte terminaler.
Internasjonalt samarbeid/kontakt
Telenor har tidligere deltatt i COST action 258 "The Naturalness of
Synthetic Speech ". Dette prosjektet er nå avsluttet, men en
etterfølger, "Multilingual Adaptation and Application of Speech
Technology for European Resources (MAASTER)" er under
planlegging. P rosjektet planlegger å knytte seg til denne nye
COST-aktiviteten.
NTNU er deltaker i ERCIM, og dette miljøet er knyttet til
arbeidsgruppen "User Intefaces for all". Vi planlegger å utnytte denne
kontakten i prosjektet. Arbeidsgruppen i ERCIM har sendt inn en
Expression of Interest til EUs 6. rammeprogram for et Network of
Excellence under tittelen: "Intelligent Environments of Use"
Vi har også kontakt med talesyntesegruppen ved AT&T Labs og planlegger
å utnytte denne kontakten til informasjonsutveksling og eventuelle
forskningsopphold for doktorgradsstipendiater.
Kontakt med andre prosjekter
Miljøene bak søknaden samarbeider allerede om KUNSTI-prosjektet BRAGE - " Brukergrensesnitt med naturlig tale", som ble godkjent i første utlysingsrunde. En ser derfor for seg naturlige synergier mellom disse prosjektene både på det faglige plan og ved at en høykvalitets talesyntese vil være en aktuell komponent i demonstratoren som planlegges i "Brukergrensesnitt med naturlig tale".
MOBEL står for "Mobil Elektronisk Pasientjournal" og er et NTNU-drevet prosjekt i regi av Næringslivets Idéfond for NTNU. Et nøkkelpunkt i MOBEL er å skape et tale-brukergrensesnitt i den håndholdte terminalen som gir brukeren (legen) anledning til å ha øyne og hender fri til andre oppgaver, samtidig som det er mulig å være mobil. Prosjektaktiviteten er nå fokusert mot talegjenkjenning. Høykvalitets talesyntese vil komplettere brukergrensesnittet.
Referanser
[1] NORKompLeks : http://pan.hf.ntnu.no/nkl_info/
[2] Norsk språkbank : http://www.tele.ntnu.no/users/svendsen/korpus/index.html
[3] TABOR : http://www.tele.ntnu.no/projects/tabor/indexe.html
[4] KIKS : http://www.itk.ntnu.no/KIKS/
[5] MOBEL : http://mobel.digimed.no/
[6] SAM : http://www.phon.ucl.ac.uk/resource/eurom.html
[7] COST249 : http://www.elis.rug.ac.be/ELISgroups/speech/cost249/
[8] COST278 : http://cost278.org/pages/aboutcost278.html
[9] SpeechDat : http://www.telenor.no/fou/prosjekter/taletek/speechdat/
[10] Telenor FoU : http://www.telenor.no/fou/prosjekter/taletek/
[11] TABU2000 : http://www.telenor.no/fou/prosjekter/taletek/tabu2000/
[12] PROSIT : http://www.telenor.no/fou/prosjekter/taletek/prosit/
[13] MUST : http://www.eurescom.de/public/projects/P1100-series/P1104/default.asp
[14] Talsmann: http://www.telenor.no/fou/prosjekter/taletek/talsmann/
[15] Talsmann forbedring: http://www.itfunk.org/docs/prosjekter/ftbtt.htm
[16] Trondheimsmodellen: Fretheim, T.1991. Intonational phrases and syntactic focus domains. In J. Verschueren (Ed.) Levels of linguistic adaptation. Amsterdam: John Benjamins, 81-112
[17] PROSDATA: Natvig, J. E., Heggtveit, P.O. (2000), Prosdata version 2.0. A speech database for study of Norwegian prosody, R&D N 20/2000.
|