Prosjektsammendrag
Språkteknologi forutsetter tilgang på språkdata i store mengder. En database av kringkastede nyhetssendinger peker seg ut som et rimelig alternativ for de nærmeste år. Den vil kunne avhjelpe den akutte mangelen på taledata for igangværende forskningsaktiviteter. Den vil samtidig kunne være et supplement til eksisterende, men foreløpig ikke tilgjengelige (proprietære) språkdata, og naturlig inngå i en framtidig norsk språkbank. Databaser av kringkastede nyhetssendinger kan benyttes til en rekke typer forskning innen taleteknologi som:
- Supplement til eksisterende databaser for trening, talertilpasning og testing av talegjenkjenning for manuskriptlest tale
- Basisdata for forskning på gjenkjenning av spontan tale
- Database for forskning innen automatisk indeksering av audiodata
- Database for forskning innen dialekt-, målforms- og språkidentifikasjon
- Database for forskning på segmentering av opptak med hensyn på tema og/eller taler
- Skille mellom tale og annen lyd (for eksempel bakgrunnsmusikk)
- Inngangsbillett til internasjonale forskningsnettverk som forsker på taleteknologi med denne typen databaser
Prosjektet vil bestå av disse hoveddelene: :
- Etablere avtale med rettighetshavere (NRK, TV2, TV Norge, P4, Kanal 24 osv).
- Definere standard for merking basert på internasjonale konvensjoner
- Etablere verktøy for merking og transkripsjon, fortrinnsvis basert på eksisterende verktøy
- Gjennomføre merking av databasen som inkluderer:
- Ortografisk transkripsjon
- Merking av talerskifte
- Markering av musikk, jingles, bakgrunnsstøy osv.
- Markering av taletype (f.eks. manuslesing, intervju/dialog, diskusjon, spontan monolog)
- Båndbredde: Studio-opptak, trådløs link, telefon, satelittelefon
- Omgivelser: Studio, gate, idrettsarena osv.
- Målform, språk
- Validering av opptak og transkripsjon
- Dokumentasjon og tilgjengeliggjøring
