Header image  
En transkribert database av kringkastede nyhetssendinger for språkteknologiske anvendelser  
line decor
   English | Talegruppa | Kontakt oss
line decor
 
 
 
 

 
 
Om prosjektet

Prosjektets er innsamling av en taledatabase. RUNDKAST er finansiert av Fakultet for informasjonsteknologi, matematikk og elektroteknikk ved NTNU.

 

Mål

Prosjektets hovedmål er å etablere en digital database med lydopptak av nyhetssendinger i radio som er transkribert og merket for språkteknologisk forskning. Databasen vi være en del av en nødvendig infrastruktur for språkteknologisk forskning i Norge og vil inngå i en framtidig Norsk språkbank.

Prosjektsammendrag

Språkteknologi forutsetter tilgang på språkdata i store mengder. En database av kringkastede nyhetssendinger peker seg ut som et rimelig alternativ for de nærmeste år. Den vil kunne avhjelpe den akutte mangelen på taledata for igangværende forskningsaktiviteter. Den vil samtidig kunne være et supplement til eksisterende, men foreløpig ikke tilgjengelige (proprietære) språkdata, og naturlig inngå i en framtidig norsk språkbank. Databaser av kringkastede nyhetssendinger kan benyttes til en rekke typer forskning innen taleteknologi som:

  • Supplement til eksisterende databaser for trening, talertilpasning og testing av talegjenkjenning for manuskriptlest tale
  • Basisdata for forskning på gjenkjenning av spontan tale
  • Database for forskning innen automatisk indeksering av audiodata
  • Database for forskning innen dialekt-, målforms- og språkidentifikasjon
  • Database for forskning på segmentering av opptak med hensyn på tema og/eller taler
  • Skille mellom tale og annen lyd (for eksempel bakgrunnsmusikk)
  • Inngangsbillett til internasjonale forskningsnettverk som forsker på taleteknologi med denne typen databaser

Prosjektet vil bestå av disse hoveddelene: :

  • Etablere avtale med rettighetshavere (NRK, TV2, TV Norge, P4, Kanal 24 osv).
  • Definere standard for merking basert på internasjonale konvensjoner
  • Etablere verktøy for merking og transkripsjon, fortrinnsvis basert på eksisterende verktøy
  • Gjennomføre merking av databasen som inkluderer:
    • Ortografisk transkripsjon
    • Merking av talerskifte
    • Markering av musikk, jingles, bakgrunnsstøy osv.
    • Markering av taletype (f.eks. manuslesing, intervju/dialog, diskusjon, spontan monolog)
  • Båndbredde: Studio-opptak, trådløs link, telefon, satelittelefon
  • Omgivelser: Studio, gate, idrettsarena osv.
  • Målform, språk
  • Validering av opptak og transkripsjon
  • Dokumentasjon og tilgjengeliggjøring

 

 

Sist oppdatert: 14. november, 2006
 

 

Status

Om lag 80 timer taleopptak er transkribert. Transkripsjonen er utført av studenter i 4. og 5. årskurs ved NTNU. Verktøy for transkripsjonen har vært Transcriber 1.5.1. og transrkipsjonsfilene er i XML-format. Database organiseres og kontrolleres nå før den formelle (eksterne) valideringen.Valideringen forventes å være fullført innen utgangen av 2006.

I tillegg til valideringen, planlegger vi å gjennomføre fonemisk annotering av en mindre del av databasen. Den umiddelbare anvendelsen for den fonemis annoterte talen er i forskningsprosjektet SIRKUS.