За нас

Проектът BgSpeech си поставя за цел поддържането на база данни, представяща актуалното състояние на устните форми на съвременния български език. Благодарение на самоотвержената работа на студенти, докторанти и преподаватели от Катедрата по български език към Факултета по славянски филологии на СУ “Св. Климент Охридски” започна създаването на база данни за българската разговорна реч, която се допълва и обновява. В съществуващата база данни са включени и материали от български диалекти. Базата данни включва транскрипции на ученическа реч, медии, публична реч, политически дискурс, неформална комуникация. Транскрипциите могат да бъдат ползвани за научни и образователни цели. На сайта са достъпни и публикации по проблемите на българската разговорна реч и българските диалекти.

В момента на сайта са достъпни три ресурса - Паралелен корпус, Транскрибирана устна реч и Мултимедиен корпус.

Паралелен корпус
Този езиков ресурс съдържа редактирани варианти на транскрипции на разговорна реч, които вече са достъпни и като индекс. Графичното, правописното и частичното морфологично обработване на изходните файлове улеснява както извличането на данни, представящи граматиката и прагматиката на устната реч, така и по-нататъшната им автоматична обработка. Посочените дейностите са част от проекта IST PSO N 271022 CESAR: CEntral and South-East EuropeAn Resources.

На обработка бяха подложени предимно транскрибирана разговорна реч от периода 2001-2004 г., както и две интервюта и един медиен текст от базата данни BgSpeech. Беше запазена оригиналната номерация на файловете от базата данни. Изходните текстове представляват транскрипции, които следват специално разработени системи и инструкции за транскрибиране. Първоначалната обработка на тези файлове беше свързана с отстраняване на различни „шумове“ в текстовете – празни редове, графични и други знаци, свързани с метаданни и под. Получените междинни варианти са представени в дясната колона на таблиците тук, означена условно като Оригинал/Original. Тези текстове са подложени на по-нататъшна обработка по стандартизиране според правописните норми. Крайните продукти от нормативизацията са представени в лявата колона на таблиците тук, означена като Редактиран текст/Edited text. Графичното успоредяване на абзаците в двете колони позволява да се проследят етапите при стандартизирането. Сравнение с изходния ненормативен вариант (транскрипцията) може да се прави чрез преглед на оригиналните файлове.

Транскрибирана устна реч
Този езиков ресурс съдържа транскрипции на устна реч, включени в базата данни BgSpeech в периода 2004-2012 г. Номерата на файловете посочват годината, в която даден запис е транскрибиран и включен в базата данни. В транскрипциите се отбелязват отклоненията от правоговорната норма, едновременното говорене, паузите, незавършените изказвания и някои паралингвистични елементи. Файловете са обработени според tei-стандарта за кодиране на езикови ресурси. Транскрибираната реч е визуализирана в html формат. Метаданните към файловете, съдържащи информация за говорещите, мястото и времето на записа, както и данните за самата речева ситуация, са достъпни за търсене.

Мултимедиен корпус
Мултимедийният корпус от устна българска реч съдържа записи от автентични диалози, които са транскрибирани според специално разработени системи и инструкции за транскрибиране, като се отчитат някои от спецификите на спонтанната реч. Отбелязват се също невербалните елементи (паузи, шумове, смях и т.н.), както и информацията за поведението на говорещите (мимики и жестове). Транскрипциите и съответните аудиозаписи са синхронизирани с помощта на EXMARaLDA, включително с произволен достъп от текста до съответното място в аудиото (като щракнете на звездичка в сивата лента над текста). Първите четири цифри от номерата на файловете посочват годината, в която даден запис е транскрибиран и включен в корпуса.

Корпусът включва и два текста (2013101 and 2013102), които са синхронизирани със съответния аудио/видеозапис с помощта на наскоро разработени на основата на HTML5 технологии. Най-новите версии на Internet Explorer, Google Chrome и Firefox би трябвало да показват коректно синхронизираните транскрипции. Транскрипциите от Мултимедийния корпус имат две визуализации – като синхронизирана със звукозаписа транскрипция и само като текст.

Търсенето в транскрипциите може да става по дума, както и чрез избор за преглед на транскрипции според определени метаданни.
Публикуваните на сайта ресурси са достъпни свободно за научни и изследователски цели.