Нормализирани текстове - паралелен корпус

Този езиков ресурс съдържа редактирани варианти на транскрипции на разговорна реч, които вече са публикувани на bgspeech.net. Графичното, правописното и частичното морфологично обработване на изходните файлове ще улесни както извличането на данни, представящи граматиката и прагматиката на устната реч, така и по-нататъшната им автоматична обработка. Посочените дейностите са част от проекта IST PSO N 271022 CESAR: CEntral and South-East EuropeAn Resources.

На обработка бяха подложени предимно текстове от раздела „Неофициална разговорна реч“, както и две интервюта и един медиен текст от базата данни BgSpeech. Беше запазена оригиналната номерация, така че файл №1 от тази база данни представя обработен вариант на файл №1, публикуван в Ресурси на bgspeech.net, и т.н. Изходните текстове представляват транскрипции, които следват специално разработени системи и инструкции за транскрибиране. Първоначалната обработка на тези файлове беше свързана с отстраняване на различни „шумове“ в текстовете – празни редове, графични и други знаци, свързани с метаданни и под. Получените междинни варианти са представени в дясната колона на таблиците тук, означена условно като Оригинал/Original. Тези текстове са подложени на по-нататъшна обработка по стандартизиране според правописните норми. Крайните продукти от нормативизацията са представени в лявата колона на таблиците тук, означена като Редактиран текст/Edited text. Графичното успоредяване на абзаците в двете колони позволява да се проследят етапите при стандартизирането. Сравнение с изходния ненормативен вариант (транскрипцията) може да се прави чрез преглед на оригиналните файлове.

Метаданните към обработените файлове са обобщени по следния начин:

Подготвеност: спонтанност – всички са с висока степен на спонтанност

Форма на общуването
Монолог – 1
Диалог с двама или повече участници – 2, 4, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 21, 23, 26, 28, 29, 30, 101

Социална дистанция между говорещите
Общуване между познати, приятели, колеги, членове на семейството – 2, 4, 6, 7, 8, 9, 10, 12, 14, 15, 16, 17, 18, 23, 28, 29, 30, 101
Общуване между непознати или между говорещи с различен социален статус – 21, 26

Място на общуването, обстановка
неофициална обстановка, в домашна/битова среда – 2, 4, 6, 8, 9, 10, 12, 11, 14, 15, 16, 23, 28, 29, 30, 101
официална обстановка, в институционализирана среда (медии, работно място) – 1, 17, 21, 26

Тема/теми на общуването
Лични/битови теми – 2, 4, 6, 7, 8, 9, 10, 12, 14, 15, 16, 17, 18, 23, 28, 29, 30, 101
Професионални или обществено значими теми – 21, 26

Същите файлове, а с оцветяване в червено на отклоненията от стандартния правопис
The raw transcripts may be consulted here.
For a version with differences marked in colour click here. Creative Commons License. Contact: bgspeech [at] gmail.com