Отиди на
Форум "Наука"

Българският национален корпус (400 000 000 думи)


Recommended Posts

  • Глобален Модератор

Българският национален корпус е създаден в Института за български език „Проф. Любомир Андрейчин” от сътрудници от Секцията по компютърна лингвистика и Секцията за българска лексикология и лексикография. В него са обединени няколко отделни електронни корпуса, разработени в периода 2001-2009 г. за целите на двете секции.

Българският национален корпус съдържа около 400 000 000 думи и включва над 10 000 текста. Материалите в Корпуса отразяват състоянието на българския език (предимно - в неговата писмена форма) от средата на ХХ в. (1945 г.) до наши дни.

Източниците и начините за набавяне на материалите, включени в Българския национален корпус, са следните:

1. Дарения от издателства и автори.

2. Дигитализиране на печатни текстове чрез сканиране.

3. Извличане на електронни текстове от интернет.

Българският национален корпус дава възможност за редица приложения в различни области на езикознанието:

- в компютърната лингвистика; в лексикографията;

- за теоретични изследвания на определени лингвистични явления;

- за наблюдения върху особеностите на отделни области на езика;

- за извличане на примери за демонстрация при обучението по български език и др.

Ето някои по-конкретни възможни приложения на Корпуса:

- извличане на специални или общи подкорпуси по определени критерии (тематика, автор, година / период на издаване, източник и др.), които да бъдат използвани като тренировъчни корпуси за редица приложения – граматично и семантично тагиране и пр., както и за други изследователски цели.

- наблюдения върху честотата на употреба на думи или езикови конструкции, генериране на честотни списъци и др.

- търсене в Корпуса на примери за определени лингвистични явления с цел лингвистично описание, лексикографско отразяване или с учебна цел в обучението по български език (достъпно за ползване в интернет).

Съдържащите се в корпуса текстове НЕ подлежат на препубликуване, в съгласие с разпоредбите на Закона за авторско право. Те не са достъпни за открито използване, като достъпът до тях е ограничен в рамките на параграфа, в който има срещане на търсена от потребителя дума или съчетание.

Включването на текстовете в Българския национален корпус не нарушава Закона за авторското право, тъй като:

Включването в Корпуса не е преиздаване на текстовете.

Текстовете не се използват с комерсиална цел, а изключително за изследователски и учебни цели.

При използване на Корпуса – търсене в него и др., не се възпроизвеждат текстовете в цялост.

В описанието на Корпуса са включени библиографски данни за автора и изданието (или източника) на текста. При използване на текста тези данни са достъпни.

Съгласно условията за достъп до Корпуса при всяко цитиране в научна разработка или др. на пример от материалите, включени в Корпуса, ползвателят е задължен да посочва като източник Българския национален корпус и да цитира библиографските данни за текста.

В разработването и поддържането на Българския национален корпус участват следните секции и сътрудници:

Секция по компютърна лингвистика

Ръководител: ст.н.с. д-р Светла Коева

Участници: ст.н.с. д-р Тинко Тинчев; н.с. Светлозара Лесева; Ивелина Стоянова; Мария Тодорова; Борислав Ризов; Ангел Генов

Секция за българска лексикология и лексикография

Ръководител: ст.н.с. І ст. дфн Мария Чоролеева

Участници: ст.н.с. д-р Диана Благоева; ст.н.с. д-р Сия Колковска; н.с. Ванина Сумрова

Контакти:

1113 София

бул. Шипченски проход № 52, бл. 17

Институт за български език

Български национален корпус

ст.н.с. д-р Светла Коева svetla@dcl.bas.bg

bgnc@dcl.bas.bg

http://search.dcl.bas.bg/

Link to comment
Share on other sites

  • 12 years later...
  • Потребител

Ние сме директни кредитори и до 100% IPF (международно проектно финансиране). Предоставяме заеми за разширяване на бизнеса, инвестиции в недвижими имоти, строителство и лични заеми при много ниска лихва. За повече информация се свържете с нас само чрез имейл: 

fnncbuddha@gmail.com

Link to comment
Share on other sites

Напиши мнение

Може да публикувате сега и да се регистрирате по-късно. Ако вече имате акаунт, влезте от ТУК , за да публикувате.

Guest
Напиши ново мнение...

×   Pasted as rich text.   Paste as plain text instead

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.

Зареждане...

За нас

"Форум Наука" е онлайн и поддържа научни, исторически и любопитни дискусии с учени, експерти, любители, учители и ученици.

За своята близо двайсет годишна история "Форум Наука" се утвърди като мост между тези, които знаят и тези, които искат да знаят. Всеки ден тук влизат хиляди, които търсят своя отговор.  Форумът е богат да информация и безкрайни дискусии по различни въпроси.

Подкрепи съществуването на форумa - направи дарение:

Дари

 

 

За контакти:

×
×
  • Create New...