Mi a corpus nyelvészet?

Néhány évtizeddel ezelőtt, az automatizálása nyelvtudományi kutatók csak álmodozhattak. A munkát manuálisan végezték, sok diák vett részt benne, nagy hiba valószínű volt "a figyelmetlenség miatt", és ami a legfontosabb - mindez nagyon sok időt vett igénybe.

A számítógépes technológia fejlődése váltlehetséges, hogy végezzen vizsgálatokat a nagyságrenddel gyorsabb, és ma is az egyik legígéretesebb irányba a tanulmány a nyelv korpusznyelvészeti. Fő jellemzője a használata nagy mennyiségű szöveges információk, adatok egy egységes adatbázis, különleges módon, és felhívta a megjelölt szervezet.

Eddig sokan vannakA különböző célú, különféle nyelvi anyagok alapján létrehozott hadtest, amely milliókról több tízmilliárd lexikai egységre terjed ki. Ez az irányzat ígéretesnek tekinthető, és jelentős előrehaladást mutat az alkalmazott és a kutatási célok elérésében. Olyan szakemberek, akik valahogy foglalkoznak a természetes nyelvvel, javasoljuk, hogy ismerkedjen meg a szövegtörzsekkel, legalábbis alapszinttel.

A korpusz nyelvtudomány története

Ennek az iránynak a kialakulása összefügga múlt század 60-as évek elején Brown testének létrehozása az Egyesült Államokban. A szöveggyűjtemény csak 1 millió szóformát tartalmazott, és ma egy ilyen méretű testület teljesen versenyképtelen lenne. Ez nagymértékben a számítástechnikai fejlesztések ütemének, valamint az új kutatási erőforrások iránti növekvő igényeknek tudható be.

A 90-es években kialakult a korpusz nyelvtudományteljes és független tudományágban a szövegek gyűjteményét több tucat nyelvre állították össze és jelölték. Ebben az időszakban például a British National Corps 100 millió felhasználásra készült.

Mivel ez a nyelvtudomány iránya fejlődik,a szövegek mennyisége egyre inkább (és elérheti a több milliárd szókészletet), és az elrendezés egyre sokszínűbb. A mai napig az internetes térben találhatók írásos és beszédes beszédek, többnyelvűek és tanítások, amelyek művészeti vagy tudományos irodalomra orientálódnak, valamint sok más fajta.

Melyek a testek

Az esetek típusai abban az esetben, ha a nyelvészet lehettöbb okból is bemutatják. Intuitíve világos, hogy az osztályozás alapja lehet a szövegek nyelve (orosz, német), a hozzáférés módja (nyílt forráskódú, zárt, kereskedelmi), a forrásanyag műfaja (fikció, dokumentumfilm, tudományos, újságírás).

Érdekes módon a generációa szóbeli beszédet képviselő anyagok. Mivel az ilyen beszéd szándékos felvétele mesterséges feltételeket teremtene a válaszadók számára, és az így nyert anyagot nem lehetett "spontánnak" nevezni, a modern korpusz nyelvtudomány más irányt vett. Az önkéntesnek mikrofonja van, és a nap folyamán minden beszélgetés, amelyben részt vesz, rögzítésre kerül. Természetesen a környező emberek nem tudják, hogy a háztartási beszélgetés során hozzájárulnak a tudomány fejlődéséhez.

Később a kapott hangot a bankban tároljákadatokat és nyomtatott szöveget kell mellékelni az átirata típusának megfelelően. Így válik lehetővé az orális mindennapi beszéd létrehozásának szükségessége.

kérelem

Ahol a nyelv használata lehetséges, szövegmezők is használhatók. A nyelvtudományi módszerek alkalmazásának célja a következő lehet:

Hozzon létre olyan tónus meghatározó programokat, amelyeket aktívan használnak a politikában és az üzleti életben, hogy nyomon kövessék a szavazók és az ügyfelek pozitív és negatív válaszát.
Az információs rendszer kapcsolódása a szótárakhoz és a fordítókhoz a teljesítményük javítása érdekében.
A különböző kutatási feladatok, amelyek hozzájárulnak ahhoz, hogy megértsük a nyelvi egység, a történelem a fejlődés és előrejelzése változások a közeljövőben.
Morfológiai, szintaktikai, szemantikai és egyéb jellemzőkön alapuló információkeresési rendszerek kifejlesztése.
A különböző nyelvi rendszerek munkájának optimalizálása stb.

A házak használata

Az erőforrás-felület hasonló a tipikus keresőmotorhozrendszert, és arra kéri a felhasználót, hogy adjon meg egy szót vagy szavak kombinációját az információs bázis kereséséhez. A pontos kérelem formanyomtatványon kívül a kiterjesztett verziót is használhatja, amely lehetővé teszi szöveges információk keresését szinte minden nyelvi kritériumhoz.

A keresés alapja lehet:

a beszéd egyes csoportjaihoz tartozó;
nyelvtani jelek;
szemantika;
stilisztikai és érzelmi színezés.

Ezenkívül kombinálhatja a keresési feltételeket isszavak sorozatát, például, hogy megtalálja az összes előfordulását az ige jelen időben, egyes szám első személyben, ami után van egy elöljárószó „a” és egy főnév a tárgy. A megoldás, hogy egy ilyen egyszerű feladat a felhasználót néhány másodperc, és csupán néhány egérkattintással a megadott területeken.

Létrehozási folyamat

A keresés önmagában is végrehajtható mind az összes alcsoporton, mind az egyiken, amelyet kifejezetten választanak, attól függően, hogy milyen cél eléréséhez van szükség:

Az első lépés annak meghatározása, hogy mely szövegek fognak beleilletnia héj alapja. Gyakorlati célokból gyakran újságíróknak, újságanyagoknak, internetes kommentároknak. A kutatási projektekben különféle típusú burkolatokat használnak, de a szövegeket bizonyos közös alapok szerint kell kiválasztani.
Az így létrejövő szövegek előfeldolgozásnak vannak alávetve, a hibák kijavításra kerülnek, ha vannak ilyenek, a szöveg bibliográfiai és extra-nyelvi leírása készül.
Minden nem szöveges információ törlődik: a grafika, a képek, a táblák törlődnek.
Van egy válogatott token, amely általában szavakat képvisel, további feldolgozásukhoz.
Végül a kapott elemcsoport morfológiai, szintaktikai és egyéb jelölése valósul meg.

Az elvégzett műveletek eredményeegy szintaktikai struktúra, amelyen felosztott elemek vannak, amelyek mindegyike a beszéd egy része, grammatikai és bizonyos esetekben szemantikai jellemzők.

Nehézségek az épületek létrehozásában

Fontos megérteni, hogy szerezzen házatnem elég sok szót vagy mondatot összeállítani. Egyrészt a szöveggyűjteménynek kiegyensúlyozottnak kell lennie, vagyis bizonyos arányban különböző típusú szövegeket kell képviselnie. Másrészt az eset tartalmát külön jelezni kell.

Az első kérdést megállapodás alapján oldják meg: például a gyűjtemény magában foglalja a 60% az irodalmi szövegeket, 20% dokumentumfilmek egy bizonyos százaléka kap egy írásbeli nyilatkozatot a beszélt nyelv, a jogszabályok, tanulmányok és így tovább. d. A tökéletes recept egyensúlyban szervezet ma nem létezik.

A második kérdés a tartalomjelölésről,nehezebb megoldani. Az automatikus jelöléshez speciális programok és algoritmusok használatosak, de nem adnak 100% -os eredményt, hibákat okozhatnak és kézi módosításokat igényelnek. A probléma megoldásának lehetőségeit és problémáit részletesen ismertetik Zakharov korpusz nyelvészet munkájában.

A szöveg jelölése több szinten történik, amelyeket alább sorolunk fel.

Morfológiai jelölés

Az iskolai padról emlékezünk az orosz nyelvreA beszéd különböző részein vannak, és mindegyiknek saját sajátosságai vannak. Például az ige olyan hangulat és idő kategóriákkal rendelkezik, amelyekhez a főnév nem létezik. Az anyanyelvi hangszóró nem habozik elfojtani a főneveket és az igék konjugátumát, de a kézi munkaerő nem fog működni, hogy 100 millió szóban jelölje meg az ügyet. Minden szükséges műveletet számítógép végezhet, de ehhez tanítani kell.

A morfológiai jelölés szükségesszámítógép „megérteni” minden szó, mint egy bizonyos része a beszéd, amely bizonyos nyelvtani tulajdonságait. Mivel az orosz (és minden más nyelv) működik, számos rendszeres szabályok, akkor lehet építeni egy automatikus eljárást a morfológiai elemzés, befektetés az autó számos algoritmusok. Vannak azonban kivételek a szabály, valamint a különböző bonyolító tényezők. Ennek eredményeként a nettó számítógépes elemzését ma messze nem ideális, és még 4% hiba értéket kapunk 4 millió. A szavak a testület 100 millió. Units igénylő kézi utómunka.

Részletesen ezt a problémát Zakharov VP "Corpus linguistics" írja le.

Szintaktikai jelölés

Parsing vagy elemzésAz eljárás, amely meghatározza a mondatban szereplő szavak viszonyát. Egy sor algoritmus segítségével lehetővé válik a szövegben a téma, predikátum, kiegészítések, különböző beszédfordulók meghatározása. Annak megállapítása, hogy melyik szekvenciák a legfontosabbak és függenek egymástól, hatékonyan kihúzzuk az információt a szövegből és a gépet arra késztetjük, hogy csak a keresési lekérdezésre válaszul érdeklő információkat bocsássanak ki.

Korpusz nyelvészet laboratóriuma az orosz egyetemeken

By the way, a modern keresőmotorok használjákEz az, hogy a megfelelő lekérdezésekre, például "hány kalóriát egy almában", vagy "a moszkvától a pétervértig terjedő távolságot" válaszolva hosszú számok helyett konkrét számokat adjanak ki. Azonban, hogy megértsük még a leírt folyamatnak az alapjait is, meg kell ismerkednünk a "Bevezetés a korpusz nyelvtudományba" vagy más alapvető oktatási segédletekkel.

Szemantikus jelölés

Egy szó szemantikája egyszerű szavakkaljelenti. Széles körben alkalmazható megközelítés a szemantikai elemzése szó forrásmegjelölés címkék, tükrözve a tartozás egy sor szemantikai kategóriák és alkategóriák. Az ilyen információ értékes optimalizálására algoritmusok elemzik szöveget hang, automatikus összegzés és egyéb feladatok módszerek korpusznyelvészeti.

Számos "gyökér" van a fa,amelyek absztrakt szavak, amelyek nagyon széles szemantikával rendelkeznek. Mivel ez a fa ágak, csomópontok alakulnak ki, amelyek egyre inkább specifikus lexikai elemeket tartalmaznak. Például a "lény" szó társítható olyan fogalmakkal, mint az "ember" és az "állat". Az első szót tovább fogják osztani különböző szakmák, rokonsági feltételek, állampolgárság, és a második - osztályok és állatok fajok.

Információkeresési rendszerek alkalmazása

A corpus nyelvészet alkalmazási területeiszámos tevékenységet fed le. Az esetek szótárak összeállítására és kijavítására szolgálnak, automatikus fordítási rendszereket hoznak létre, absztraktokat, tényeket kivonnak, meghatározzák a kulcsot és más szövegszerkesztést.

Emellett ezeket az erőforrásokat aktívan használjáka világ nyelvének tanulmányozása és a nyelv egészének működésének mechanizmusa. A nagy mennyiségű előkészített információhoz való hozzáférés megkönnyíti a nyelvek fejlődésének tendenciáit, a neologizmusok kialakulását és a beszéd beszédének változását, a lexikai egységek értékeinek változását,

Mivel az ilyen nagy volumenű adatokkal való együttműködéshez szükség van az automatizálásra, ma szoros kölcsönhatás van a számítógépes és a corpus nyelvészet között.

Az orosz nyelv nemzeti épülete

Ez az épület (rövidítve az NKRN-hez) számos olyan alcsoportot tartalmaz, amelyek lehetővé teszik az erőforrás felhasználását számos feladat megoldásához.

Az NKRN alapjain található anyagok felosztásra kerülnek:

a 90-es és 2000-es évek médiában való közzétételéről hazai és külföldi;
a szóbeli beszéd rögzítése;
hangsúlyosan megjelölt szövegek (pl.
dialektus beszéd;
költői művek;
szintaktikai jelöléssel ellátott anyagok stb.

Az információs rendszer is alkorpusz párhuzamos művek fordítása oroszról angol, német, francia és sok más nyelven (és fordítva).

Az adatbázisban van egy történelmi szövegrész is,amely írásbeli beszédet képvisel oroszul a fejlesztés különböző időszakaiban. Van egy oktatási épület is, amely hasznos lehet az idegen állampolgárok számára az orosz nyelv elsajátításában.

Az orosz nyelv nemzeti testülete 400 millió lexikai egységet tartalmaz, és sok tekintetben meghaladja Európa nyelvi épületeinek jelentős részét.

kilátások

Az a tény, hogy támogatja ezt az iránytígéretes a corpus nyelvészet laboratóriumainak jelenléte az orosz egyetemeken, valamint a külföldieknél. A vizsgált információs és keresési erőforrások alkalmazásával és kutatásával kapcsolatban a csúcstechnológia, a kérdőíves rendszerek területén bizonyos területek fejlesztése is érintett, de a fentiekben tárgyaltuk.

A korpus nyelvészet továbbfejlesztésejósolt minden szinten, kezdve a műszaki és a végrehajtás tekintetében új algoritmusok, amely optimalizálja a folyamatokat a keresést és az információk feldolgozásával, képessé számítógépek, több RAM, valamint a fogyasztók, mert a felhasználók egyre több és több módon lehet használni ezt a fajta erőforrás a mindennapi élet és a munka .

Végezetül

A múlt század közepén, a 2017-es évbentávoli jövő, amelyben az univerzum és a robotok kiterjedéseivel az űrplánok elősegítik az emberek munkáját. Valójában a tudomány bővelkedik "fehér foltokban", és kétségbeesett kísérleteket tesz arra, hogy megválaszolja azokat a kérdéseket, amelyek évszázadok óta zavarták az emberiséget. A nyelv működésének kérdései tiszteletre méltó helyet foglalnak el, és a korpuszkuláris és a számítógépes nyelvtudás segít nekünk megválaszolni őket.

Nagy adatkészletek feldolgozása lehetővé teszia nem korábban rendelkezésre álló minták kimutatására, bizonyos nyelvi jellemzők fejlődésének előrejelzésére, szinte valós időben történő nyomon követésére.

Gyakorlatilag globális szinten,Például a közérzelem értékelésének egyik lehetséges eszközeként - az internet a valódi felhasználók által létrehozott különböző szövegek folyamatosan bővülő adatbázisa: ezek a megjegyzések, megjegyzések és cikkek, valamint a beszéd egyéb formái.

Ezenkívül a házakkal való munka is hozzájárulugyanazon technikai eszközök fejlesztése, amelyek részt vesznek az információkeresésben, amely ismeretes számunkra a Google vagy a Yandex szolgáltatásai, gépi fordítás, elektronikus szótárak.

Magabiztosan állíthatjuk, hogy a korpusz nyelvtudomány csak az első lépéseket teszi, és a közeljövőben gyorsan fejlődik.

</ p>>