Identifikační kód |
GA23-06796S |
Důvěrnost údajů |
S - Není předmětem státního či obchodního tajemství a data lze v souladu s právními předpisy poskytnout do veřejně přístupných
informačních systémů včetně mezinárodních |
Název projektu v původním jazyce |
Cze-Lex: Kvantifikace českého lexikonu |
Název projektu anglicky |
Cze-Lex: A large-scale quantification of the Czech lexicon |
Poskytovatel |
GA0 - Grantová agentura České republiky (GA ČR) |
Program |
GA - Standardní projekty (1993 - 2050) |
Kategorie VaV |
ZV - Základní výzkum |
Hlavní vědní obor |
50103 - Cognitive sciences |
Vedlejší vědní obor |
- |
Další vedlejší vědní obor |
- |
Zahájení řešení |
01.01.2023 |
Ukončení řešení |
31.12.2025 |
Datum posledního uvolnění účelové podpory |
04.05.2023 |
Číslo smlouvy |
23-06796S |
Poslední stav řešení |
B - Běžící (rok zahájení projektu < rok sběru dat, rok ukončení projektu > rok sběru dat, alespoň po část roku sběru dat čerpá
finanční prostředky ze SR) |
Finance projektu | 2023 | 2024 | 2025 | celkem |
---|
Výše podpory z národních zdrojů | 1 525 000,001525 | 1 761 000,001761 | 2 148 000,002148 | 5 434 000,005434 | Výše podpory z veřej. zahraničních zdrojů *** | 0,000 | 0,000 | 0,000 | 0,000 | Celkové uznané náklady | 1 525 000,001525 | 1 761 000,001761 | 2 148 000,002148 | 5 434 000,005434 | Typ | čerpané | přidělené | plánované | |
** Finance v tisících Kč jsou automaticky zaokrouhleny z částky v jednotkách Kč s přesností na 2 desetinná místa *** Výše podpory z veřejných zahraničních zdrojů je sledována od období sběru 2020
|
Zobrazit skutečně čerpané finance projektu z národních zdrojů »
Skutečně čerpané finance projektu z národních zdrojů | 2023 | 2024 | 2025 | celkem |
---|
Finance | 1 525 000,001525 | 0,000 | 0,000 | 1 525 000,001525 |
|
Druh soutěže |
VS - Veřejná soutěž |
Veřejná soutěž ve výzkumu, vývoji a inovacích |
SGA0202300001 - Veřejná soutěž (GA0/GA) |
Cíle řešení v původním jazyce |
Jak je čeština reprezentována v myslích svých uživatelů? Navrhovaný projekt představuje první rozsáhlou studii, jejímž cílem je kvantifikace psycholingvistických vlastnostní tisíců českých slov. Na základě korpusů různých žánrů a časových období budou odhalovány statistické vlastnosti slov. Přímo od rodilých mluvčích češtiny (z mladší, střední a starší generace) budou získávány normativní hodnocení sémantických vlastností slov. Tyto proměnné pak budou použity ve statistickém modelu zpracování českých slov v různých věkových populacích. Kromě toho pro práci se získanými daty budou využívány modely vnoření slov v češtině (word embedding models). Celkově se bude jednat o první databázi tohoto typu dostupnou pro češtinu. Tato databáze bude následně sloužit lingvistům, psychologům a kognitivním vědcům a na jejím základě bude možné vysuzovat, nakolik se významy slov liší napříč různými generacemi mluvčích. |
Cíle řešení v anglickém jazyce |
How is the Czech lexicon represented in the minds of those who use it? The proposed project will provide the first large-scale study that quantifies the psycholinguistic properties for thousands of Czech words. Using corpora from different genres and time periods, we will uncover the underlying statistical properties of words. From human participants (from diverse age groups - young, middle aged and older adults), we will collect normative ratings of the semantic properties of the words. These variables will then be used to statistically model Czech word processing in the different age populations. Finally, we will use Czech word embedding models to extrapolate new data from our psycholinguistic variables, providing full coverage across the whole Czech lexicon. This will be the first such resource available for Czech, which will aim to open up new research avenues for linguists, psychologists and cognitive scientists and provide novel insights into the way word meanings differ, or remain stable, across different demographic groups. |
Klíčová slova v anglickém jazyce |
psycholinguistics;Czech lexicon;cognition,norming;frequency;AoA;concreteness;imageability;semantics, word embeddings,corpus |
Kontrolní číslo stavu projektu v letech |
2023: 190746384 ( v1.0 ) 2024: 190753972 ( v1.0 ) |
Datum dodání posledního záznamu o projektu |
19.02.2024 |
Systémové označení dodávky dat |
CEP24-GA0-GA-R |