Informační systém výzkumu,
vývoje a inovací

Centrální evidence projektů

Jednoduché vyhledávání

Zpět na hledáníGX20-16819X - Porozumění jazyku: od syntaxe k diskurzu (2020-2024, GA0/GX)

Identifikační kód GX20-16819X
Důvěrnost údajů S - Není předmětem státního či obchodního tajemství a data lze v souladu s právními předpisy poskytnout do veřejně přístupných informačních systémů včetně mezinárodních
Název projektu v původním jazyce Porozumění jazyku: od syntaxe k diskurzu
Název projektu anglicky Language Understanding: from Syntax to Discourse
Poskytovatel GA0 - Grantová agentura České republiky (GA ČR)
Program GX - Grantové projekty excelence v základním výzkumu EXPRO  (2019 - 2030)
Kategorie VaV ZV - Základní výzkum
Hlavní vědní obor 60203 - Linguistics
Vedlejší vědní obor -
Další vedlejší vědní obor -
Zahájení řešení 01.01.2020
Ukončení řešení 31.12.2024
Datum posledního uvolnění účelové podpory 01.04.2023
Číslo smlouvy 20-16819X
Poslední stav řešení K - Končící (rok zahájení projektu < rok sběru dat, rok ukončení projektu = roku sběru dat, alespoň po část roku sběru dat čerpá finanční prostředky ze SR)
tis. Kč **
Finance projektu
20202021202220232024celkem
Výše podpory z národních zdrojů8 365 000,0083657 293 098,2072939 770 000,00977011 288 000,001128810 412 000,001041247 128 098,2047128
Výše podpory z veřej. zahraničních zdrojů ***0,0000,0000,0000,0000,0000,000
Celkové uznané náklady8 365 000,0083657 293 098,2072939 770 000,00977011 288 000,001128810 412 000,001041247 128 098,2047128
Typčerpanéčerpanéčerpanéčerpanépřidělené

** Finance v tisících Kč jsou automaticky zaokrouhleny z částky v jednotkách Kč s přesností na 2 desetinná místa
*** Výše podpory z veřejných zahraničních zdrojů je sledována od období sběru 2020

Zobrazit skutečně čerpané finance projektu z národních zdrojů »

Druh soutěže VS - Veřejná soutěž
Veřejná soutěž ve výzkumu, vývoji a inovacích SGA0202000004 - Veřejná soutěž (GA0/GX)
Cíle řešení v původním jazyce V projektu budou vyvinuty a empiricky ověřeny formálně-symbolické, v multilingválním smyslu "univerzální" reprezentace textové komunikace na nadvětné úrovni. Metodologicky a z hlediska vědeckých principů bude projekt vycházet z úspěšného velkého mezinárodního projektu "Universal Dependencies" soustřeďujícího se na úroveň morfologie a syntaxe, ale nově se výzkum zaměří na oblast strukturálně a lexikálně sémantickou, oblast diskurzu a informační struktury, včetně anaforických vztahů. Navržené specifikace budou ověřeny expertní (manuální) anotací na reálných textech a vybrané problémy a jejich řešení budou potvrzeny dalšími experimenty. Výsledné reprezentace budou rovněž použity k budování modelů založených na umělých neuronových sítích pomocí strojového učení a jejich výsledky podrobně analyzovány. Veškeré výstupy (data, publikace) projektu budou zveřejněny v režimu Open Access v repozitářích relevantních výzkumných infrastruktur.
Cíle řešení v anglickém jazyce The project aims at developing and empirically verifying symbolic, formally defined, “universal” (in the multilingual sense) representation of textual communication, at the document (text) level. The project will build on the principles of the successful Universal Dependencies (UD) project in terms of methodology and scientific principles, but it will extend the current UD representation beyond morphology and syntax. The areas to be specified cover compositional and lexical semantics, discourse and information structure (including co-reference). Starting with existing semantic representations covering the above aspects, the new specification will be verified on real texts by (human) expert annotation and selected properties will also be confirmed by human-subject experiments. The resulting representations will be used for building ANN models by Deep Learning methods with properly analyzed results. All output (data, publications) will be published in Open Access mode using existing relevant Research Infrastructures and their repositories.
Klíčová slova v anglickém jazyce linguistics;natural language understanding;formal representation;multilinguality;syntax;discourse;information structure;lexical semantics;language resources;experimental verification
Kontrolní číslo stavu projektu v letech 2020: 190712705 ( v1.0 )
2021: 190720484 ( v1.0 )
2022: 190739858 ( v2.0 )
2023: 190744696 ( v1.0 )
2024: 190754147 ( v1.0 )
Datum dodání posledního záznamu o projektu 19.02.2024
Systémové označení dodávky dat CEP24-GA0-GX-R

Účastníci projektu

Počet příjemců 1
Počet dalších účastníků projektu 0
Příjemce Univerzita Karlova / Matematicko-fyzikální fakulta
RIS ZED - ID Akce Z210301000049 (externí ID: GX2016819X_00216208, agregační ID: Z210301000000, rpd)
Řešitelprof. RNDr. Jan Hajič, Dr. (státní příslušnost: CZ - Česká republika, vedidk: 9997180)

tis. Kč **
Finance účastníků projektuPoznámka: Finance účastníků projektu jsou sledovány od roku 2007, investiční prostředky od roku 2013, prostředky ze zahraničních zdrojů od roku 2020

Celkové uznané náklady20202021202220232024
Univerzita Karlova / Matematicko-fyzikální fakulta8 365 000,0083657 293 098,2072939 770 000,00977011 288 000,001128810 412 000,0010412
Výše podpory z národních zdrojů20202021202220232024
Univerzita Karlova / Matematicko-fyzikální fakulta8 365 000,0083657 293 098,2072939 770 000,00977011 288 000,001128810 412 000,0010412
Výše podpory z veřejných zahraničních zdrojů20202021202220232024
Univerzita Karlova / Matematicko-fyzikální fakulta0,0000,0000,0000,0000,000
Investiční prostředky z podpory ze státního rozpočtu na účastníka v daném roce20202021202220232024
Univerzita Karlova / Matematicko-fyzikální fakulta2 217 000,0022170,0000,000931 000,009310,000

** Finance v tisících Kč jsou automaticky zaokrouhleny z částky v jednotkách Kč s přesností na 2 desetinná místa

Zobrazit skutečně čerpané prostředky z národních zdrojů na účastníka »

Výsledky projektu v RIV

Počet výsledků projektu v RIV celkem 76
Výsledek druhu D RIV/00216208:11320/20:10415122 - Reading Comprehension in Czech via Machine Translation and Cross-lingual Transfer (2020)
Výsledek druhu J RIV/00216208:11320/20:10424334 - Transforming machine translation: a deep learning system reaches news translation quality comparable to human professionals (2020)
Výsledek druhu J RIV/00216208:11320/20:10424340 - Sentence Meaning Representations across Languages: What Can We Learn from Existing Frameworks? (2020)
Výsledek druhu D RIV/00216208:11320/20:10424439 - Overview of the IWPT 2020 Shared Task on Parsing into Enhanced Universal Dependencies (2020)
Výsledek druhu D RIV/00216208:11320/20:10424485 - MRP 2020: The Second Shared Task on Cross-Framework and Cross-Lingual Meaning Representation Parsing (2020)
Výsledek druhu D RIV/00216208:11320/20:10424493 - CUNI English-Czech and English-Polish Systems in WMT20: Robust Document-Level Training (2020)
Výsledek druhu D RIV/00216208:11320/20:10424501 - ÚFAL at MRP 2020: Permutation-invariant Semantic Parsing in PERIN (2020)
Výsledek druhu D RIV/00216208:11320/20:10424502 - UDPipe at EvaLatin 2020: Contextualized Embeddings and Treebank Embeddings (2020)
Výsledek druhu D RIV/00216208:11320/20:10424504 - SynSemClass Linked Lexicon: Mapping Synonymy between Languages (2020)
Výsledek druhu D RIV/00216208:11320/20:10424506 - Syntactic-Semantic Classes of Context-Sensitive Synonyms Based on a Bilingual Corpus (2020)
Výsledek druhu D RIV/00216208:11320/20:10424512 - FGD at MRP 2020: Prague Tectogrammatical Graphs (2020)
Výsledek druhu R RIV/00216208:11320/20:10424544 - IWPT 2020 Shared Task Data and System Outputs (2020)
Výsledek druhu R RIV/00216208:11320/20:10424545 - Deep Universal Dependencies 2.6 (2020)
Výsledek druhu R RIV/00216208:11320/20:10424546 - Prague Dependency Treebank - Consolidated 1.0 (PDT-C 1.0) (2020)
Výsledek druhu R RIV/00216208:11320/20:10424561 - SynSemClass 2.0 (2020)
Výsledek druhu R RIV/00216208:11320/20:10424562 - SynSemClass 3.0 (2020)
Výsledek druhu J RIV/00216208:11320/21:10440426 - Reflexives in the VALLEX Lexicon: Syntactic Reflexivity and Reciprocity (2021)
Výsledek druhu J RIV/00216208:11320/21:10440434 - Diacritics Restoration using BERT with Analysis on Czech language (2021)
Výsledek druhu J RIV/00216208:11320/21:10440440 - Universal Dependencies (2021)
Výsledek druhu J RIV/00216208:11320/21:10440441 - Designing a Uniform Meaning Representation for Natural Language Processing (2021)
Výsledek druhu D RIV/00216208:11320/21:10440527 - From Raw Text to Enhanced Universal Dependencies: the Parsing Shared Task at IWPT 2021 (2021)
Výsledek druhu O RIV/00216208:11320/21:10440528 - SynSemClass for German: Extending a Multilingual Verb Lexicon (2021)
Výsledek druhu D RIV/00216208:11320/21:10440533 - CUNI Systems in WMT21: Revisiting Backtranslation Techniques for English-Czech NMT (2021)
Výsledek druhu D RIV/00216208:11320/21:10440545 - Detecting Post-edited References and Their Effect on Human Evaluation (2021)
Výsledek druhu D RIV/00216208:11320/21:10440565 - Is one head enough? Mention heads in coreference annotations compared with UD-style heads (2021)
Výsledek druhu D RIV/00216208:11320/21:10440568 - Understanding Model Robustness to User-generated Noisy Texts (2021)
Výsledek druhu D RIV/00216208:11320/21:10440572 - Do UD Trees Match Mention Spans in Coreference Annotations? (2021)
Výsledek druhu D RIV/00216208:11320/21:10440588 - Date and Time in Universal Dependencies (2021)
Výsledek druhu D RIV/00216208:11320/21:10440589 - Enhanced Universal Dependencies: The Current State and Outlook (2021)
Výsledek druhu D RIV/00216208:11320/21:10440593 - Neural Machine Translation Quality and Post-Editing Performance (2021)
Výsledek druhu R RIV/00216208:11320/21:10440777 - Deep Universal Dependencies 2.7 (2021)
Výsledek druhu R RIV/00216208:11320/21:10440782 - FAUST cs-en 0.5 (2021)
Výsledek druhu R RIV/00216208:11320/21:10440790 - CorefUD 0.2 (2021)
Výsledek druhu R RIV/00216208:11320/21:10440791 - CorefUD 0.1 (2021)
Výsledek druhu R RIV/00216208:11320/21:10440797 - SynSemClass 3.5 (2021)
Výsledek druhu R RIV/00216208:11320/21:10440800 - IWPT 2021 Shared Task Data and System Outputs (2021)
Výsledek druhu R RIV/00216208:11320/21:10440801 - Deep Universal Dependencies 2.8 (2021)
Výsledek druhu J RIV/00216208:11320/22:10456874 - Reflexives as Part of Verb Lexemes in the VALLEX Lexicon (2022)
Výsledek druhu J RIV/00216208:11320/22:10456875 - Czech Grammar Error Correction with a Large and Diverse Corpus (2022)
Výsledek druhu J RIV/00216208:11320/22:10456876 - L’utilisation des conjonctions comme outil de cohésion textuelle dans le tchèque de locuteurs non-natifs (2022)
Výsledek druhu O RIV/00216208:11320/22:10456904 - Information structure in a formal description of language as reflected in an annotated corpus of Czech (2022)
Výsledek druhu O RIV/00216208:11320/22:10456918 - Attitude in diplomatic speeches: a pilot study (2022)
Výsledek druhu D RIV/00216208:11320/22:10456994 - Advantages of a complex multilayer annotation scheme: The case of the Prague Dependency Treebank (2022)
Výsledek druhu D RIV/00216208:11320/22:10457044 - Quality and Efficiency of Manual Annotation: Pre-annotation Bias (2022)
Výsledek druhu D RIV/00216208:11320/22:10457047 - CorefUD 1.0: Coreference Meets Universal Dependencies (2022)
Výsledek druhu O RIV/00216208:11320/22:10457055 - CUNI Systems for the WMT 22 Czech-Ukrainian Translation Task (2022)
Výsledek druhu O RIV/00216208:11320/22:10457089 - Automated Evaluation Metric for Terminology Consistency in MT (2022)
Výsledek druhu O RIV/00216208:11320/22:10457091 - ÚFAL CorPipe at CRAC 2022: Effectivity of Multilingual Models for Coreference Resolution (2022)
Výsledek druhu D RIV/00216208:11320/22:10457092 - Making a Semantic Event-type Ontology Multilingual (2022)
Výsledek druhu O RIV/00216208:11320/22:10457094 - Findings of the Shared Task on Multilingual Coreference Resolution (2022)
Výsledek druhu R RIV/00216208:11320/22:10457118 - VALLEX 4.5 (2022)
Výsledek druhu R RIV/00216208:11320/22:10457120 - Quality and Efficiency of Manual Annotation: Data from the Pre-annotation Bias Experiment (part of the PDT-C 2.0 project) (2022)
Výsledek druhu R RIV/00216208:11320/22:10457121 - CorefUD 1.0 (2022)
Výsledek druhu R RIV/00216208:11320/22:10457126 - SynSemClass 4.0 (2022)
Výsledek druhu R RIV/00216208:11320/22:10457132 - Self-paced reading experiments on explicit and implicit contrastive and temporal discourse relations in Czech (2022)
Výsledek druhu J RIV/00216208:11320/23:10475675 - Universal Dependencies for Malayalam (2023)
Výsledek druhu J RIV/00216208:11320/23:10475682 - MORPHOSYNTACTIC ANNOTATION IN UNIVERSAL DEPENDENCIES FOR OLD CZECH (2023)
Výsledek druhu D RIV/00216208:11320/23:10475683 - Corpus-Based Multilingual Event-type Ontology: Annotation Tools and Principles (2023)
Výsledek druhu J RIV/00216208:11320/23:10475702 - Ještě k modelování reciprocity v teoretickém popisu češtiny (2023)
Výsledek druhu D RIV/00216208:11320/23:10475724 - Spanish Verbal Synonyms in the SynSemClass Ontology (2023)
Výsledek druhu J RIV/00216208:11320/23:10475732 - A corpus-based study of the semantic distribution of denominal verb formation in English (2023)
Výsledek druhu J RIV/00216208:11320/23:10475740 - Možnosti a meze tvorby tzv. optimálních referenčních překladů: po stopách "překladatelštiny" v profesionálních překladech zpravodajských textů (2023)
Výsledek druhu D RIV/00216208:11320/23:10475855 - Latin Morphology through the Centuries: Ensuring Consistency for Better Language Processing (2023)
Výsledek druhu D RIV/00216208:11320/23:10475873 - Findings of the Second Shared Task on Multilingual Coreference Resolution (2023)
Výsledek druhu D RIV/00216208:11320/23:10475876 - ÚFAL CorPipe at CRAC 2023: Larger Context Improves Multilingual Coreference Resolution (2023)
Výsledek druhu D RIV/00216208:11320/23:10475901 - Linking the Dictionary of Medieval Latin in the Czech Lands to the LiLa Knowledge Base (2023)
Výsledek druhu D RIV/00216208:11320/23:10475902 - Universalising Latin Universal Dependencies: a harmonisation of Latin treebanks in UD (2023)
Výsledek druhu D RIV/00216208:11320/23:10475904 - Findings of the 2023 Conference on Machine Translation (WMT23): LLMs Are Here but Not Quite There Yet (2023)
Výsledek druhu R RIV/00216208:11320/23:10475918 - SynSemClass Search Tool (2023)
Výsledek druhu C RIV/00216208:11320/23:10475959 - Proč má ježek bodliny přilepené k tělu, ale nemá tělo přilepené k bodlinám? K charakteristice inherentně recipročních predikátů (2023)
Výsledek druhu D RIV/00216208:11320/23:10475970 - The Universal Anaphora Scorer 2.0 (2023)
Výsledek druhu D RIV/00216208:11320/23:10476191 - Inherently Reciprocal Predicates - Do They Exist At All? (2023)
Výsledek druhu O RIV/00216208:11320/23:10476214 - Extending an Event-type Ontology: Adding Verbs and Classes using Fine-tuned LLMs Suggestions (2023)
Výsledek druhu R RIV/00216208:11320/23:10476726 - CorefUD 1.1 (2023)
Výsledek druhu R RIV/00216208:11320/23:10476798 - Optimal reference translation of English-Czech WMT2020 (2023)
Výsledek druhu R RIV/00216208:11320/23:10477097 - SynSemClass 5.0 (2023)
Vyhledávání ...