2022. 11. 11.

[2022-11-11] 오늘의 자연어처리


Local Structure Matters Most in Most Languages


Many recent perturbation studies have found unintuitive results on what does and does not matter when performing Natural Language Understanding (NLU) tasks in English. Coding properties, such as the order of words, can often be removed through shuffling without impacting downstream performances. Such insight may be used to direct future research into English NLP models. As many improvements in multilingual settings consist of wholesale adaptation of English approaches, it is important to verify whether those studies replicate or not in multilingual settings. In this work, we replicate a study on the importance of local structure, and the relative unimportance of global structure, in a multilingual setting. We find that the phenomenon observed on the English language broadly translates to over 120 languages, with a few caveats.


최근의 많은 섭동 연구는 무엇이 하는가에 대한 직관적이지 않은 결과를 발견했다. 그리고 자연어 이해(NLU) 작업을 수행할 때 문제가 되지 않습니다. 영어에서. 단어의 순서와 같은 코딩 특성은 종종 제거될 수 있다. 다운스트림 성능에 영향을 주지 않고 셔플링을 통해. 그런 통찰은 어쩌면 영어 NLP 모델에 대한 향후 연구를 지시하는 데 사용된다. 많은 개선 사항 다국어 환경에서 영어 접근법의 대대적인 적응으로 구성된다. 그 연구들이 복제되는지 아닌지를 검증하는 것은 중요하다. 다국어 설정 이 작업에서, 우리는 의 중요성에 대한 연구를 복제한다. 지역 구조, 그리고 글로벌 구조의 상대적 중요하지 않음, a. 다국어 설정 우리는 영국에서 관찰된 현상을 발견했다. 언어는 대략 120개 이상의 언어로 번역되며, 몇 가지 주의사항이 있다. 



Distribution-based Emotion Recognition in Conversation


Automatic emotion recognition in conversation (ERC) is crucial for emotion-aware conversational artificial intelligence. This paper proposes a distribution-based framework that formulates ERC as a sequence-to-sequence problem for emotion distribution estimation. The inherent ambiguity of emotions and the subjectivity of human perception lead to disagreements in emotion labels, which is handled naturally in our framework from the perspective of uncertainty estimation in emotion distributions. A Bayesian training loss is introduced to improve the uncertainty estimation by conditioning each emotional state on an utterance-specific Dirichlet prior distribution. Experimental results on the IEMOCAP dataset show that ERC outperformed the single-utterance-based system, and the proposed distribution-based ERC methods have not only better classification accuracy, but also show improved uncertainty estimation.


대화의 자동 감정 인식(ERC)은 다음과 같은 경우에 중요하다. 감정 인식 대화식 인공지능 이 논문은 다음을 제안한다. ERC를 시퀀스 투 시퀀스로 공식화하는 배포 기반 프레임워크 감정 분포 추정에 대한 문제. 감정의 본질적인 모호성 그리고 인간 인식의 주관성은 감정의 불일치로 이어진다. 라벨은 우리의 프레임워크에서 자연스럽게 처리된다. 감정 분포의 불확실성 추정 베이지안 훈련 손실은 각각의 감정을 조절함으로써 불확실성 추정을 개선하기 위해 도입되었다. 발성별 디리클레 사전 분포에 대한 상태. 실험 IEMOCAP 데이터 세트에 대한 결과는 ERC가 다음을 능가한다는 것을 보여준다. 단일 발성 기반 시스템 및 제안된 분배 기반 ERC 방법 분류 정확도가 더 높을 뿐만 아니라 향상된 것을 보여준다. 불확실성 추정 



A Method to Judge the Style of Classical Poetry Based on Pre-trained Model


One of the important topics in the research field of Chinese classical poetry is to analyze the poetic style. By examining the relevant works of previous dynasties, researchers judge a poetic style mostly by their subjective feelings, and refer to the previous evaluations that have become a certain conclusion. Although this judgment method is often effective, there may be some errors. This paper builds the most perfect data set of Chinese classical poetry at present, trains a BART-poem pre -trained model on this data set, and puts forward a generally applicable poetry style judgment method based on this BART-poem model, innovatively introduces in-depth learning into the field of computational stylistics, and provides a new research method for the study of classical poetry. This paper attempts to use this method to solve the problem of poetry style identification in the Tang and Song Dynasties, and takes the poetry schools that are considered to have a relatively clear and consistent poetic style, such as the Hongzheng Qizi and Jiajing Qizi, Jiangxi poetic school and Tongguang poetic school, as the research object, and takes the poems of their representative poets for testing. Experiments show that the judgment results of the tested poetry work made by the model are basically consistent with the conclusions given by critics of previous dynasties, verify some avant-garde judgments of Mr. Qian Zhongshu, and better solve the task of poetry style recognition in the Tang and Song dynasties.


중국 고전시 연구 분야의 중요한 주제 중 하나. 시적 양식을 분석하는 것입니다. 이전 관련 작업을 검토함으로써 왕조, 연구자들은 시적 양식을 대부분 주관적으로 판단한다. 감정, 그리고 확실한 것이 된 이전의 평가를 참조하라. 결론. 비록 이 판단 방법이 종종 효과적이긴 하지만, 몇 가지가 있을 수 있다. 오류. 이 논문은 중국 고전시의 가장 완벽한 데이터 세트를 구축한다. 현재, 이 데이터 세트에 대해 BART-poem 사전 훈련된 모델을 훈련시키고, 다음을 넣는다. 이에 입각하여 일반적으로 적용할 수 있는 시풍판단법을 제시하다. BART-poem 모델, 혁신적으로 심층 학습을 다음 분야에 도입합니다. 계산 스타일론, 그리고 연구를 위한 새로운 연구 방법을 제공한다. 고전시 이 논문은 문제를 해결하기 위해 이 방법을 사용하려고 시도한다. 당나라와 송나라의 시 스타일 식별, 그리고 취하기. 비교적 명확하고 일관성이 있다고 여겨지는 시학교. 훙정치제와 자징치제와 같은 시풍, 장시시. 학교와 통광시학교는 연구대상으로 시를 취한다. 그들의 대표적인 시인들의 시험을 위한. 실험은 그 판단이 모델에 의해 만들어진 시험된 시 작업의 결과는 기본적으로 일치한다. 이전 왕조의 비평가들이 내린 결론으로, 몇 가지를 검증하라. 첸중슈씨의 전위적인 판단, 그리고 시의 과제를 더 잘 해결한다. 당나라와 송나라의 양식 인식 



