Oneulog

0. Abstract자연어 이해는 텍스트 수반, 질문 답변, 의미적 유사성 평가와 문서 분류와 같은 매우 다양한 task로 구성된다. 대규모의 라벨링되지 않은 텍스트 코퍼스는 풍부하지만, 특정 task를 학습하기 위한 라벨링된 데이터가 부족해, 차별적으로 학습된 모델이 적절한 성능을 발휘하기가 어렵다. 본 논문은 라벨이 없는 다양한 텍스트 코퍼스에 대해 언어 모델을 생성적으로 학습한 다음 각 특정 작업에 대해 차별적으로 fine-tuning하면 이러한 작업에서 큰 이득을 얻을 수 있음을 입증한다. 이전 접근 방식과 달리 fine-tuning 중에 task-aware input transformations을 사용해 모델 아키텍처를 최소한으로 변경하면서 효과적인 transfer를 달성한다. 자연어 이해에 대..
0. ABSTRACT본 논문은 speaker diarization을 위해 python에서 작성된 open-source toolkit인 pyannote.audio를 소개한다. PyTorch 머신 러닝 프레임워크를 기반으로 하는 이 도구는 speaker diarization pipelines를 구축하기 위해 결합하고 공동으로 최적화할 수 있는 일련의 훈련 가능한 end-to-end neural building blocks을 제공한다. 또한 pyannote.audio에는 음성 활동 감지, 화자 변경 감지, 화자 임베딩 등 광범위한 도메인에 대한 pre-trained model이 포함되어 있으며 대부분의 도메인에서 최첨단 성능을 발휘한다. 1. INTRODUCTIONspeaker diarization은 화자 별..
https://www.acmicpc.net/problem/2589문제보물섬 지도를 발견한 후크 선장은 보물을 찾아나섰다. 보물섬 지도는 아래 그림과 같이 직사각형 모양이며 여러 칸으로 나뉘어져 있다. 각 칸은 육지(L)나 바다(W)로 표시되어 있다. 이 지도에서 이동은 상하좌우로 이웃한 육지로만 가능하며, 한 칸 이동하는데 한 시간이 걸린다. 보물은 서로 간에 최단 거리로 이동하는데 있어 가장 긴 시간이 걸리는 육지 두 곳에 나뉘어 묻혀있다. 육지를 나타내는 두 곳 사이를 최단 거리로 이동하려면 같은 곳을 두 번 이상 지나가거나, 멀리 돌아가서는 안 된다.예를 들어 위와 같이 지도가 주어졌다면 보물은 아래 표시된 두 곳에 묻혀 있게 되고, 이 둘 사이의 최단 거리로 이동하는 시간은 8시간이 된다.보물 지..
0. Abstract본 논문은 sequence-to-sequence 모델을 사전학습하기 위한 denoising autoencoder인 BART를 소개한다. BART는 임의의 noising 함수를 사용해 텍스트를 손상시키고 모델이 원본 텍스트를 재구성하도록 학습되었다. BART는 표준 Transformer 기반 신경망 기계 번역 아키텍처를 사용하는데, 이는 간단함에도 불구하고 BERT(양방향 인코더 사용), GPT(좌우 디코더 사용) 및 기타 여러 최신 사전 학습 방식을 일반화한 것으로 볼 수 있다. 본 논문에서는 원래 문장의 순서를 무작위로 섞고 텍스트 범위를 단일 마스크 토큰으로 대체하는 새로운 infilling scheme를 사용해 여러 noise 처리 방법을 평가하여 최상의 성능을 찾았다. BART..
https://www.acmicpc.net/problem/9024문제여러 개의 서로 다른 정수 S = {a1, a2, …, an} 와 또 다른 정수 K 가 주어졌을 때, S 에 속하는 서로 다른 두 개의 정수의 합이 K 에 가장 가까운 두 정수를 구하시오. 예를 들어, 10 개의 정수S = { -7, 9, 2, -4, 12, 1, 5, -3, -2, 0}가 주어졌을 때, K = 8 에 그 합이 가장 가까운 두 정수는 {12, -4} 이다. 또한 K = 4 에 그 합이 가장 가까운 두 정수는 {-7, 12}, {9, -4}, {5, -2}, {5, 0}, {1, 2} 등의 다섯 종류가 있다.여러 개의 서로 다른 정수가 주어졌을 때, 주어진 정수들 중에서 서로 다른 두 정수의 합이 주어진 또 다른 정수에 가..
https://www.acmicpc.net/problem/14921문제홍익대 화학연구소는 다양한 용액을 보유하고 있다. 각 용액은 -100,000,000부터 100,000,000사이의 특성 값을 갖는데,같은 양의 두 용액을 혼합하면, 그 특성값은 두 용액의 특성값의 합이 된다.당신은 두 용액을 혼합하여 특성값이 0에 가장 가까운 용액을 만들려고 하는데, 각 용액은 10ml시험관에 10ml씩 들어있고, 빈 20ml 시험관이 단 하나 있다. 게다가 용액을 계량할 수 없어서, 두 용액을 섞을 때는 10ml씩 섞어서 20ml로 만드는데, 단 한번밖에 할 수 없다. 그래서 미리 용액의 특성값들을 보고, 어떤 두 용액을 섞을 것인지 정해야 한다.예를 들어, 연구소에 있는 용액들의 특성값이 [-101, -3, -1,..
https://www.acmicpc.net/problem/2468문제재난방재청에서는 많은 비가 내리는 장마철에 대비해서 다음과 같은 일을 계획하고 있다. 먼저 어떤 지역의 높이 정보를 파악한다. 그 다음에 그 지역에 많은 비가 내렸을 때 물에 잠기지 않는 안전한 영역이 최대로 몇 개가 만들어 지는 지를 조사하려고 한다. 이때, 문제를 간단하게 하기 위하여, 장마철에 내리는 비의 양에 따라 일정한 높이 이하의 모든 지점은 물에 잠긴다고 가정한다.어떤 지역의 높이 정보는 행과 열의 크기가 각각 N인 2차원 배열 형태로 주어지며 배열의 각 원소는 해당 지점의 높이를 표시하는 자연수이다. 예를 들어, 다음은 N=5인 지역의 높이 정보이다.이제 위와 같은 지역에 많은 비가 내려서 높이가 4 이하인 모든 지점이 물..
https://www.codetree.ai/training-field/frequent-problems/problems/tree-kill-all/description?page=4&pageSize=5 코드트리 | 코딩테스트 준비를 위한 알고리즘 정석국가대표가 만든 코딩 공부의 가이드북 코딩 왕초보부터 꿈의 직장 코테 합격까지, 국가대표가 엄선한 커리큘럼으로 준비해보세요.www.codetree.ai문제n * n 격자에 나무의 그루 수와 벽의 정보가 주어집니다.나무의 성장과 번식력이 좋아서 제초제를 뿌려 나무의 성장을 억제하고자 합니다. 제초제의 경우 k의 범위만큼 대각선으로 퍼지며, 벽이 있는 경우 가로막혀서 전파되지 않습니다. 다음과 같이 초기 조건이 주어진다고 가정할 때, 1년동안 나무의 성장과 억제는 다..
NLP Developer
Oneul