문장 작성 가이드라인
좋은 문장은 어떤 문장인가?
Last updated
좋은 문장은 어떤 문장인가?
Last updated
Specific 문장은 주어진 주제(topic)와 같은 의도의 내용을 더 상세하게 설명한다. 구체 문장은 행동, 환경, 문장의 중심이 되는 목적어를 수식하는 내용을 추가하여 만들 수 있다. 주로 구체 문장은 주어진 주제문장과 비교하였을 때 긴 경우가 많다. 한국어의 경우 동의어를 사용한 문장또한 구체문장으로 취급한다.
단어 단위의 변경으로 구체문장을 만들 경우, 해당 단어가 주제 문장에 쓰인 단어의 하위어(의미가 더 좁아지는 단어)일 때 구체 문장으로 취급한다.
의미론적 기준: 발화 생성을 더 쉽게 하기 위해, 주어진 주제 문장에 자세한 사항을 더하는 것으로 문장을 만들 수 있다. 문장이 더 자세한 내용을 포함하면 구체 문장으로 처리한다.
문형 기준 : 주어진 주제 문장과 문법적으로 다른 문장을 사용해서도 구체 문장을 만들 수 있다. 만약 주어진 문장보다 같거나 더 많은 실질형태소(상태, 동작을 나타내는 형태소; 명사, 동사, 형용사, 부사가 이에 속한다.)를 가지고 문법적으로 다른 형태를 취할 때 해당 문장은 구체 문장으로 처리한다.
* 밑줄은 주어진 주제 문장을 수식하는 내용 또는 동사를 치환한 것이다. 이는 문장을 더욱 구체적으로 설명한다.
한가지 주의할 점은 같은 문장의 형태가 반복되는 것을 피해야한다는 것이다. 다음 예시를 보자
✘ 전자렌지 방문 설치 서비스가 있나요? / 냉장고 방문 설치 서비스가 있나요? (명사의 종류를 반복) ✘ 방문 설치 서비스가 있는지 알려줘 / 방문 설치 서비스가 있는지 알려 줄 수 있어? (같은 통사구조) ✘ 방문 설치 서비스 해줘 / 방문 설치 서비스 해? (같은 통사구조)
✔ 방문 설치하는 서비스 있나요? / 방문 설치 해주는 서비스 있나요?
거부된 예시 문장들은 문장의 패턴 다양성이 떨어진다. 단순히 제품의 종류를 나열하거나, 비슷한 동사가 반복되는 경우, 보조용언(알려줄 수 있다 / 알려줬으면 싶어 와 같이. 단독으로 사용이 불가한 용언)을 사용하는 경우는 패턴 다양성이 떨어지기에 거부한다. Builder 및 Validator는 되도록 반복되는 문장 구조를 사용하지 않는 것이 좋은 데이터 생성으로 이어진다는 것을 알아야 한다. 또한 다양한 문장구조와 더불어 다양한 동의어를 사용할 때 주어진 주제 문장과 다른 의도를 가진 문장으로 만들어지는 경우 또한 문장을 거부한다.
다음 예시와 같은 문장은 거절하는 것이 옳다
✘ 주변에 차 댈 곳이 있나요? (일반 문장 wrong relation)
예시 문장은 얼핏 보기에 구체적인 문장인 것으로 보인다. 하지만 주제 문장에서 제시하는 ‘매장'을 더 넓은 의미로 이야기하므로 일반 문장에 더 어울린다. 따라서 이러한 발화는 구체 문장에서는 거절하는 것이 옳다.
위와 달리 다음 예시는 검수자에 의해 거절해야하는 문장이다.
✘ 햄버거/커피/피자/치킨/… 배달 오면 현금으로 지불할게요 (명사의 반복 사용)
✘ 배달원이 현금을 받나요? (잘못된 연결, entailment에 가깝다)
두번째 문장은 주제 문장을 구체화한 문장이 아니지만 주제 문장과 동일한 의도를 가지고 있다. 이는 구체 문장보다는 함의 문장(entailment)에 더 가까운 문장이므로 구체 문장에서는 거절한다.
General (이하 일반 문장)은 주제 문장과 같은 의도를 가지지만 더 짧은 문장 또는 적은 어절을 가지고 있다. 일반 문장은 동사, 맥락, 상세한 의도의 설명 등이 덜 들어간 문장 형태를 가진다.
단어 단위, 문형 단위로 일반 문장을 생성할 경우 다음과 같은 특징을 가진다.
단어 단위: 주제 문장에서 사용하는 어휘를 의도에서 벗어나지 않을 정도의 광의(広意: 넓은 의미)의 개념으로 바꾼다. 예를 들어, ‘강아지’를 넓은 의미로 바꾸어 말하면 ‘개’, ‘반려동물 (문맥에 따라 야생동물)’, ‘동물’ 등으로 변환할 수 있다.
문형 기준: 주제 문장보다 짧게 만드는 것으로 쉽게 일반 문장을 생성할 수 있다. 또한 한국어는 주어나 목적어를 생략하는 형태로도 문장을 짧게 만들 수 있다. 자연적인 발화로 인정될 수 있으면 이는 일반 발화에 포함한다.
아래는 검수자에 의해 거절 되어야하는 문장의 예시이다.
✘ 핸드폰
✘ 새로운 기종
위 예시는 동사를 생략하는 것으로 주제 문장의 의도에 해당하는 “바꾸다"를 공유하지 않는 문장이다. 이와 같은 문장은 해석에 따라 다른 의도로 볼 수 있기에 일반 문장으로 받아들여지지 않는다.
다음은 검수자에 의해 거절 되어야하는 문장의 예시이다.
✘ 차 끌고가려고 (entailment에 해당)
✘ 매장 자동차 (의도 파악 불명)
위 문장 중 “차 끌고가려고"의 경우 자동차를 타고 간다 >> 주차가 필요하다 와 같은 의사전달이 가능하지만 이는 함의 문장에 해당하므로 일반 문장 검수 단계에서는 거절하는 것이 옳다. 두번째 문장인 “매장 자동차"의 경우, 해석에 따라 다른 의도로 볼 수 있기에 이는 받아들여지지 않는다.
다음은 검수자에 의해 거절되어야하는 문장의 예시이다.
✘ 지불할게요
✘ 배달 현금
주제 문장에서 제시하는 지불 방식은 ‘현금'으로 고정되어있다. 첫번째 문장 “지불할게요"는 지불 방식이 분명하지 않으므로 주제 문장의 일반 문장으로 받아들일 수 없다. 두번째 문장 “배달 현금”의 경우 해석에 따라 의도가 달라질 수 있기에 이는 받아들여지지 않는다.
Entailment (이하 함의 문장) 에서 “함의”의 뜻은 두 개의 문장이 있을 때 함의 문장이 참이면 뒤이어 나오는 문장이 참일 때를 뜻한다. 예를 들어 “나는 자동차로 통근한다.” 라는 함의 문장이 참일 때, “나는 자동차 면허가 있다.”또한 참이 된다. 함의 문장을 만들기 위해서는 주제 문장에서 제시하는 정보와 제시한 함의 문장이 서로 참이 되는지 신경써야한다. 함의 문장은 첫째, 서로 같은 의도를 공유하며 둘째, 주제 문장의 정보가 포함되어있으며 셋째, 주제 문장에서 사용하는 중심 단어(동사 또는 명사)를 최대한 사용하지 않는다. 다음은 가장 대표적인 함의 문장의 예시이다.
(1) 주제 문장: 교실 안이 춥다.
(2) 함의 문장 1: 교실 창문 닫아줄래?
(3) 함의 문장 2: 히터 켜도 돼?
함의 문장은 주어진 주제 문장과 다른 주제 문장으로 사용될 수도 있다. 하지만 함의 문장은 여전히 주제 문장과 같은 의도를 공유한다. 다음은 적절한 함의 문장의 기준이다.
함의 문장은 주제 문장과 같은 의도를 공유한다. 주제 문장과 자리를 바꿔도 그 의도가 같아야한다는 의미이다.
주제 문장이 참일 때, 함의 문장 또한 참이어야 한다.
함의 문장은 주제 문장에서 제시한 정보를 일정 부분 공유한다.
다음은 함의 문장의 예시이다.
다음은 검수자에 의해 거절되어야하는 문장의 예시이다.
✘ 다른 사람이 내 노트북을 만졌나봐요
함의 문장이 참일 때, 주제 문장또한 참이어야 함의 문장이 성립한다. 위 문장이 참이라고 할때 알 수 있는 정보는 “다른 사람이 노트북을 만졌다"이다. 이는 주제 문장의 “노트북 수리 필요 / 노트북 고장”의 정보를 공유하거나 참으로 만들지 않기에 이는 함의 문장이 아니며, 주제 문장의 의도에서 벗어난 문장이다.
다음은 검수자에 의해 거절되어야하는 문장의 예시이다.
✘ 옛날에 당신의 회사 기술 문서를 읽어봤어요
✘ 기술 문서 요청
첫번째 문장, “옛날에 당신의 회사 기술 문서를 읽어봤어요"가 참일 때 얻을 수 있는 정보는 “기술 문서를 읽었다. / 옛날에 기술 문서가 있었다" 이다. 이는 주제 문장에서 밝히는 “기술 문서를 보고싶다”와는 정보를 공유하지 않으므로 함의 문장으로 받아들일 수 없다.
두번째 문장, “기술 문서 요청"의 경우, ‘보여주세요’에서 제시하는 ‘요청'의 정보를 공유하지만 문장의 길이가 짧기에 함의 문장 보다는 일반 문장에 더 가깝게 취급한다. “기술 문서 따로 없어?” 와 비교하여 혼동이 올 수 있다. “기술 문서 따로 없어?”는 수사의문문으로 “기술 문서가 있는지 알 수 없다"의 정보를 가지고 있다. 수사의문문의 형태를 가진 문장은 함의 문장에 더 가깝게 취급한다.
다음 예시는 검수자에 의해 거절되어야하는 문장이다.
✘ 지금 전세 자금 대출 신청할 수 있죠?
✘ 전세 들어가는데 돈이 부족해
주제 문장의 의도는 “‘전세 자금 대출 신청 방법’의 정보 요청”이다. 하지만 위 문장은 정보가 아닌 ‘전세 자금 대출 신청'을 문장의 의도로 가지고 있기에 이는 함의 문장으로 받아들여질 수 없다.
다음 예시는 검수자에 의해 거절되어야하는 문장이다.
✘ 신용카드가 있어
주제 문장에서 제시하는 정보는 “신용카드가 있다 / 신용카드 활성화가 필요하다 / 신용카드 활성화 방법을 요구한다.”이다. 예시 문장의 “신용카드가 있다” 와 정보를 공유하지만, 주제 문장의 주된 의도인 “활성화"를 공유하지 않기에 이는 받아들여지지 않는다.
✘ 신용카드 쓰고 싶어
주제 문장에서 제시하는 정보와 비교하여 함의 문장의 “신용카드 사용하고 싶다”는 주된 의도인 “활성화”를 공유하지 않는다. 이 또한 함의 문장으로서는 받아들일 수 없다.
추가: 함의 문장은 구체 또는 일반 문장과 혼동되는 경우가 많다. 검수 단계에서는 일반 문장 / 구체 문장을 우선적으로 취급하며 함의 문장은 가능한한 주제 문장의 중심 내용(명사 또는 동사)을 사용하지 않고 그 뜻을 공유하는 문장을 주로 받아들이는 것이 빠른 검수에 도움을 줄 것이다.
좋은 데이터란 다음 요소를 반드시 포함한다. 전형성(typicality)와 패턴 다양성(pattern diversity)이다.
‘전형성'이란 주어진 주제 맥락 안에서 생성되는 발화 중 다른 의도로 해석되지 않으며 다른 문맥에서 사용될 여지가 적은 문장 형식을 가리킨다. 다르게 설명하면 전형성은 주어진 주제 맥락에서 발화되는 가장 “자연스럽고 일반적이며 본질적인" 문장을 말한다. 여기서 “자연스러움”은 모어 화자가 읽거나 들었을 때 자연스러운 문장인가에 대한 여부이다. “일반적이며 본질적인” 문장은 맥락에서 벗어나지 않으며 그 의도를 공유하는 문장을 의미한다.
한국어의 “자연스러운 문장"의 기준은 사투리, 번역체를 제외한 한국어 구어에서 나타날 수 있는 모든 발화를 뜻한다. 영어 등의 많은 수의 사람이 사용하는 언어의 특징인 문화적 차이 및 지역에 따른 표현의 차이가 한국어에는 크게 존재하지 않기에 이는 고려하지 않는다.
모든 캠페인은 각각의 분야(domain)을 설정하므로 캠페인의 내용을 정확히 확인하고 들어가는 것이 중요하다. 검수자 또한 분야 정보를 숙지하고 검수를 진행하여 더 나은 데이터를 제공하는 것이 옳다.
패턴 다양성을 가진 문장은 같은 의도를 가진 문장을 문법적으로 다양한 방법으로 변화한 내용을 말한다. 한국어 문법에서 다양성을 만들 수 있는 문장의 형태는, 각 문장성분의 생략, 사동 피동으로의 전환(-이,-히,-리,-기,-우,-구,-추), 문체법의 변화(의문, 명령, 청유, 평서문) 등이 있다.
Domain: 전자제품
Topic subject 1
구체 문장
방문 설치 서비스가 있나요?
✔ 전자 제품 방문 설치 서비스가 있나요?
✔ 이 제품은 방문 설치 서비스가 있나요?
✔ 해당 업체는 방문 설치 서비스가 있나요?
✔ 현장에 와서 설치하는 서비스를 제공하나요?
✔ 방문 설치 서비스가 있는지 알려줘
Domain: 쇼핑상황
Topic subject 2
Specific utterance
매장에 주차장이 있나요?
✔ 마트에 주차장이 있나요?
✔ 매장에 무료 주차장이 있나요?
✔ 매장에 손님용 주차장이 있는지 알려줘
✔ 매장에 차 댈 곳이 있나요?
✔ 마트에 지하주차장이 있는지 말해줘
Domain: 배달 음식
Topic subject 3
Specific utterance
배달 오면 현금으로 지불할게요
✔ 배달 음식 현금으로 낼 수 있어요?
✔ 배달 오면 현금으로 지불하는걸로 부탁해요
✔ 음식 배달 오면 카드 안쓰고 돈 낼 수 있어요?
✔ 시킨거 배달 오면 현금으로 낼게
✔ 배달 받고 현금으로 낼 수 있어?
Domain: 이동통신사
Topic subject 1
General utterance
핸드폰을 새로운 기종으로 바꾸고 싶어요
✔ 핸드폰 기기 변경 (또는 핸드폰 기변)
✔ 휴대폰 기변
✔ 핸드폰 신기종 변경 (새로운 기종 >> 신기종)
✔ 핸드폰 바꿀래
✔ 기기변경 (목적어 탈락)
Domain: 쇼핑상황
Topic subject 2
General utterance
매장에 주차장이 있나요?
✔ 거기 주차장 있어?
✔ 거기 주차 가능?
✔ 주차 가능 여부
✔ 매장 주차장
✔ 차 댈 수 있어?
Domain: 배달 음식
Topic subject 3
General utterance
배달 오면 현금으로 지불할게요
✔ 현금 지불
✔ 배달비 현금 지불
✔ 현금 지불 가능 여부
✔ 카드 말고 현금으로
✔ 오면 현금으로 낼게
Domain: 전자제품
Topic subject 1
Entailment utterance
노트북 수리해 줄 수 있어요?
✔ 노트북이 켜지지 않아요
✔ 노트북 산지 얼마 안됐는데 고장난 듯해요
✔ 랩탑 문제있어요
✔ 노트북 쓰는데 뭐가 자꾸 안돼요
✔ 노트북 고치는데 얼마 들어요?
Domain: 회사 정보
Topic subject 2
Entailment utterance
회사의 기술 문서를 보여주세요
✔ 회사 기술을 더 알고 싶어
✔ 이 회사는 무슨 기술을 사용해?
✔ 당신의 회사 기술에 관심이 있어
✔ 어떤 기술이 적용되었는지 알고 싶어
✔ 기술 문서 따로 없어?
Domain: 전세 자금 대출
Topic subject 3
Entailment utterance
전세 자금 대출 신청하는 방법 알려주세요
✔ 전세 대출 방법 모르겠어
✔ 전세 대출하는데 어떤 서류가 필요해?
✔ 전세 자금 대출 정보 알려줘
✔ 전세로 집 들어가려고 해
✔ 전세 대출 어디서 받아?
Domain: 신용카드
Topic subject 4
Entailment utterance
신용카드 활성화하는 방법 알려줘
✔ 우편으로 신용카드 받았어
✔ 새 신용카드 안되는데?
✔ 은행에서 신용카드 사용법 못들었어
✔ 신용카드 처음 받아봐
✔ 카드 받은거 어떻게 해야해?
Domain: 전자제품 & 일반
Topic subject
Entailment utterance
방문 설치 서비스가 있나요? (전자제품)
✘ 언제 올 수 있나요? (비약적인 의도 해석)
✘ 방문 서비스 요청 (일반 문장)
✘ 방문 설치 서비스 제공 하나요? (구체 문장)
뉴스레터 있나요? (일반)
✘ 본 사이트는 뉴스레터를 제공한다. (의도 불분명)
✘ 뉴스레터는 나에게 중요하다 (의도 비약적 해석)
✘ 누구라도 뉴스레터 받을 수 있지? (의도 불분명)
Domain: 음식 주문
Topic subject 1
Specific Utterances
피자 주문할래요
✔ 피자 배달 돼요? (자연스러움)
✘ 파인애플 먹을래 (문맥에서 크게 벗어남)
✘ 인생을 넓게 피자 (자연스럽지 못함)
의도
예시
결과
문체
예시
방법
예시
특정 행동을 원함
(음악을) 틀어줘. (불을) 켜줘
행동
평서
음악 틀어줘
어떻게
핸드폰에서
명령
재즈 음악 듣고 싶어
왜
심심하니까
청유
재즈 음악 틀 수 있어??
언제
지금 바로
의도
예시
결과
문체
예시
방법
예시
특정 주제에 대한 정보를 원함
모든 물체, 개념 등
정보
평서
재즈 음악이
정보 요청
뭔지 알려줘
동사 생략
재즈 음악
정보 요청
뜻
청유
재즈 음악이
정보 요청
뭔지 알아?