문장 작성 및 검수 가이드라인
더 좋은 문장을 만들기 위해
검수 과정
검수자가 특정 발화를 검수할 때 자신에게 질문해야 하는 것은 다음 네 가지입니다:
발화의 관계가 제대로 설정되어 있나요?
발화가 분야 및 주제와 관련이 있나요?
문장 구성이 반복되지는 않나요?
소리내어 말했을 때 자연스럽나요?, 문법적으로 정확한가요?
질문들은 중요한 순서대로 나열한 내용입니다. 예를 들어, 발화가 올바른 범주(general, specific, entailment)에 있는지 확인하는 것이 자연스럽게 들리는지 여부보다 우선됩니다. 따라서 관계가 올바르지만 조금 어색하게 들리는 문장은 허용되는 반면, 관계가 올바르지 않은 문법적으로 완벽한 문장은 허용되지 않습니다. 같은 순서로 발화의 관계가 맞지만 문장 구성이 반복되는 경우 문장을 허용할 수 없습니다.
많은 경우, 검수자의 검수 기준은 빌더 가이드라인의 내용을 따라갑니다.
다음은 검수자에게 도움이 되는 "좋은 문장"의 기준입니다.
"좋은 문장"이란?
구체 (Specific)
Specific구체 문장은 주어진 문장을 새로이 수식하거나, 문장 구성 요소를 재구성 또는 동의어로 치환한 것을 뜻한다. 주어진 문장을 더 자세히 수식하거나, 문법적으로 다른 문장을 사용해 만들 수 있다. 단, 문장의 주된 요소를 뺄 수는 없다.
의미론적 기준: 발화 생성을 더 쉽게 하기 위해, 주어진 주제 문장에 자세한 사항을 더하는 것으로 문장을 만들 수 있다. 문장이 더 자세한 내용을 포함하면 구체 문장으로 처리한다.
문형 기준 : 주어진 주제 문장과 문법적으로 다른 문장을 사용해서도 구체 문장을 만들 수 있다. 만약 주어진 문장보다 같거나 더 많은 실질형태소(상태, 동작을 나타내는 형태소; 명사, 동사, 형용사, 부사가 이에 속한다.)로 문법적으로 다른 형태를 취할 때 해당 문장은 구체 문장으로 처리한다.
예시:
주어진 문장 Topic Sentence: 언제까지 지불해야 하나요? ('지불'에 이미 '돈/요금 을 내다' 라는 내용이 포함)
구체 문장 Specific Sentence: 요금을 내야하는 기한이 언제까지인가요?
일반 문장 (General)
General일반 문장은 주제문장과 같은 의도를 가지지만 더 일반적인 정보, 의도를 충분히 표현하는 방향에서의 정보의 함축의 형태를 띈다.
의미론적 기준: 주제 문장에서 사용하는 어휘를 의도에서 벗어나지 않을 정도의 광의(広意: 넓은 의미)의 개념으로 바꾼다. 예를 들어, ‘강아지’를 넓은 의미로 바꾸어 말하면 ‘개’, ‘반려동물 (문맥에 따라 야생동물)’, ‘동물’ 등으로 변환할 수 있다.
문형 기준: 주제 문장보다 짧게 만드는 것으로 쉽게 일반 문장을 생성할 수 있다. 또한 한국어는 주어나 목적어를 생략하는 형태로도 문장을 짧게 만들 수 있다. 자연적인 발화로 인정될 수 있으면 이는 일반 발화에 포함한다.
예시:
주어진 문장 Topic Sentence: 핸드폰을 새로운 기종으로 바꾸고 싶어요
구체 문장 General Sentence: 핸드폰 바꿀래
함의 문장 (Entailment)
Entailment 함의 문장은 두 개의 문장이 있을 때 함의 문장이 참이면 뒤이어 나오는 문장이 참일 때를 뜻한다. 함의 문장은 주어진 주제 문장과 다른 주제 문장으로 사용될 수도 있다. 함의 문장은 여전히 주제 문장과 같은 의도를 공유한다.
의미론적 기준: 주제 문장이 참일 때, 함의 문장 또한 참이어야 한다. 함의 문장은 주제 문장에서 제시한 정보를 일정 부분 공유한다. 예를 들어 ‘노트북의 수리가 필요하다'는 것은 ‘노트북이 어떠한 형식으로 고장이 났다'라는 정보를 가지고 있다. 또한 의도 문장의 원인이 되는 경우 또한 함의 문장으로 취급한다.
문형 기준: 함의 문장은 구체 또는 일반 문장과 혼동될 수 있다. 함의 문장은 주제 문장의 중심 내용(명사 또는 동사)을 사용하지 않고 문장의 의도를 공유하는 문장이다.
특징 1:
주어진 문장에 대해 의도가 같지만 구체Specific 또는 일반General 문장에 속하지 않는 경우
함의Entailment 문장으로 사용하는 것이 적합하다.
특징 2:
주어진 문장의 의도에 부합하는 원인을 나타내는 경우
함의Entailment 문장으로 사용하는 것이 적합하다.
(예시: 물 주세요 >> 목이 말라요)
예시:
주어진 문장 Topic Sentence: 노트북 수리가 필요해요
함의 문장 Entailment Sentence: 노트북이 켜지지 않아요
좋은 문장의 기준
1. 직접 발화: 평서문, 요청문 등 전형적인 발화
다른 차 볼래
나 다른 차 보여줬으면 좋겠어
좋은 문장은 ‘전형성’을 띄고 있다. ‘전형성'이란 주어진 주제 맥락 안에서 생성되는 발화 중 다른 의도로 해석되지 않으며 다른 문맥에서 사용될 여지가 적은 문장 형식을 가리킨다. 다르게 설명하면 전형성은 주어진 주제 맥락에서 발화되는 가장 “자연스럽고 일반적이며 본질적인" 문장을 말한다. 여기서 “자연스러움”은 모어 화자가 읽거나 들었을 때 자연스러운 문장인가에 대한 여부이다. “일반적이며 본질적인” 문장은 맥락에서 벗어나지 않으며 그 의도를 공유하는 문장을 의미한다.
2. 패턴 다양성을 가진 문장
패턴 다양성을 가진 문장은 같은 의도를 가진 문장을 문법적으로 다양한 방법으로 변화한 내용을 말한다. 한국어 문법에서 다양성을 만들 수 있는 문장의 형태는, 각 문장성분의 생략, 사동 피동으로의 전환(-이,-히,-리,-기,-우,-구,-추), 서법의 변화(의문, 명령, 청유, 평서문) 등이 있다.
3. 문장이 문법적으로 올바르며 자연스럽다.
문법적으로 올바르며 오/탈자 및 띄어쓰기 오류가 없는 문장이 필요하다.
오늘예약할수있는지알아볼수있는지알아봐줘 (x)
다양한 차가 볼지 있을지 모르어요 (x)
오늘 집에가도 되? (x)
4. 채팅용어, 은어는 전형성을 고려하여 허용한다.
자주쓰이는 채팅용어 및 은어 등은 허용한다. 단 욕설 및 비하발언은 피한다.
오늘은 아아 먹고싶은 기분 (아이스커피 - 아아 허용)
의도: 커피 시킬래요 (주문하기)
좋지 않은 문장은 다음과 같다.
1. 문장의 형태가 반복된다
같은 문장의 형태가 반복되는 경우, 중복된 데이터로서 사용 가치가 떨어진다.
페퍼로니 피자 시킬래 / 치즈 피자 시킬래 / 고기 피자 시킬래… (명사 수식의 반복)
피자 시킬래요 / 피자 시킬 수 있어요? / 피자 시키고 싶어요… (문장 형태의 중복)
2. 단일 단어 문장의 사용을 피한다.
한국어에서 두드러지는 문장 형태는, 단일 단어 문장이다. 이러한 형태는 데이터의 혼란을 야기한다.
주어진 의도가 “예산 내의 중고차를 보고 싶어요"일 때 다음과 같은 문장 생성은 피한다.
“중고차”, “예산 중고차”
구어적/문맥적으로 알아낼 수 있지만, AI는 문맥을 이해할 수 없기에 사용하지 않는다.
3. 의도에서 크게 벗어난 문장을 피한다.
주어진 의도가 “환불해 주세요” 일 때
“서비스가 개판이네”와 같은 문장은 그 의도를 확실히 파악하기 힘들다.
(서비스 개판 >> 서비스 질이 떨어짐 >> 사용자 마음에 들지 않음 >> 환불을 요청)과 같이 해석할 수 있지만 AI에게 있어 그러한 과잉 해석은 필요로 하지 않는다.
4. 청유문의 사용
청유문은 사용하지 않는다. (어미의 변화는 문장 구조의 중복이다.)
내가 오늘 무슨 피자 원하는지 말해볼래?
오늘 피자를 한번 먹어보자
5. 전형적인 발화가 아닐 경우.
의도를 알 수 없거나, 지역 방언 / 잘 쓰이지 않는 인터넷 속어 등은 사용하지 않는다. 전형적인 자연어를 사용한다.
오늘 피자 땡기는거 ㅇㅈ? 어 ㅇㅈ. (x)
환불하면 ㅆㅅㅌㅊ (x)
Last updated