Python2 [NLP] 자연어 전처리 https://angiekang.tistory.com/27 정규표현식 post를 읽고 보시는 것을 권장합니다. 3. 전처리 이메일 제거 홍길동 abc@gmail.com 연락주세요! -> 홍길동 연락주세요! re.sub(r"[a-zA-Z0-9+-_.]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+", "", text).strip() strip() : 좌우 공백 제거 함수 해쉬태그 제거 대박! #맛집 #JMT -> 대박! re.sub(r"#\S+", "", text).strip() 멘션 태그 제거 @홍길동 감사합니다! -> 감사합니다! re.sub(r"@\w+", "", text).strip() URL 제거 주소: www.naver.com -> 주소: text = re.sub(r"(http|http.. 2022. 4. 11. [Python] 정규표현식 1. 정규표현식 1. 메타문자 [ ] 문자 클래스. [ ] 사이의 문자들과 매치 e.g. [abc] 가 주어진다면 a , b , c 한개의 문자만 있으면 매치 before은 b를 포함하므로 매치 [a-zA-Z] : 알파벳 모두 ^ : not [^0-9] : 숫자가 아닌 문자만 매치 \d : 숫자 = [0-9] \D : 숫자가 아닌 것 = [^0-9] \s: whitespace = [ \t\n\r\f\v] \S : whitespace 아닌 것 = [^ \t\n\r\f\v] \w : 문자+숫자 = [a-zA-Z0-9_] \W : 문자+숫자가 아닌 것 = [^a-zA-Z0-9_] Dot(.) \n 를 제외한 모든 문자와 매치 a.b : a + 모든문자 + b aab(매치), a0b(매치), abc(매치X) a.. 2022. 4. 11. 이전 1 다음