Term Project

[AI 스터디] 2. 허깅페이스(Hugging face) 기반 애플리케이션 아키텍쳐 설계

디벨롭디스트로이어 2025. 5. 29. 16:21

주제

주간보고 자동작성 시스템

JIRA에 등록된 이슈코드 (ex. DEV-0123 등) 들을 입력받아 해당 코드들에 대한 페이지들에 접근하여 주간보고를 작성한다.

 

 

 

개발환경

파이썬, 허깅페이스, 자바스크립트

 

기능 구분

허깅페이스 AI 처리기

허깅페이스 AI 연동 모듈

JIRA 로그인 모듈

JIRA 이슈 페이지 로딩 모듈 (입력된 이슈 코드들을 기반으로 페이지들을 로드한다)

JIRA 페이지 정보 분석 모듈 (이슈 시작, 종료일, 타이틀, 본문, 댓글 등을 파싱 필요가 있을까? 이 부분도 AI로 처리해서 2단계로 하는건 어떨지... (1) 파싱 => (2) 요약 순서로)

서비스용 웹페이지

 

개발 마일스톤

6월 1~2주차 : 파이썬 기반의 허깅페이스 개발환경 구성하기

6월 3~4주차 : 모델 선정

7월 1~2주차 : 실제 데이터 기반 요약에 대한 테스트 해보기 (임의의 HTML 제공)

7월 3~4주차 : JIRA 로그인 기능 만들기

8월 1~2주차 : HTML(JIRA 이슈 페이지) 로드 기능

8월 3~4주차 : HTML 파싱 및 요약 기능

9월 1~2주차 : 웹서비스(프론트) 개발 및 연동

 

고민거리

JIRA 자동 로그인 기능.. 과연 가능할지?

주간보고 포맷에 대한 것도 사용자에게 자유도를 주어야 할지? (그래야 의미가 더 있을 것 같음) 재미있긴 할 것 같다.

실제 JIRA 문서에서 제공하는 UI 형태로 생성해 낼 수 있을까? (EX. 이슈로 연결되는 특유의 버튼UI를 재현하기 위한 텍스트, 또는 색상, 크기, bold처리 등등..)

 

레퍼런스

한국어 BERT 계열 (문장 분류, QA, 개체명 인식 등)

klue/bert-base 한국어 표준 벤치마크인 KLUE 기반. 범용적인 문장 이해에 좋음
beomi/KcBERT SNS, 위키 기반. 실생활에 가까운 문장 처리에 강함
monologg/koelectra-base-discriminator ELECTRA 구조. 속도와 성능 모두 준수

 

한국어 GPT 계열 (텍스트 생성)

skt/kogpt2-base-v2 SKT에서 학습한 한국어 GPT-2 모델. 간단한 문장 생성 가능
skt/ko-gpt-trinity-1.2B-v0.5 SKT가 만든 13억 파라미터급 GPT. 업무용 생성에도 괜찮은 성능
beomi/KoGPT6B-ryan1.5b Beomi가 만든 GPT-3.5급 한국어 전용 모델. Colab에서 실행은 무거움

 

한국어 요약 / QA / 번역 특화

ainize/kobart-news-summary 뉴스 기사 요약 전용 KoBART 모델
klue/roberta-base + SQuAD 튜닝 한국어 질문-답변 작업에 강함
Helsinki-NLP/opus-mt-ko-en 한국어 → 영어 번역 (성능 꽤 괜찮음)

 

업무 자동화 모델 구현 방식

문서 자동 요약 ainize/kobart-news-summary 요약 파이프라인 사용
문장 생성 / 자동 회신 skt/kogpt2-base-v2 pipeline("text-generation")
감정 분석 beomi/KcBERT, klue/bert-base pipeline("text-classification")
질의응답형 챗봇 klue/bert-base + QA 튜닝 pipeline("question-answering")
텍스트 번역 Helsinki-NLP/opus-mt-ko-en pipeline("translation_ko_to_en")

 

기능 구현 도구 설명

JIRA 로그인 requests.Session + 쿠키 or Selenium 회사 JIRA가 SSO거나 보안 강화되었다면 Selenium이 더 안정적
이슈 상세 HTML 가져오기 requests or Selenium 로그인 상태 유지하며 페이지 가져오기
내용 파싱 (이슈 요약, 설명 등) BeautifulSoup HTML에서 필요한 내용 추출
자연어 요약 / 문장 정리 Hugging Face 모델 (e.g., kobart) 요약, 회의 보고서 포맷에 맞게 재작성
보고서 자동 생성 Markdown / Word / 텍스트 파일 등 원하는 포맷으로 저장

 

JIRA 로그인 처리 관련하여 셀레니옴을 이용하면 가능 할 듯 하다

from selenium import webdriver
from seleniuhttp://m.webdriver.common.by import By
from seleniuhttp://m.webdriver.common.keys import Keys

driver = webdriver.Chrome()
driver.get("https://your-company-jira.com/login")

# 로그인 입력
driver.find_element(By.ID, "username").send_keys("your-id")
driver.find_element(By.ID, "password").send_keys("your-password")
driver.find_element(By.ID, "login-submit").click()

# 로그인 후, 특정 이슈 페이지로 이동
driver.get("https://your-company-jira.com/browse/DEV-123")