만들고 싶은 것
반자동화된 인공지능 뉴스 잡지(저널)
AI가 업계 뉴스를 크롤링하거나 수집하고, 일차적인 중요도를 판단하게 합니다. 중요한 뉴스에 대해서는 요약을 제공하고, 심화적인 내용은 RAG를 활용해 대답해줄 수 있게 합니다. 마지막으로 사람의 인사이트가 담긴 얘기는 직접 인터뷰하고 이를 정리, 기사를 작성해 함께 내보내는 것이 이 사이드 프로젝트의 목표입니다.
실행 단계
1. 뉴스 크롤링
한글로 된 뉴스 기사는 몇 개를 크롤링할지
영어로 된 뉴스 기사는 몇 개를 크롤링할지
언론사에서 나온 기사가 아닌, 트위터나 sns에 올라온 글, 각종 빅테크 홈페이지의 보도자료는 어떻게 가져올지
크롤링 한 데이터는 어떤 형식으로 저장하고, 어떻게 관리할 것인지?
크롤링 도구: Python의 Scrapy나 Selenium 프레임워크 사용
수집 대상: 빅테크 기업 블로그 / Google AI, Meta AI, Microsoft Research, EU AI Act, arXiv, Papers with Code, Google Scholar, https://huggingface.co/papers, https://discuss.pytorch.kr/c/news/14
저장 및 관리 : MongoDB 사용 추천. 문서 기반 저장소. 비정형 데이터 처리에 적합. 정기적인 크롤링을 위해서는 Airflow로 파이프라인 자동화하면 좋을 듯.
2. 중요한 뉴스 선별 - how?
어떤 뉴스가 중요한 뉴스인가 기준을 세우고 파이프라인화 하기
ex) 뉴스에 기업 이름이 몇 번 이상 나왔다 / 제목에 어떤 기업 이름이 있다 / 뉴스에 특장 포맷을 가진 문장이 있다 ...
또는 챗GPT 활용할 수도 있음. 프롬프트를 정교하게 만들어서 API 사용해서 시키기.
분류 모델을 사용해볼 수도 있다. 내가 직접 뉴스를 보고 o, x 태깅을 함. 그리고 bert같은 모델로 학습을 시키면 중요도를 확률로 계산시키고, 특정값 이상을 갖는 뉴스를 중요하게 판단할 수도 있어.
1차 필터링: 키워드 기반 (TF-IDF 활용)
2차 필터링: GPT-4나 Claude로 중요도 평가
3. 뉴스 요약 또는 설명 생성
- OpenAI API나 Anthropic API 활용
- 구조화된 요약 템플릿 사용:
4. 맞춤법이나 잘못된 내용이 없는지 팩트체크, 레퍼런스
맞춤법: PyKoSpacing, hanspell 라이브러리
팩트체크:
- 원문 링크 보관
- GPT-4로 사실관계 재확인
- 인용문 정확성 검증
5. 사람이 검수 후 뉴스레터로 발송
- 최종 검토 및 발송
- 웹 기반 에디터 구축 (React + Node.js)
- 뉴스레터 플랫폼 연동 (Mailchimp API나 Substack API)
'공부방 > 프로젝트' 카테고리의 다른 글
[AI안테나] LLM 뉴스 요약, solar pro와 gpt-4o-mini 비교 (1) | 2025.01.08 |
---|---|
[AI안테나] 두 번째 샘플 (0) | 2025.01.08 |
[AI안테나] 첫 번째 샘플 (0) | 2025.01.07 |
[AI_Antenna] 중복된 뉴스 기사 제거하기, tf-idf (2) | 2024.12.12 |
[AI_Antenna] 네이버 뉴스 크롤링 (1) | 2024.10.26 |