네이버에 '인공지능' 키워드를 넣고 뉴스를 검색해서 나오는 오늘 나온 기사들을 크롤링을 해봤다.
300개의 기사를 뽑았는데, 네이버 뉴스에서 인공지능을 검색해서 '최신순'으로 검색했을 때 나오는 결과랑 동일했다. 정렬된 것을 보니 네이버에 업로드된 시간(?)인지 기사 발행 시간을 기준으로 최신 기사들부터 나오는 것을 확인할 수 있다. 네이버 뉴스 기사 옵션에 보면 "관련도순"과 "최신순" 두 가지가 있는데, 최신순으로 뽑힌 것 같다.
그래서 "관련도순"으로 다시 뽑아보았다. 파라미터를 sim 으로 하면 정확도순으로 내림차순된다고 써있어서 이 파라미터를 추가해줬다. 참고로 크롤링할때 겟 메서드를 써서 줄 수 있는 파라미터들은 다음과 같다.
그런데 왜인지 sim 파라미터를 넣고 뽑은 뉴스들은 '관련도순'과 일치하지는 않는다. 다른 정렬법인가?
게다가 오늘 날짜의 기사들만 뽑히는 것이 아니라 다른 날짜의 기사도 뽑히고 있다.
좀더 자세히 봐야할 것 같은데 '최신순'으로 뽑힌 기사들은 기사 본문에 '인공지능'이 한번이라도 들어가면 다 나오는 것 같아서, 너무 자잘하고 중요하지 않은 기사들이 많이 포함되어 잇는 느낌.
그리고 정확도순은 좀 더 인공지능 단어가 여러 번, 제목에도 키워드가 포함된 기사들을 뽑아주는데, 보도자료 받아쓰기해서 나온듯한 똑같은 내용의 기사들이 중복해서 많이 나온다.
갠적으로 정확도순으로 뽑는 게 나을 것 같긴하다. 이 상태에서도 굵직한 주요 뉴스 뽑기가 쉽지 않을텐데, 너무 자잘한 얘기가 많은 건 걸러내기가 더 어려울 것 같아서.
다음 스텝 )
정확도순으로 기사를 1000건 정도 뽑고, 이중에 오늘 날짜가 아닌 뉴스는 따로 제거하자.
하나의 보도자료에서 파생된 받아써진 보도자료들은 하나만 남기고 모두 제거한다. (이걸 어떻게 구현할지가 문제...!)
중요한 기사를 판단할 기준을 마련한다. 클로드가 제안해준 걸로 1차 필터링: 키워드 기반(TF-IDF 활용)과 2차 필터링: GPT-4나 Claude로 중요도 평가가 있기는 한데, 이걸 좀 더 찾아보고 알아봐야할 것 같다.
+ 키워드 여러 개를 넣어서 검색하는 방법은 없을까?
'공부방 > 프로젝트' 카테고리의 다른 글
[AI안테나] LLM 뉴스 요약, solar pro와 gpt-4o-mini 비교 (1) | 2025.01.08 |
---|---|
[AI안테나] 두 번째 샘플 (0) | 2025.01.08 |
[AI안테나] 첫 번째 샘플 (0) | 2025.01.07 |
[AI_Antenna] 중복된 뉴스 기사 제거하기, tf-idf (2) | 2024.12.12 |
[AI_Antenna] 아이디어 정리 (3) | 2024.10.25 |