Daily Discussion
  • Introduction
  • [001]持續投入的領域
  • [002]階層逆襲
  • [003]轉行業的討論
  • [004]考研的建議
  • [005]貧富差距的體驗
  • [006]害怕選擇,安全感不足怎麼辦?
  • [007]一個內心強大的人是什麼樣子?
  • [008]如何克服在職場上,對上司的恐懼心理
  • [009]为什么《西游记》里的妖怪都有拖延症,迟迟不吃唐僧?
  • [010]老闆的買菸問題
  • [011]是先成家還是先立業
  • [012]金錢面前,親情真的淡薄如紙嗎?
  • [013]當你離職時,領導極力挽留,我想問此時領導一般是怎麼想的?
  • [014]遇到別人不尊重自己怎麼辦?
  • [015]北斗地圖即將5月上線,這代表著什麼?會有什麼影響?
  • [016]如何看待婚前性行為
  • [017]人該不該有仇恨心理?
  • [018]為什麼有的人總是容易生氣?
  • [019]如何有效地溝通?
  • [020]在親密關係,如何表達我在生氣,同時又不至於讓關係變疏遠
  • [021]如何判斷一個人適合成為好朋友還是戀人?
  • [022]當不被人理解時,你會堅持自我還是改變自我?
  • [023]有哪些知識或常識,你會奇怪他人居然不知道?
  • [024]为什么快手、抖音等短视频网站比知乎、豆瓣发展得要好,用户多那么多?
  • [025]你聽過管理者最暖心的一句話是什麼?
  • [026]唐僧师徒四人一马,必须辞退一个,你会辞退谁?为什么?
  • [027]中國人身上有什麼獨特的(其他國家、民族不具備)的好東西嗎?
  • [028]跟老人住在一起,老人的什么习惯是你最不能忍受的?
  • [029]跟老人住在一起,你的什么习惯是老人最不能忍受的?
  • [030]你看过哪些让人印象深刻的采访?
  • [031]你認為有哪些越早明白越好的人生道理?
  • [032]有哪些令人驚艷的紀錄片?
  • [033]手機裡最實用的APP是哪個?
  • [034]場景題:兩性相處的協商
  • [035]QQ突然大面积故障!消息发不出去,那个时候你在想...
  • [036]快樂教育與軍事化教育
  • [037]兩性議題:老少配
  • [038]快遞員問題
  • [039]社交溝通議題
  • [040]工作與生活的平衡
  • [041]情感議題
  • [042]如何系統地學習一個領域,建立起基本的認知
  • [043]為什麼害怕做簡單容易的事?
  • [044]寫手的掉粉原因
  • [045]你有没有花了很长时间才想明白一个很简单的道理的经历?
  • [046]如何面對威脅生命的疼痛或疾病經歷
  • [047]高学历女性做全职妈妈,是不是社会的资源浪费?
  • [048]为什么说“产房最能见人心”?
  • [049]污辱觀眾智商的廣告
  • [050]为什么面试官要问“你父母是做什么的”这种问题?
  • [051]支付寶付費問題
  • [052]書本知識和經驗哪一個更重要?
  • [053]领导提拔别人,却把大量工作交给自己该怎么办?
  • [054]社區附近建新工廠的利與弊
  • [055]为什么越是底層出生的人,越安於現狀?
  • [056]如何讓自己氣場變強大?
  • [057]運氣與成功有關嗎?
  • [058]大學撥給圖書館和用於學生體育活動的經費是否應等同?
  • [059]人們為什麼要參觀博物館?
  • [060]在家吃飯還是外食?
  • [061]出席課堂是必須還是可選?
  • [062]好鄰居須具備哪些特質?
  • [063]你對在社區新建一家餐館有何看法?
  • [064]自學還是從師?
  • [065]週回顧決定
  • [066]週總結
  • [067]lexisnexis academic
  • [068]LexisNexis Diligence-全球風險控制調查資料庫
  • [069]Compendex
  • [070]Web of science
  • [071]Journal citation report
  • [072]週總結-LexisNexis Academic & LexisNexis Diligence
  • [073]週總結-Compendex & Web of Science
  • [074]Ch1-Introduction of Fault Tolerant Computing
  • [075]Ch2-Modeling and Evaluation
  • [076]Ch3-Information Redundancy and Coding
  • [077]Ch4-Error detection with time redundancy
  • [078]Ch5-Control Flow Checking
  • [079]Ch6-Checkpointing and Recovery
  • [080]Ch7-Replication
  • [081]Natural Language Processing
  • [082]Vector space model
  • [083]Evaluation of TR system
  • [084]Probabilistic Model
  • [085]Feedback on Text Retrieval
  • [086]Web search
  • [087]2018年上半年總結(1)-完成工作
  • [088]2018年上半年總結(2)-原計畫做但是卻沒有做到的事
  • [089]2018年上半年總結(3)-仍存在的問題與困惑
  • [090]2018年上半年總結(5)-下半年改進方向與工作計畫
  • [091]CH1 傳播的六種話語
  • [092]CH2 詮釋與構建(1)
  • [093]CH2 詮釋與構建(2)
  • [094]CH3 理論與研究範式(1)
  • [095]CH3 理論與研究範式(2)
  • [096]CH4 大眾傳播中的宣傳與說服(1)
  • [097]CH4 大眾傳播中的宣傳與說服(2)
  • [098]CH4 大眾傳播中的宣傳與說服(3)
  • [099]CH5 從功能到效果(1)
  • [100]socket作業
Powered by GitBook
On this page
  • Text Retrieval and Search Engines(6)-Web search
  • [086]Web search
  • 6.1 Learning to Rank
  • 6.2 Future of web search
  • Future Intelligent Information Systems
  • 6.3 recommend systems:content-based filtering
  • 6.4: Recommender Systems: Collaborative Filtering
  • 6.5: Course Summary

Was this helpful?

[086]Web search

2018-06-30(六)

Text Retrieval and Search Engines(6)-Web search

[086]Web search

  • 6.1 Learning to Rank

  • 6.2 Future of web search

  • 6.3 Recommend systems:Content-based filtering

  • 6.4:Recommender Systems: Collaborative Filtering

  • 6.5: Course Summary

6.1 Learning to Rank

  • Given a query-doc, define various kinds of features Xi(Q,D)

結合feature案例,

  • 一、重複term的數量、

  • 二、BM25的score,

  • 三、p(Q|D),

  • 四、PageRank of D

  • 五、BM25Anchor

  • 假設 p(R=1|Q,D)=s(X1(Q,D),…,Xn(Q,D), λ) Learn λ, 透由fitting function with training data,

  • 例如3-turple like (D,Q,1) 代表document is relevant to query

  • 更進階的演算法,能應用到rank problems beyond search,像recommender system/computation advertising

  • 總結來看,machine learning方式用在text retrieval已經幾十年(Rocchio feedback),最近被用來large-scale training data分析, many feature的結合

6.2 Future of web search

  • More specialized/customized (vertical search engine)

  • Special group(Ei Compendex)

  • Personalized (youtube, nexflix)

  • beyond search to support tasks(e.g., shopping)

The data-user-service (DUS) Triangle

  • Data:web pages, new articles, blog articles, literature, email

  • Services: search, browsing, mining, task support

  • Users: lawyers, scientists, online shoppers

Future Intelligent Information Systems

  • search出發, 會access&mining 資料,然後做task support

  • 而search相鄰兩點是keyword queries, bag of words, 前者會存入search history並形成一個user model; 後者會做entities-relations, 並且做knowledge representation (大規模的語義分析)

6.3 recommend systems:content-based filtering

  • 在push & pull mode中,前者代表的例子是recommender systems,特性是系統主導、穩定的information need 或者系統對user有豐富的理解

  • 而recommender 更像一個filter system, 而基本的filter問題是:Will User U Like Item X?

  • 這個問題有兩個方向,

    • 第一是Item similarity=>content-based filtering

    • 第二是User similarity=>collaborative filtering

    • 兩者能夠相互結合。

  • a typical content-based filtering system:

    • Linear Utility = 3 #good-2#bad (這樣設置合理嗎?)

    • 或者說(10,-1),(1,-10)

Three Basic Problems in content-based filtering

  • 1.對doc, text做出yes/no的決定

  • 2.初始化:像是nexflix起初選三個電影

  • 3.學習:從yes/no judgement判斷,還有看過的doc

  • 所以,我們延伸retrieval system來做資訊篩選,例如用”reuse retrieval” technique來做doc的score,或者用新的approach來制定threshold

  • 因此,我們用“A general Vector-space approach”當作起點,doc會經過scoring, thresholding來判定utility的值

  • 不過,在設立threshold時,會遇到一些難題,像是Many documents are not available for judgments. 解法是“empirical Utility optimization”, 計算utility on training data for each candidate score,

  • 具體的解法叫:“beta-gamma threshold learning”(利用性與探索性的平衡) 探索性太高,utility就會往”零“靠近,使得doc 是non-relevant

6.4: Recommender Systems: Collaborative Filtering

  • Collaborative filtering定義:根據其他user的judgement, 來對個人的doc做篩選

  • Given a user u, find similar users {u1,u2,…um} 使用CF是有一個前題假設,要有足夠的user preferences // 否則會有”cold start”問題

  • 先從collaboration filtering problem來看,用objects & users的組合,做一張評分表格

  • Memory-based approach:整體概念是用數學式表示不同users對各種objects做出表示

  • Cold start:代表一開始很少其他user的資料,以至於不容易做filter

6.5: Course Summary

  • 1.NLP is foundation for text retrieval (TR), but current NLP isn’t robust enough; Bag of words (BOW) is sufficient for most search tasks.

  • 2.Push vs. pull; Query vs. Browsing

  • 3.TR->Ranking problem

  • 4.Many trivial methods: VSM(vector space model), LM(Language model approach), TF-IDF (Term frequency-Inverse document frequency), Length Norm(document length normalization)

  • 6.Implementation :Inverted index+fast search

  • 7.Evaluation: The Cranfield collection, MAP(Mean Average Precision), nDCG(Normalized Discounted Cumulative Gain), Precision and Recall

  • 9.Feedback: Rocchio in VSM and the mixture model and language model

  • 10.Web search: MapReduce for parallel indexing, The PageRank Algorithm, Hypertext-Induced Topic Search (HITS), learn to rank, Future of web search

  • 11.Recommendation: Content-based + collaborative filtering

Previous[085]Feedback on Text RetrievalNext[087]2018年上半年總結(1)-完成工作

Last updated 6 years ago

Was this helpful?