機器之心 & ArXiv Weekly
(資料圖片僅供參考)
參與:楚航、羅若天、梅洪源
本周重要論文包括圖靈獎得主 Yann LeCun 世界模型的首項研究,以及 Meta 開源的文本生成音樂模型 MusicGen。
目錄:
Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture
Adversarial Example Does Good: Preventing Painting Imitation from Diffusion Models via Adversarial Examples
Disentangling Writer and Character Styles for Handwriting Generation
INSTRUCTEVAL: Towards Holistic Evaluation of Instruction-Tuned Large Language Models
Reverse Engineering Self-Supervised Learning
VideoComposer: Compositional Video Synthesis with Motion Controllability
Simple and Controllable Music Generation
ArXiv Weekly Radiostation:NLP、CV、ML 更多精選論文(附音頻)
論文 1:Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture
作者:Mahmoud Assran 等
論文鏈接:https://arxiv.org/pdf/2301.08243.pdf
摘要:讓 AI 像人類一樣學習和推理,這是人工智能邁向人類智能的重要一步。圖靈獎得主 Yann LeCun 曾提出自監督 + 世界模型的解決方案,如今終于有了第一個實實在在的視覺模型 —— I-JEPA。如下圖所示,I-JEPA 使用單個上下文塊來預測源自同一圖像的各種目標塊的表征。
推薦:LeCun 世界模型首項研究來了:自監督視覺,像人一樣學習和推理,已開源。
論文 2:Adversarial Example Does Good: Preventing Painting Imitation from Diffusion Models via Adversarial Examples
作者:Chumeng Liang 等
論文鏈接:https://arxiv.org/abs/2302.04578
摘要:本文介紹的是一篇收錄于 ICML 2023 Oral 的論文,論文由位于上海交通大學的上海市可擴展計算與系統重點實驗室、紐約大學和貝爾法斯特女王大學的華揚老師共同完成。論文的共同一作是即將攻讀南加州大學博士學位的梁楚盟和上海交通大學的研究生吳曉宇。
推薦:給圖片悄悄加上像素級水印:防止 AI「抄襲」藝術作品的方法找到了。
論文 3:Disentangling Writer and Character Styles for Handwriting Generation
作者:Gang Dai 等
論文鏈接:https://arxiv.org/abs/2303.14736
摘要:本文中,來自華南理工大學、新加坡國立大學、香港理工大學以及琶洲實驗室的研究者們聯合提出一種有趣的手寫文字生成方法,僅需提供少量的參考樣本即可臨摹用戶的書寫風格,進而生成符合該風格的任意文字。
推薦:會模仿筆跡的 AI,為你創造專屬字體,入選 CVPR 2023。
論文 4:INSTRUCTEVAL: Towards Holistic Evaluation of Instruction-Tuned Large Language Models
作者:Yew Ken Chia 等
論文鏈接:https://arxiv.org/abs/2306.04757
摘要:這么多年來,指令調優大語言模型的性能到底怎么樣呢?本研究提出了一個全新的評估套件,對它們在解決問題、寫作和對齊人類價值觀等方面進行了全面評估,結果可能超乎你的預料。研究者在下表 3 中提供了開源指令模型的整體概述。
推薦:四年了,基礎開源模型沒有真正進步,指令調優大模型評估驚人發現。
論文 5:Reverse Engineering Self-Supervised Learning
作者:Ido Ben-Shaul 等
論文鏈接:https://arxiv.org/abs/2305.15614v2
摘要:自監督學習可以利用輔助任務(pretext)無監督數據中挖掘自身的監督信息,通過這種構造的監督信息對網絡進行訓練,從而可以學習到對下游任務有價值的表征。近日,圖靈獎得主 Yann LeCun 在內的多位研究者發布了一項研究,宣稱對自監督學習進行了逆向工程,讓我們得以了解其訓練過程的內部行為。
為了直觀地理解 SSL 訓練,下圖 1 通過 UMAP 可視化展示了網絡的訓練樣本的嵌入空間,其中包含訓練前后的情況并分了不同層級。
推薦:Yann LeCun 團隊新研究成果:對自監督學習逆向工程,原來聚類是這樣實現的。
論文 6:VideoComposer: Compositional Video Synthesis with Motion Controllability
作者:Xiang Wang 等
論文鏈接:https://arxiv.org/abs/2306.02018
摘要:在 AI 繪畫領域,阿里提出的 Composer 和斯坦福提出的基于 Stable diffusion 的 ControlNet 引領了可控圖像生成的理論發展。但是,業界在可控視頻生成上的探索依舊處于相對空白的狀態。相比于圖像生成,可控的視頻更加復雜,因為除了視頻內容的空間的可控性之外,還需要滿足時間維度的可控性。基于此,阿里巴巴和螞蟻集團的研究團隊率先做出嘗試并提出了 VideoComposer,即通過組合式生成范式同時實現視頻在時間和空間兩個維度上的可控性。
該研究在 9 個不同的經典任務上直接測試 VideoComposer 的性能,均獲得滿意的結果,證明了 VideoComposer 通用性。
推薦:時間、空間可控的視頻生成走進現實,阿里大模型新作 VideoComposer 火了。
論文 7:Simple and Controllable Music Generation
作者:Jade Copet 等
論文鏈接:https://arxiv.org/pdf/2306.05284.pdf
摘要:年初,谷歌推出了音樂生成大模型 MusicLM,效果非常不錯。有人稱這比大火的 ChatGPT 還重要,幾乎解決了音樂生成問題。近日,Meta 也推出了自己的文本音樂生成模型 MusicGen,并且非商業用途免費使用。
如下輸入周杰倫《七里香》歌詞中的前兩句「窗外的麻雀在電線桿上多嘴,你說這一句 很有夏天的感覺」(支持中文)。
推薦:Meta 開源文本生成音樂大模型,我們用《七里香》歌詞試了下。
ArXiv Weekly Radiostation
機器之心聯合由楚航、羅若天、梅洪源發起的 ArXiv Weekly Radiostation,在 7 Papers 的基礎上,精選本周更多重要論文,包括 NLP、CV、ML 領域各 10 篇精選 , 并提供音頻形式的論文摘要簡介,詳情如下:
本周 10 篇 NLP 精選論文是:
1. Can Large Language Models Infer Causation from Correlation?. ( from Bernhard Sch lkopf )
2. Developing Speech Processing Pipelines for Police Accountability. ( from Dan Jurafsky )
3. SqueezeLLM: Dense-and-Sparse Quantization. ( from Michael W. Mahoney, Kurt Keutzer )
4. Morphosyntactic probing of multilingual BERT models. ( from Noah A. Smith )
5. ChatGPT for Us: Preserving Data Privacy in ChatGPT via Dialogue Text Ambiguation to Expand Mental Health Care Delivery. ( from Kai-Wei Chang, Majid Sarrafzadeh )
6. Language models are not naysayers: An analysis of language models on negation benchmarks. ( from Timothy Baldwin )
7. Modality Adaption or Regularization? A Case Study on End-to-End Speech Translation. ( from Jingbo Zhu )
8. Xiezhi: An Ever-Updating Benchmark for Holistic Domain Knowledge Evaluation. ( from Rui Xu )
9. Word sense extension. ( from Lei Yu )
10. Instruction Tuned Models are Quick Learners. ( from Chitta Baral )
本周 10 篇 CV 精選論文是:
1. Multi-Modal Classifiers for Open-Vocabulary Object Detection. ( from Andrew Zisserman )
2. AVIS: Autonomous Visual Information Seeking with Large Language Models. ( from Kai-Wei Chang, Cordelia Schmid )
3. SMC-UDA: Structure-Modal Constraint for Unsupervised Cross-Domain Renal Segmentation. ( from Rama Chellappa, Xinbo Gao )
4. Aladdin: Zero-Shot Hallucination of Stylized 3D Assets from Abstract Scene Descriptions. ( from Leonidas Guibas )
5. Adding 3D Geometry Control to Diffusion Models. ( from Alan Yuille )
6. Compositor: Bottom-up Clustering and Compositing for Robust Part and Object Segmentation. ( from Alan Yuille )
7. Teaching AI to Teach: Leveraging Limited Human Salience Data Into Unlimited Saliency-Based Training. ( from Kevin Bowyer )
8. Instant Multi-View Head Capture through Learnable Registration. ( from Michael J. Black )
9. FlowFormer: A Transformer Architecture and Its Masked Cos Volume Autoencoding for Optical Flow. ( from Xiaogang Wang )
10. MOFI: Learning Image Representations from Noisy Entity Annotated Images. ( from Jon Shlens )
本周 10 篇 ML 精選論文是:
1. A Comprehensive Survey on Applications of Transformers for Deep Learning Tasks. ( from Witold Pedrycz )
2. Inductive Linear Probing for Few-shot Node Classification. ( from Huan Liu )
3. Virtual Node Tuning for Few-shot Node Classification. ( from Huan Liu )
4. Understanding How Consistency Works in Federated Learning via Stage-wise Relaxed Initialization. ( from Dacheng Tao )
5. Extending Kernel PCA through Dualization: Sparsity, Robustness and Fast Algorithms. ( from Johan A. K. Suykens )
6. Variational Positive-incentive Noise: How Noise Benefits Models. ( from Xuelong Li )
7. Privacy Preserving Bayesian Federated Learning in Heterogeneous Settings. ( from Joydeep Ghosh )
8. One-for-All: Generalized LoRA for Parameter-Efficient Fine-tuning. ( from Eric Xing )
9. Identification of Nonlinear Latent Hierarchical Models. ( from Eric Xing )
10. Composing Efficient, Robust Tests for Policy Selection. ( from Peter Stone )
THE END
轉載請聯系本公眾號獲得授權
投稿或尋求報道:content@jiqizhixin.com
頭條 23-06-18
頭條 23-06-18
頭條 23-06-18
頭條 23-06-18
頭條 23-06-18
頭條 23-06-18
頭條 23-06-18
頭條 23-06-18
頭條 23-06-18
頭條 23-06-18
頭條 23-06-18
頭條 23-06-18
頭條 23-06-18
頭條 23-06-18
頭條 23-06-17
頭條 23-06-17
頭條 23-06-17
頭條 23-06-17
頭條 23-06-17
頭條 23-06-17
頭條 23-06-17
頭條 23-06-17
頭條 23-06-17
頭條 23-06-17
頭條 23-06-17
頭條 23-06-17
頭條 23-06-17
頭條 23-06-17
頭條 23-06-17
頭條 23-06-17
頭條 23-06-16
頭條 23-06-16
頭條 23-06-16
頭條 23-06-16
頭條 23-06-16
頭條 23-06-16
頭條 23-06-16
頭條 23-06-16
頭條 23-06-16
頭條 23-06-16
頭條 23-06-16
頭條 23-06-16
頭條 23-06-16
頭條 23-06-16
頭條 23-06-16
頭條 23-06-16
頭條 23-06-16
頭條 23-06-16
頭條 23-06-16
頭條 23-06-16
頭條 23-06-16
頭條 23-06-16
頭條 23-06-16
頭條 23-06-16
頭條 23-06-16