Towards Generation of Fluent Referring Action
الوسائط المتعددة